Théorie de Sturm-Liouville

En mathématiques, la théorie de Sturm-Liouville étudie le cas particulier des équations différentielles linéaires scalaires d'ordre deux de la forme

d d x + q ( x ) y = λ w ( x ) y , ( 1 ) {\displaystyle {d \over dx}\left+q(x)y=\lambda w(x)y,\qquad (1)}

dans laquelle le paramètre λ fait partie comme la fonction y des inconnues. La fonction w(x) est souvent appelé fonction "poids" ou "densité". Cette équation est fréquemment posée sur un segment et accompagnée de conditions aux limites reliant les valeurs y ( a ) {\displaystyle y(a)} , y ′ ( a ) {\displaystyle y'(a)} , y ( b ) {\displaystyle y(b)} et y ′ ( b ) {\displaystyle y'(b)} . Les solutions λ et y du problème apparaissent alors comme valeur propre et vecteur propre de l'opérateur autoadjoint :

L = − 1 w ( x ) ( d d x + q ( x ) ) {\displaystyle L=-{\frac {1}{w(x)}}\left({\frac {d}{dx}}\left+q(x)\right)}

dans un espace de Hilbert L2(, w(x) dx) des fonctions de carré sommable sur l'intervalle , muni de la mesure w(x)dx et du produit scalaire défini par :

⟨ f , g ⟩ = ∫ a b f ( x ) g ( x ) w ( x ) d x {\displaystyle \langle f,g\rangle =\int _{a}^{b}{f(x)g(x)\,w(x)\,\mathrm {d} x}} .

Le résultat principal de la théorie est l'existence d'une base hilbertienne de vecteurs propres associés à des valeurs propres formant une suite strictement croissante.

Cette théorie porte le nom des mathématiciens Charles Sturm (1803-1855) et Joseph Liouville (1809-1882) qui travaillèrent conjointement à sa mise en forme.

Forme de Sturm-Liouville pour une équation homogène

Propriétés générales

De façon générale une équation différentielle linéaire d'ordre deux, scalaire, homogène, de forme générale :

A ( x ) y ″ + B ( x ) y ′ + C ( x ) y = 0 {\displaystyle A(x)y''+B(x)y'+C(x)y=0\,} ,

peut être mise sous la forme dite de Sturm-Liouville, avec une fonction p à valeurs strictement positives, soit:

d d x + ( q ( x ) − λ w ( x ) ) y ( x ) = 0 {\displaystyle {\mathrm {d} \over \mathrm {d} x}\left+\left(q(x)-\lambda w(x)\right)y(x)=0} ,

λ étant en général une variable réelle (ou plus généralement complexe) pouvant prendre plusieurs valeurs, et w(x) une fonction régulière à valeurs positive appelée « fonction poids ».

Toutes les équations différentielles linéaires homogènes d'ordre deux ne se mettent pas nécessairement de façon évidente sous la forme de Sturm-Liouville, en général il faut pour cela utiliser un facteur intégrant. En l'occurrence, après division par A(x), l'équation précédente se met sous la forme :

y ″ ( x ) + B A ( x ) y ′ ( x ) + C ( x ) A ( x ) y ( x ) = 0 {\displaystyle y''(x)+{\frac {B}{A}}(x)y'(x)+{\frac {C(x)}{A(x)}}y(x)=0} ,

il s'agit alors de trouver une fonction p ( x ) {\displaystyle p(x)} qui permette de la mettre sous la forme de Sturm-Liouville. Or après multiplication on a:

p ( x ) y ″ + p ( x ) B A ( x ) y ′ + p ( x ) C ( x ) A ( x ) y = 0 {\displaystyle p(x)y''+p(x){\frac {B}{A}}(x)y'+p(x){\frac {C(x)}{A(x)}}y=0} ,

ce qui implique par identification que p(x) doit être telle que p ′ ( x ) = p ( x ) B ( x ) A ( x ) {\displaystyle p'(x)=p(x){\frac {B(x)}{A(x)}}} , par suite il suffit de prendre formellement:

p ( x ) = exp ⁡ ( ∫ B ( x ) A ( x ) d x ) , {\displaystyle p(x)=\exp \left(\int {\frac {B(x)}{A(x)}}\,\mathrm {d} x\right),}

pour obtenir le résultat désiré (la fonction p est par construction à valeurs positives). Le terme d'ordre 0 se met alors sous la forme p ( x ) C ( x ) A ( x ) {\displaystyle p(x){\frac {C(x)}{A(x)}}} , qu'il est toujours possible d'écrire, sans perte de généralité, sous la forme ( q ( x ) − λ w ( x ) ) {\displaystyle (q(x)-\lambda w(x))} .

Remarque: il peut aussi arriver que la fonction « poids » w(x) apparaisse lorsque l'on cherche à transformer le facteur devant la dérivée seconde de façon que l'équation puisse être mise sous la forme de Sturm-Liouville directement, ou encore pour que le facteur intégrant puisse être effectivement évalué analytiquement.

Cette technique ne peut pas être généralisée aux équations vectorielles. Toutefois, elle peut être utilisée pour les équations aux dérivées partielles, en se ramenant à des équations différentielles ordinaires par la méthode de séparation des variables. Dans l'article original de Liouville sur la question, l'équation de la chaleur était d'ailleurs donnée en exemple introductif.

Exemples

Voici pour quelques équations classiques, la forme de Sturm-Liouville correspondante :

x 2 y ″ + x y ′ + ( μ 2 x 2 − ν 2 ) y = 0 ( x y ′ ) ′ + ( μ 2 x − ν 2 / x ) y = 0 {\displaystyle x^{2}y''+xy'+(\mu ^{2}x^{2}-\nu ^{2})y=0\qquad (xy')'+(\mu ^{2}x-\nu ^{2}/x)y=0} , ici p ( x ) = x , q ( x ) = μ 2 x , λ = ν 2 , w ( x ) = 1 / x {\displaystyle p(x)=x,\qquad q(x)=\mu ^{2}x,\qquad \lambda =\nu ^{2},\qquad w(x)=1/x} . ( 1 − x 2 ) y ″ − 2 x y ′ + ν ( ν + 1 ) y = 0 ′ + ν ( ν + 1 ) y = 0 {\displaystyle (1-x^{2})y''-2xy'+\nu (\nu +1)y=0\qquad '+\nu (\nu +1)y=0} ici p ( x ) = ( 1 − x 2 ) , q ( x ) = 0 , λ = − ν ( ν + 1 ) , w ( x ) = 1 {\displaystyle p(x)=(1-x^{2}),\qquad q(x)=0,\qquad \lambda =-\nu (\nu +1),\qquad w(x)=1} . x 3 y ″ − x y ′ + a y = 0 {\displaystyle x^{3}y''-xy'+ay=0} , avec a constante réelle, qui correspond à A ( x ) = x 3 {\displaystyle A(x)=x^{3}} , B ( x ) = − x {\displaystyle B(x)=-x} , et C ( x ) = 2 {\displaystyle C(x)=2} , après division par x 3 {\displaystyle x^{3}} et par multiplication par le facteur intégrant: p ( x ) = exp ⁡ ( ∫ − 1 x 2 ( x ) d x ) = e ( 1 x ) {\displaystyle p(x)=\exp \left(\int -{\frac {1}{x^{2}}}(x)\,dx\right)=e^{\left({\frac {1}{x}}\right)}} , forme de Sturm-Liouville s'écrit ( e 1 / x y ′ ) ′ + a e 1 / x x 3 y = 0 {\displaystyle (e^{1/x}y')'+{ae^{1/x} \over x^{3}}y=0} , il est possible de poser q ( x ) = 0 , w ( x ) = e 1 / x x 3 , λ = − a {\displaystyle q(x)=0,\quad w(x)={\frac {e^{1/x}}{x^{3}}},\quad \lambda =-a} , pour se ramener à la forme générale de Sturm-Liouville.

Le théorème de comparaison de Sturm

Article détaillé : Théorème de comparaison de Sturm-Picone.

Le théorème donne un lien entre les solutions de deux équations différentielles de Sturm-Liouville

( E 1 ) d d x + q 1 ( x ) y ( x ) = 0 {\displaystyle (E_{1})\qquad {d \over dx}\left+q_{1}(x)y(x)=0} ( E 2 ) d d x + q 2 ( x ) y ( x ) = 0 {\displaystyle (E_{2})\qquad {d \over dx}\left+q_{2}(x)y(x)=0}

On suppose que pour tout élément x ∈ {\displaystyle x\in } , p 1 ( x ) ≥ p 2 ( x ) > 0 {\displaystyle p_{1}(x)\geq p_{2}(x)>0} et q 1 ( x ) ≤ q 2 ( x ) {\displaystyle q_{1}(x)\leq q_{2}(x)} .

Alors si y1 est une solution non triviale de l'équation différentielle E1 et si y2 est solution de E2, entre deux zéros de y1 se trouve un zéro de y2.

Problème de Sturm-Liouville

L'association de la forme de Sturm-Liouville avec des conditions aux limites sur l'intervalle permet d'envisager une situation particulière, appelée problème de Sturm-Liouville.

Position du problème

Le problème est constitué de l'équation différentielle (1) et des conditions aux limites (supposées non triviales)

{ α 1 y ( a ) + α 2 y ′ ( a ) = 0 β 1 y ( b ) + β 2 y ′ ( b ) = 0 ( 2 ) . {\displaystyle {\begin{cases}\alpha _{1}y(a)+\alpha _{2}y'(a)&=0\\\beta _{1}y(b)+\beta _{2}y'(b)&=0\end{cases}}\qquad (2).}

Ces conditions aux limites sont dites séparées, car elles portent chacune sur une extrémité de l'intervalle .

L'opérateur de Sturm-Liouville associé est l'opérateur différentiel

∀ u ∈ L 2 ( ) , L u = − 1 w ( x ) + q ( x ) u ] . {\displaystyle \forall u\in L^{2}\left(\right),\qquad Lu=-{\frac {1}{w(x)}}\left+q(x)u\right].}

Avec ces notations, l'équation différentielle se met sous la forme d'une équation aux valeurs propres :

L y ( x ) = λ y ( x ) {\displaystyle Ly(x)=\lambda y(x)} .

L'espace L2() des fonctions de carré sommable sur l'intervalle est muni du produit scalaire suivant :

∀ f , g ∈ L 2 ( ) , ⟨ f , g ⟩ = ∫ a b f ( x ) g ( x ) w ( x ) d x {\displaystyle \forall f,g\in L^{2}\left(\right),\qquad \langle f,g\rangle =\int _{a}^{b}{f(x)g(x)w(x)dx}} .

Dans cette définition, la fonction w(x) apparaît comme une « pondération » dans le produit scalaire, d'où le nom de « fonction poids » qui lui est souvent donné. Il s'agit en fait de la densité de la mesure définie sur l'espace L2(), qui muni de ce produit scalaire est un espace de Hilbert.

Résultats

Dans ce cas, le problème de Sturm-Liouville peut être résolu, avec les résultats suivants :

Les deux premières propriétés découlent pour l'essentiel du fait que l'opérateur de Sturm-Liouville est autoadjoint :

∀ f , g ∈ L 2 ( , w ( x ) d x ) , ⟨ L f , g ⟩ = ⟨ f , L g ⟩ {\displaystyle \forall f,g\in L^{2}\left(,w(x)dx\right),\quad \langle Lf,g\rangle =\langle f,Lg\rangle } .

La dernière se démontre à partir du théorème de comparaison de Sturm précédent.

Démonstration

Cette propriété se démontre directement en procédant à une double intégration par parties sur le terme différentiel de l'opérateur, et en tenant compte des conditions aux limites imposées par le problème, qui impliquent que les termes intégraux qui apparaissent sont nuls :

⟨ L f , g ⟩ = ∫ a b g ( x ) d x = ∫ a b d d x ( p ( x ) d f d x ) g ( x ) d x + ∫ a b g ( x ) q ( x ) f ( x ) d x {\displaystyle \langle Lf,g\rangle =\int _{a}^{b}{\leftg(x)dx}=\int _{a}^{b}{{\frac {d}{dx}}\left(p(x){\frac {df}{dx}}\right)g(x)dx}+\int _{a}^{b}{g(x)q(x)f(x)dx}} ,

soit en transformant uniquement la première intégrale à droite, tenant compte de la nullité des termes intégraux du fait des conditions aux limites :

∫ a b d d x ( p ( x ) d f d x ) g ( x ) d x = p ( x ) f ′ ( x ) g ( x ) | a b − ∫ a b p ( x ) f ′ ( x ) g ′ ( x ) d x = p ( x ) g ′ ( x ) f ( x ) | a b + ∫ a b d d x ( p ( x ) d g d x ) f ( x ) d x , {\displaystyle {\begin{aligned}\int _{a}^{b}{{\frac {d}{dx}}\left(p(x){\frac {df}{dx}}\right)g(x)dx}&=p(x)f'(x)g(x)|_{a}^{b}-\int _{a}^{b}{p(x)f'(x)g'(x)dx}\\&=p(x)g'(x)f(x)|_{a}^{b}+\int _{a}^{b}{{\frac {d}{dx}}\left(p(x){\frac {dg}{dx}}\right)f(x)dx},\end{aligned}}}

par suite, en regroupant les résultats, on a bien ⟨ L f , g ⟩ = ⟨ f , L g ⟩ {\displaystyle \langle Lf,g\rangle =\langle f,Lg\rangle } .

Il est important de souligner que le caractère infiniment dénombrable des valeurs propres possibles est directement lié au fait que l'intervalle considéré est fini, et ce sont les conditions aux limites qui imposent que ces valeurs propres soient discrètes. Ceci à d'importantes conséquences en physique, par exemple dans l'étude des modes propres de vibration d'une corde vibrante, ou encore en mécanique quantique (quantification des niveaux d'énergie), où les équations correspondantes peuvent se mettre sous la forme de Sturm-Liouville avec des conditions aux limites de la même forme que le problème envisagé.

Applications

Décomposition sur la base des fonctions propres - Polynômes orthogonaux

Comme les fonctions propres y n ( x ) {\displaystyle y_{n}(x)} forment une base de Hilbert de l'espace L 2 ( , w ( x ) d x ) {\displaystyle L^{2}\left(,w(x)dx\right)} , il est toujours possible par normalisation d'obtenir une base orthonormée { ϕ n ( x ) } {\displaystyle \{\phi _{n}(x)\}} de fonctions propres, telles que ∀ n , p ∈ N , ⟨ ϕ p , ϕ n ⟩ = ∫ a b ϕ p ( x ) ϕ n ( x ) w ( x ) d x = δ p n {\displaystyle \forall n,p\in \mathbb {N} ,\quad \langle \phi _{p},\phi _{n}\rangle =\int _{a}^{b}{\phi _{p}(x)\phi _{n}(x)w(x)dx}=\delta _{pn}} .

Ceci a pour première conséquence que toute solution y(x) du problème de Sturm-Liouville peut être décomposée sur l'intervalle en une série de fonctions propres normalisées ϕ n {\displaystyle \phi _{n}} :

y ( x ) = ∑ n = 0 + ∞ c n ϕ n ( x ) {\displaystyle y(x)=\sum _{n=0}^{+\infty }{c_{n}\phi _{n}(x)}} ,

avec ∀ n ∈ N , c n = ⟨ ϕ n , y ⟩ {\displaystyle \forall n\in \mathbb {N} ,\quad c_{n}=\langle \phi _{n},y\rangle } .

Ceci correspond à une généralisation du développement en séries de Fourier, et est également à la base des développements de fonctions sur les bases de polynômes orthogonaux, très souvent utilisés en mathématiques ou en physique.

Problème de Sturm-Liouville « inhomogène »

Il est aussi possible de généraliser le problème de Sturm-Liouville au cas « inhomogène », c'est-à-dire au cas de l'équation avec second membre :

( L − λ ) y = f ( x ) {\displaystyle \left(L-\lambda \right)y=f(x)} ,

où L = 1 w ( x ) {\displaystyle L={\frac {1}{w(x)}}\left} est l'opérateur de Sturm-Liouville, et f(x) une fonction définie sur l'intervalle , avec les mêmes conditions aux limites que précédemment sur y(x). Il s'agit alors d'une généralisation du problème précédent.

Les solutions y(x) de cette équation peuvent alors se décomposer sur la base des fonctions propres normalisées { ϕ n } n ∈ N {\displaystyle \{\phi _{n}\}_{n\in \mathbb {N} }} du problème homogène associé L y = λ y {\displaystyle Ly=\lambda y} , avec :

Démonstration

Les fonctions propres normalisées { ϕ n } n ∈ N {\displaystyle \{\phi _{n}\}_{n\in \mathbb {N} }} constitue une base complète de l'espace L 2 ( , w ( x ) d x ) {\displaystyle L^{2}\left(,w(x)dx\right)} à laquelle appartient toute solution du problème inhomogène, par suite il est possible d'écrire si celle-ci existe: y ( x ) = ∑ n = 0 + ∞ a n ϕ n ( x ) {\displaystyle y(x)=\sum _{n=0}^{+\infty }{a_{n}\phi _{n}(x)}} . Si on remplace cette expression dans l'équation inhomogène il vient:

f ( x ) = ∑ n = 0 + ∞ ( λ n − λ ) c n ϕ n ( x ) {\displaystyle f(x)=\sum _{n=0}^{+\infty }{\left(\lambda _{n}-\lambda \right)c_{n}\phi _{n}(x)}} .

Si λ ≠ λ n , ∀ n ∈ N {\displaystyle \lambda \neq \lambda _{n},\;\forall n\in \mathbb {N} } , alors il est possible en prenant le produit scalaire à gauche par ϕ p {\displaystyle \phi _{p}} , d'écrire:

( λ p − λ ) c p = ⟨ ϕ p , f ⟩ {\displaystyle \left(\lambda _{p}-\lambda \right)c_{p}=\langle \phi _{p},f\rangle } , ce qui permet d'exprimer les coefficients c p {\displaystyle c_{p}} et donne bien le développement proposé.

Si λ = λ n 0 {\displaystyle \lambda =\lambda _{n0}} il faut alors que ⟨ ϕ n 0 , f ⟩ = 0 {\displaystyle \langle \phi _{n0},f\rangle =0} dans l'expression précédente pour que les coefficients c p {\displaystyle c_{p}} soient tous définis, et il comme il est toujours possible de tenir compte d'une composante en ϕ n 0 {\displaystyle \phi _{n0}} dans le développement de y(x) on obtient là encore le développement proposé.

Notes et références

Notes

  1. Bien entendu la primitive dans l'intégrale est définie à une constante additive près, qui se traduit par une constante multiplicative (positive) dans la fonction p(x). Celle-ci ne change rien puisque toute l'équation va être multipliée par p ( x ) {\displaystyle p(x)} ensuite.
  2. On peut préciser ce point en prenant l'exemple de l'équation différentielle ( 1 − x 2 ) y ″ − x y ′ + n 2 y = 0 {\displaystyle (1-x^{2})y''-xy'+n^{2}y=0} des polynômes de Tchebychev de première espèce (n entier). Formellement il est possible de diviser l'ensemble par A ( x ) = ( 1 − x 2 ) {\displaystyle A(x)=(1-x^{2})} et de prendre pour facteur intégrant p ( x ) = exp ⁡ ∫ − x 1 − x 2 d x {\displaystyle p(x)=\exp {\int {\frac {-x}{1-x^{2}}}\mathrm {d} x}} , toutefois il n'est pas possible d'évaluer analytiquement p(x). Il est préférable de diviser d'abord l'équation par ( 1 − x 2 ) 1 / 2 {\displaystyle (1-x^{2})^{1/2}} qui devient alors ( 1 − x 2 ) 1 / 2 y ″ − x ( 1 − x 2 ) 1 / 2 y ′ + n 2 w ( x ) y = 0 {\displaystyle (1-x^{2})^{1/2}y''-{\frac {x}{(1-x^{2})^{1/2}}}y'+n^{2}w(x)y=0} avec w ( x ) = ( 1 − x 2 ) − 1 / 2 {\displaystyle w(x)=(1-x^{2})^{-1/2}} . Si l'on pose p ( x ) = ( 1 − x 2 ) 1 / 2 {\displaystyle p(x)=(1-x^{2})^{1/2}} il est évident que p ′ ( x ) = − x ( 1 − x 2 ) 1 / 2 {\displaystyle p'(x)=-{\frac {x}{(1-x^{2})^{1/2}}}} et la forme de Sturm-Liouville est alors évidente: ( ( 1 − x 2 ) 1 / 2 y ′ ) ′ + n 2 ( 1 − x 2 ) − 1 / 2 = 0 {\displaystyle \left((1-x^{2})^{1/2}y'\right)'+n^{2}(1-x^{2})^{-1/2}=0} .
  3. Si cet espace est muni de l'opération interne habituelle de somme de deux fonctions, et de l'opération externe sur R {\displaystyle \mathbb {R} } de multiplication par un scalaire, i.e. ( ν , f ) ∈ R × L 2 ( ) → L 2 ( ) , ( ν , f ) → ν f {\displaystyle (\nu ,f)\in \mathbb {R} \times L^{2}\left(\right)\rightarrow L^{2}\left(\right),\quad (\nu ,f)\rightarrow \nu f} , il est facile de vérifier qu'il a alors une structure d'espace vectoriel sur R {\displaystyle \mathbb {R} } .
  4. S'agissant d'un espace vectoriel réel un produit scalaire est une forme bilinéaire, symétrique et définie positive sur l'espace considéré, et il est facile de vérifier que ces propriétés sont bien respectées avec cette définition.
  5. Plus précisément, l'espace I = L 2 ( , w ( x ) d x ) {\displaystyle I=L^{2}\left(,w(x)dx\right)} muni de ce produit scalaire lui donne une structure d'espace préhilbertien. Ceci permet aussi de définir une norme associée par ∀ f ∈ I , ‖ f ‖ = ⟨ f , f ⟩ {\displaystyle \forall f\in I,\|f\|={\sqrt {\langle f,f\rangle }}} . Il est alors possible de montrer que l'espace I muni de cette norme est complet et donc constitue un espace de Hilbert.
  6. Il existe donc une plus petite valeur propre, mais pas de maximum.

Références

  1. Cf. par exemple X. Bagnoud, Méthodes mathématiques de la physique, p. 39 sq., disponible à http://physics.unifr.ch/admin/dbproxy.php?table=fuman_filepool&column=content&id=784.

Liens externes