En théorie des probabilités , le théorème de Glivenko -Cantelli , communément appelé « théorème fondamental de la statistique »[ 1] exprime dans quelle mesure une loi de probabilité peut être révélée par la connaissance d'un (grand) échantillon de ladite loi de probabilité.
Soit X 1 , … , X n {\displaystyle X_{1},\ldots ,X_{n}} un échantillon de variables aléatoires réelles i.i.d. définies sur un espace de probabilité ( Ω , A , P ) {\displaystyle (\Omega ,{\mathcal {A}},\mathbb {P} )} avec pour fonction de répartition commune F {\displaystyle F} .
Le théorème de Glivenko-Cantelli énonce la convergence uniforme presque partout de la fonction de répartition empirique F n {\displaystyle F_{n}} vers F {\displaystyle F} . Il entraîne donc de plus la convergence en loi de μ n {\displaystyle \mu _{n}} vers la loi de probabilité μ {\displaystyle \mu } correspondant dont la fonction de répartition est F {\displaystyle F} , une loi de probabilité étant caractérisée par sa fonction de répartition .
Théorème — Soient ( Ω , A , P ) {\displaystyle (\Omega ,{\mathcal {A}},\mathbb {P} )} un espace probabilisé . Soient X 1 , … , X n , … {\displaystyle X_{1},\dots ,X_{n},\dots } des variables aléatoires indépendantes et uniformément distribuées de même fonction de répartition F {\displaystyle F} . Pour ω ∈ Ω {\displaystyle \omega \in \Omega } , on appelle F n ( ⋅ , ω ) {\displaystyle F_{n}(\cdot ,\omega )} la fonction de répartition empirique de l’échantillon X 1 ( ω ) , … , X n ( ω ) {\displaystyle X_{1}(\omega ),\dots ,X_{n}(\omega )} .
P {\displaystyle \mathbb {P} } -presque sûrement , la fonction de répartition empirique F n {\displaystyle F_{n}} converge uniformément vers la fonction de répartition F {\displaystyle F} , ou bien, de manière équivalente :
P ω ( lim n ‖ F n ( ⋅ , ω ) − F ‖ ∞ = 0 ) = 1. {\displaystyle \mathbb {P} _{\omega }\left(\lim _{n}\ \|F_{n}(\cdot ,\omega )-F\|_{\infty }=0\right)=1.} La fonction de répartition peut s'écrire comme une moyenne de variables aléatoires de Bernoulli, i.e.
F n ( x , ω ) = 1 n ∑ i = 1 n 1 { X i ( ω ) ≤ x } . {\displaystyle F_{n}(x,\omega )={\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{\{X_{i}(\omega )\leq x\}}.} Puisque ces variables sont de moyenne F ( x ) {\displaystyle F(x)} , la loi forte des grands nombres implique que
∀ x ∈ R , P ( lim n | F n ( x , ω ) − F ( x ) | = 0 ) = 1 , {\displaystyle \forall x\in \mathbb {R} ,\quad \mathbb {P} \left(\lim _{n}\ |F_{n}(x,\omega )-F(x)|=0\right)=1,} mais il n'en découle pas nécessairement que
P ( ∀ x ∈ R , lim n | F n ( x , ω ) − F ( x ) | = 0 ) = 1 , {\displaystyle \mathbb {P} \left(\forall x\in \mathbb {R} ,\quad \lim _{n}\ |F_{n}(x,\omega )-F(x)|=0\right)=1,} puisqu'une intersection non dénombrable d'ensembles de probabilité 1 (ensembles presque sûrs ) n'est pas nécessairement de probabilité 1. Cette intersection serait-elle de probabilité 1 qu'on n'aurait alors prouvé que la convergence simple , au lieu de la convergence uniforme énoncée par le théorème de Glivenko-Cantelli.
Le théorème de Donsker et l'inégalité DKW précisent le théorème de Glivenko-Cantelli en donnant des indications sur la rapidité de convergence, qui est de l'ordre de 1 / n . {\displaystyle 1/{\sqrt {n}}.}
Cette preuve utilise le deuxième théorème de Dini [ 2] . Pour une preuve combinatoire faisant intervenir des inégalités de concentration , voir la preuve des classes de Glivenko-Cantelli . La loi forte des grands nombres nous assure que pour tout x ∈ R , F n ( x ) {\displaystyle x\in \mathbb {R} ,F_{n}(x)} converge presque-sûrement vers F ( x ) {\displaystyle F(x)} et de plus F n {\displaystyle F_{n}} est croissante pour tout n ∈ N ∗ {\displaystyle n\in \mathbb {N} ^{*}} . Néanmoins quelques problèmes se posent pour appliquer ce théorème :
La fonction de répartition F {\displaystyle F} n'est pas nécessairement continue ; La convergence n'a pas lieu sur un segment ; La loi forte des grands nombres nous donne une convergence sur un ensemble qui dépend de x ∈ R {\displaystyle x\in \mathbb {R} } , i.e. ∀ x ∈ R , ∃ A x ∈ A t.q. P ( A x ) = 1 e t ∀ ω ∈ A x , lim n → + ∞ F n ( x , ω ) = F ( x ) . {\displaystyle \forall x\in \mathbb {R} ,\exists A_{x}\in {\mathcal {A}}\ {\textrm {t.q.}}\ \mathbb {P} (A_{x})=1\ \mathrm {et} \ \forall \omega \in A_{x},\lim _{n\to +\infty }F_{n}(x,\omega )=F(x).} Pour pouvoir appliquer le second théorème de Dini, il faudrait que ∃ A ∈ A t . q . P ( A ) = 1 e t ∀ x ∈ R , ∀ ω ∈ A , lim n → + ∞ F n ( x , ω ) = F n ( x ) . {\displaystyle \exists A\in {\mathcal {A}}\ \mathrm {t.q.} \ \mathbb {P} (A)=1\ \mathrm {et} \ \forall x\in \mathbb {R} ,\forall \omega \in {\mathcal {A}},\lim _{n\to +\infty }F_{n}(x,\omega )=F_{n}(x).} On résout les deux premiers points avec l'inverse généralisée de la fonction de répartition (appelée aussi fonction de quantile ) F ← {\displaystyle F^{\leftarrow }} et le troisième grâce à la séparabilité de R {\displaystyle \mathbb {R} } (i.e. R {\displaystyle \mathbb {R} } admet un sous-ensemble dense et au plus dénombrable comme Q {\displaystyle \mathbb {Q} } ).
Soient U 1 , … , U n {\displaystyle U_{1},\dots ,U_{n}} des variables i.i.d. uniformes sur [ 0 , 1 ] {\displaystyle [0,1]} alors la fonction de répartition inverse vérifie la propriété X i = L F ← ( U i ) {\displaystyle X_{i}\ {\overset {\mathcal {L}}{=}}\ F^{\leftarrow }(U_{i})} [ 3] . Alors
sup t ∈ R | F n ( t ) − F ( t ) | = sup t ∈ R | 1 n ∑ i = 1 n 1 { X i ≤ t } − F ( t ) | ∼ sup t ∈ R | 1 n ∑ i = 1 n 1 { F ← ( U i ) ≤ t } − F ( t ) | = sup t ∈ R | 1 n ∑ i = 1 n 1 { U i ≤ F ( t ) } − F ( t ) | = sup s ∈ F ( R ) | 1 n ∑ i = 1 n 1 { U i ≤ s } − s | ≤ sup s ∈ [ 0 , 1 ] | 1 n ∑ i = 1 n 1 { U i ≤ s } − s | {\displaystyle {\begin{aligned}\sup _{t\in \mathbb {R} }|F_{n}(t)-F(t)|&=\sup _{t\in \mathbb {R} }\left|{\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{\{X_{i}\leq t\}}-F(t)\right|\\&\sim \sup _{t\in \mathbb {R} }\left|{\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{\{F^{\leftarrow }(U_{i})\leq t\}}-F(t)\right|=\sup _{t\in \mathbb {R} }\left|{\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{\{U_{i}\leq F(t)\}}-F(t)\right|\\&=\sup _{s\in F(\mathbb {R} )}\left|{\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{\{U_{i}\leq s\}}-s\right|\leq \sup _{s\in [0,1]}\left|{\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{\{U_{i}\leq s\}}-s\right|\end{aligned}}} Il suffit donc de montrer que le théorème de Glivenko-Cantelli est vrai dans le cas de variables aléatoires uniformes sur [ 0 , 1 ] {\displaystyle [0,1]} . Grâce à la loi forte des grands nombres, on a que :
∀ s ∈ [ 0 , 1 ] , ∃ A s ∈ A t.q. P ( A s ) = 1 et ∀ ω ∈ A s , 1 n ∑ k = 1 n 1 { U k ( ω ) ≤ s } ⟶ n → + ∞ s . {\displaystyle \forall s\in [0,1],\exists A_{s}\in {\mathcal {A}}\ {\textrm {t.q.}}\ \mathbb {P} (A_{s})=1\ {\textrm {et}}\ \forall \omega \in A_{s},{\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} _{\{U_{k}(\omega )\leq s\}}{\underset {n\to +\infty }{\longrightarrow }}s.} Il faut donc trouver un ensemble A {\displaystyle A} de mesure pleine qui soit uniforme pour tous les s ∈ [ 0 , 1 ] {\displaystyle s\in [0,1]} . Comme Q {\displaystyle \mathbb {Q} } est dénombrable et que l'intersection dénombrable d'ensembles de mesure pleine étant de mesure pleine, on en déduit que :
∃ A ∈ A t.q. P ( A ) = 1 et ∀ s ∈ [ 0 , 1 ] ∩ Q , ∀ ω ∈ A , 1 n ∑ k = 1 n 1 { U k ( ω ) ≤ s } ⟶ n → + ∞ s . {\displaystyle \exists A\in {\mathcal {A}}\ {\textrm {t.q.}}\ \mathbb {P} (A)=1\ {\textrm {et}}\ \forall s\in [0,1]\cap \mathbb {Q} ,\forall \omega \in A,{\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} _{\{U_{k}(\omega )\leq s\}}{\underset {n\to +\infty }{\longrightarrow }}s.} Montrons que la propriété reste vraie pour tout s ∈ [ 0 , 1 ] {\displaystyle s\in [0,1]} : soit s ∈ [ 0 , 1 ] {\displaystyle s\in [0,1]} et ω ∈ A {\displaystyle \omega \in A} alors on se donne une suite croissante ( s n ) n ∈ N {\displaystyle (s_{n})_{n\in \mathbb {N} }} et décroissante ( t n ) n ∈ N {\displaystyle (t_{n})_{n\in \mathbb {N} }} appartenant à [ 0 , 1 ] ∩ Q {\displaystyle [0,1]\cap \mathbb {Q} } et de limite s {\displaystyle s} . Alors pour l {\displaystyle l} fixé et n ≥ 1 {\displaystyle n\geq 1} :
1 n ∑ k = 1 n 1 { U k ( ω ) ≤ s l } ≤ 1 n ∑ k = 1 n 1 { U k ( ω ) ≤ s } ≤ 1 n ∑ k = 1 n 1 { U k ( ω ) ≤ t l } , {\displaystyle {\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} _{\{U_{k}(\omega )\leq s_{l}\}}\leq {\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} _{\{U_{k}(\omega )\leq s\}}\leq {\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} _{\{U_{k}(\omega )\leq t_{l}\}},} d'où, en faisant tendre n → + ∞ {\displaystyle n\to +\infty } ,
s l ≤ lim inf n → + ∞ 1 n ∑ k = 1 n 1 { U k ( ω ) ≤ s } ≤ lim sup n → + ∞ 1 n ∑ k = 1 n 1 { U k ( ω ) ≤ s } ≤ t l {\displaystyle s_{l}\leq \liminf _{n\to +\infty }{\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} _{\{U_{k}(\omega )\leq s\}}\leq \limsup _{n\to +\infty }{\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} _{\{U_{k}(\omega )\leq s\}}\leq t_{l}} et on conclut en faisant tendre l → + ∞ {\displaystyle l\to +\infty } . On a donc montré que
∀ ω ∈ A , 1 n ∑ k = 1 n 1 { U k ( ω ) ≤ s } → s {\displaystyle \forall \omega \in A,{\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} _{\{U_{k}(\omega )\leq s\}}\to s} sur [ 0 , 1 ] {\displaystyle [0,1]} . La convergence est uniforme par le deuxième théorème de Dini.
On pose X 1 , … , X n {\displaystyle X_{1},\dots ,X_{n}} des variables i.i.d. à valeurs dans un espace X {\displaystyle {\mathcal {X}}} de loi P = P X {\displaystyle P=\mathbb {P} ^{X}} et F {\displaystyle {\mathcal {F}}} une classe de fonctions définies sur X {\displaystyle {\mathcal {X}}} à valeurs réelles. La classe F {\displaystyle {\mathcal {F}}} est appelée classe de Glivenko-Cantelli si elle vérifie
| | P n − P | | F = sup f ∈ F | P n ( f ) − P ( f ) | → n → + ∞ 0 , {\displaystyle ||P_{n}-P||_{\mathcal {F}}=\sup _{f\in {\mathcal {F}}}|P_{n}(f)-P(f)|~{\xrightarrow[{n\to +\infty }]{}}~0,} avec P n {\displaystyle P_{n}} la mesure empirique définie par P n ( f ) = 1 n ∑ i = 1 n f ( X i ) {\displaystyle P_{n}(f)={\frac {1}{n}}\sum _{i=1}^{n}f(X_{i})} et P ( f ) = E [ f ( X 1 ) ] {\displaystyle P(f)=\mathbb {E} [f(X_{1})]} . Le théorème de Glivenko-Cantelli revient donc à dire que la classe des fonctions indicatrices F = { x ↦ 1 { x ≤ t } : t ∈ R } {\displaystyle {\mathcal {F}}=\{x\mapsto \mathbf {1} _{\{x\leq t\}}:t\in \mathbb {R} \}} est une classe de Glivenko-Cantelli.
(en) Galen R. Shorack et Jon A. Wellner , Empirical Processes with Applications to Statistics , SIAM , septembre 2009 , 998 p. (ISBN 978-0-89871901-7 , lire en ligne ) (en) A. W. van der Vaart et J. A. Wellner , Weak Convergence and Empirical Processes : With Applications to Statistics , Springer , 1996 , 508 p. (ISBN 978-0-387-94640-5 , lire en ligne ) (en) Patrick Billingsley , Probability and Measure , John Wiley & Sons , 2012 , 4e éd. , 656 p. (ISBN 978-1-118-34191-9 , Modèle:Google Livers ) , p. 268 ↑ Benoît Cadre, « Modélisation statistique » (consulté le 4 mai 2024 ) ↑ Ivan Nourdin, Agrégation de mathématiques épreuve oral , Dunod , 2e éd. , p. 109 ↑ Philippe Barbe et Michel Ledoux, Probabilité , EDP Sciences , coll. « Enseignement Sup », p. 50