Lemme de Neyman-Pearson

Page d’aide sur l’homonymie

Pour les articles homonymes, voir Pearson.

Cet article est une ébauche concernant les mathématiques.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

Lemme de Neyman-Pearson
Type
Inventeurs
Jerzy Neyman, Egon Sharpe PearsonVoir et modifier les données sur Wikidata
Nommé en référence à
Jerzy Neyman, Egon Sharpe PearsonVoir et modifier les données sur Wikidata
Formule
Λ ( x ) = L ( x θ 0 ) L ( x θ 1 ) η {\displaystyle \Lambda (x)={\frac {L(x\mid \theta _{0})}{L(x\mid \theta _{1})}}\leq \eta } Voir et modifier les données sur Wikidata

modifier - modifier le code - modifier WikidataDocumentation du modèle

En statistique, selon le lemme de Neyman-Pearson, lorsque l'on veut effectuer un test d'hypothèse entre deux hypothèses H0 : θ = θ0 et H1 : θ = θ1, pour un échantillon x = ( X 1 , , X n ) {\displaystyle \mathbf {x} =(X_{1},\ldots ,X_{n})} , alors le test du rapport de vraisemblance, qui rejette H0 en faveur de H1 lorsque L ( x , θ 0 ) L ( x , θ 1 ) k α {\displaystyle {\frac {{\mathcal {L}}(\mathbf {x} ,\theta _{0})}{{\mathcal {L}}(\mathbf {x} ,\theta _{1})}}\leq k_{\alpha }} , où k α {\displaystyle k_{\alpha }} est tel que

P ( L ( x , θ 0 ) L ( x , θ 1 ) k α | H 0 ) = α {\displaystyle P\left({\frac {{\mathcal {L}}({\textbf {x}},\theta _{0})}{{\mathcal {L}}({\textbf {x}},\theta _{1})}}\leq k_{\alpha }{\bigg |}H_{0}\right)=\alpha } , est le test le plus puissant de niveau α {\displaystyle \alpha } .

Ce lemme est nommé d'après Jerzy Neyman et Egon Sharpe Pearson dans un article publié en 1933[1].

En pratique, la plupart du temps, le rapport de vraisemblance lui-même n'est pas explicitement utilisé dans le test. En effet, le test du rapport de vraisemblance ci-dessus est souvent équivalent à un test de la forme T t α {\displaystyle T\leq t_{\alpha }} pour une statistique T {\displaystyle T} plus simple, et le test est effectué sous cette forme-ci.

Démonstration

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.
Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.

Cet article peut contenir un travail inédit ou des déclarations non vérifiées ().

Vous pouvez aider en ajoutant des références ou en supprimant le contenu inédit. Voir la page de discussion pour plus de détails.

Théorème : La région de rejet R 0 {\displaystyle R_{0}} optimale est définie par l'ensemble des points x = ( x 1 , , x n ) R n {\displaystyle \mathbf {x} =(x_{1},\ldots ,x_{n})\in \mathbb {R} ^{n}} tels que

L ( x , θ 0 ) L ( x , θ 1 ) k α {\displaystyle {\frac {{\mathcal {L}}({\textbf {x}},\theta _{0})}{{\mathcal {L}}({\textbf {x}},\theta _{1})}}\leq k_{\alpha }}

où la constante k α {\displaystyle k_{\alpha }} est telle que P ( x R 0 | θ 0 ) = α {\displaystyle P(\mathbf {x} \in R_{0}|\theta _{0})=\alpha } . À noter qu'on a les relations suivantes :

P ( D n R 0 | θ 0 ) = α = R 0 L ( x ; θ 0 )   d x {\displaystyle P\left({\textbf {D}}_{n}\in R_{0}|\theta _{0}\right)=\alpha =\int _{R_{0}}\!{\mathcal {L}}(\mathbf {x} ;\theta _{0})\ d\mathbf {x} }
P ( D n R 0 | θ 1 ) = 1 β = R 0 L ( x ; θ 1 )   d x {\displaystyle P\left({\textbf {D}}_{n}\in R_{0}|\theta _{1}\right)=1-\beta =\int _{R_{0}}\!{\mathcal {L}}(\mathbf {x} ;\theta _{1})\ d\mathbf {x} }


D n = ( x 1 , , x n ) {\displaystyle D_{n}=(x'_{1},\ldots ,x'_{n})} est l'échantillon.

Démonstration :

Montrons tout d'abord que lorsque f X ( . ; θ ) {\displaystyle f_{\mathcal {X}}(.;\theta )} est une densité bornée, il existe toujours une constante k {\displaystyle k} telle que

P ( L ( x , θ 0 ) L ( x , θ 1 ) > k | H 0 ) = α {\displaystyle P\left({\frac {{\mathcal {L}}({\textbf {x}},\theta _{0})}{{\mathcal {L}}({\textbf {x}},\theta _{1})}}>k{\bigg |}H_{0}\right)=\alpha } .
En effet, lorsque k = 0 {\displaystyle k=0} , cette probabilité vaut 1. D'autre part, cette probabilité décroit monotonément et continument vers zéro, lorsque k {\displaystyle k\rightarrow \infty } . Par conséquent, il doit exister une valeur finie de k {\displaystyle k} , appelée k α {\displaystyle k_{\alpha }} , qui satisfait l'égalité, α ] 0 ; 1 [ {\displaystyle \forall \alpha \in ]0;1[} .
Désignons alors par R 0 {\displaystyle R_{0}} , le sous-ensemble de R n {\displaystyle \mathbb {R} ^{n}} suivant,
R 0 { x R n | L ( x , θ 0 ) L ( x , θ 1 ) k α } {\displaystyle R_{0}\triangleq \lbrace \mathbf {x} \in \mathbb {R} ^{n}{\bigg |}{\frac {{\mathcal {L}}({\textbf {x}},\theta _{0})}{{\mathcal {L}}({\textbf {x}},\theta _{1})}}\leq k_{\alpha }\rbrace } ,
et soit R {\displaystyle R} une autre partie de R n {\displaystyle \mathbb {R} ^{n}} , telle que P ( x R | θ 0 ) α {\displaystyle P(\mathbf {x} \in R|\theta _{0})\leq \alpha } .

Montrons que P ( x R 0 | θ 1 ) > P ( x R | θ 1 ) {\displaystyle P(\mathbf {x} \in R_{0}|\theta _{1})>P(\mathbf {x} \in R|\theta _{1})} :

P ( x R 0 | θ 1 ) P ( x R | θ 1 ) = R 0 L ( x ; θ 1 )   d x R L ( x ; θ 1 )   d x = R 0 R L ( x ; θ 1 )   d x R R 0 L ( x ; θ 1 )   d x {\displaystyle {\begin{aligned}P(\mathbf {x} \in R_{0}|\theta _{1})-P(\mathbf {x} \in R|\theta _{1})&=\int _{R_{0}}\!{\mathcal {L}}(\mathbf {x} ;\theta _{1})\ d\mathbf {x} -\int _{R}\!{\mathcal {L}}(\mathbf {x} ;\theta _{1})\ d\mathbf {x} \\&=\int _{R_{0}\backslash R}\!{\mathcal {L}}(\mathbf {x} ;\theta _{1})\ d\mathbf {x} -\int _{R\backslash R_{0}}\!{\mathcal {L}}(\mathbf {x} ;\theta _{1})\ d\mathbf {x} \end{aligned}}}

Or  L ( x ; θ 1 ) k α L ( x ; θ 0 )  sur  R 0  et  L ( x ; θ 1 ) < k α L ( x ; θ 0 )  en dehors {\displaystyle {\text{Or }}{\mathcal {L}}(\mathbf {x} ;\theta _{1})\geq k_{\alpha }{\mathcal {L}}(\mathbf {x} ;\theta _{0}){\text{ sur }}R_{0}{\text{ et }}{\mathcal {L}}(\mathbf {x} ;\theta _{1})<k_{\alpha }{\mathcal {L}}(\mathbf {x} ;\theta _{0}){\text{ en dehors}}}

P ( x R 0 | θ 1 ) P ( x R | θ 1 ) k α ( R 0 R L ( x ; θ 0 )   d x R R 0 L ( x ; θ 0 )   d x ) k α ( R 0 L ( x ; θ 0 )   d x R L ( x ; θ 0 )   d x ) {\displaystyle {\begin{aligned}P(\mathbf {x} \in R_{0}|\theta _{1})-P(\mathbf {x} \in R|\theta _{1})&\geq k_{\alpha }(\int _{R_{0}\backslash R}\!{\mathcal {L}}(\mathbf {x} ;\theta _{0})\ d\mathbf {x} -\int _{R\backslash R_{0}}\!{\mathcal {L}}(\mathbf {x} ;\theta _{0})\ d\mathbf {x} )\\&\geq k_{\alpha }(\int _{R_{0}}\!{\mathcal {L}}(\mathbf {x} ;\theta _{0})\ d\mathbf {x} -\int _{R}\!{\mathcal {L}}(\mathbf {x} ;\theta _{0})\ d\mathbf {x} )\\\end{aligned}}}

La première intégrale vaut α {\displaystyle \alpha } par construction, la deuxième est majorée par α {\displaystyle \alpha } , on obtient:

P ( x R 0 | θ 1 ) P ( x R | θ 1 ) 0 {\displaystyle P(\mathbf {x} \in R_{0}|\theta _{1})-P(\mathbf {x} \in R|\theta _{1})\geq 0} ce qui conclut.

Notes et références

  1. (en) J. Neyman et E. S. Pearson, « IX. On the problem of the most efficient tests of statistical hypotheses », Phil. Trans. R. Soc. Lond. A, vol. 231, nos 694-706,‎ , p. 289–337 (ISSN 0264-3952, DOI 10.1098/rsta.1933.0009, lire en ligne)

Liens externes

  • cnx.org -- Neyman-Pearson criterion
  • « Eléments de Statistiques », sur ulg.ac.be (consulté le )

Voir aussi

  • Puissance statistique
  • Test F
  • icône décorative Portail des probabilités et de la statistique