Jerzy Neyman, Egon Sharpe Pearson
Λ ( x ) = L ( x θ 0 ) L ( x θ 1 ) η {\displaystyle \Lambda (x)={\frac {L(x\mid \theta _{0})}{L(x\mid \theta _{1})}}\leq \eta } Voir et modifier les données sur Wikidata

En statistique, selon le lemme de Neyman-Pearson, lorsque l'on veut effectuer un test d'hypothèse entre deux hypothèses H0 : θ = θ0 et H1 : θ = θ1, pour un échantillon x = ( X 1 , , X n ) {\displaystyle \mathbf {x} =(X_{1},\ldots ,X_{n})} , alors le test du rapport de vraisemblance, qui rejette H0 en faveur de H1 lorsque L ( x , θ 0 ) L ( x , θ 1 ) k α {\displaystyle {\frac {{\mathcal {L}}(\mathbf {x} ,\theta _{0})}{{\mathcal {L}}(\mathbf {x} ,\theta _{1})}}\leq k_{\alpha }} , où k α {\displaystyle k_{\alpha }} est tel que

P ( L ( x , θ 0 ) L ( x , θ 1 ) k α | H 0 ) = α {\displaystyle P\left({\frac {{\mathcal {L}}({\textbf {x}},\theta _{0})}{{\mathcal {L}}({\textbf {x}},\theta _{1})}}\leq k_{\alpha }{\bigg |}H_{0}\right)=\alpha } , est le test le plus puissant de niveau α {\displaystyle \alpha } .

Ce lemme est nommé d'après Jerzy Neyman et Egon Sharpe Pearson dans un article publié en 1933[1].

En pratique, la plupart du temps, le rapport de vraisemblance lui-même n'est pas explicitement utilisé dans le test. En effet, le test du rapport de vraisemblance ci-dessus est souvent équivalent à un test de la forme T t α {\displaystyle T\leq t_{\alpha }} pour une statistique T {\displaystyle T} plus simple, et le test est effectué sous cette forme-ci.


Théorème : La région de rejet R 0 {\displaystyle R_{0}} optimale est définie par l'ensemble des points x = ( x 1 , , x n ) R n {\displaystyle \mathbf {x} =(x_{1},\ldots ,x_{n})\in \mathbb {R} ^{n}} tels que

L ( x , θ 0 ) L ( x , θ 1 ) k α {\displaystyle {\frac {{\mathcal {L}}({\textbf {x}},\theta _{0})}{{\mathcal {L}}({\textbf {x}},\theta _{1})}}\leq k_{\alpha }}

où la constante k α {\displaystyle k_{\alpha }} est telle que P ( x R 0 | θ 0 ) = α {\displaystyle P(\mathbf {x} \in R_{0}|\theta _{0})=\alpha } . À noter qu'on a les relations suivantes :

P ( D n R 0 | θ 0 ) = α = R 0 L ( x ; θ 0 )   d x {\displaystyle P\left({\textbf {D}}_{n}\in R_{0}|\theta _{0}\right)=\alpha =\int _{R_{0}}\!{\mathcal {L}}(\mathbf {x} ;\theta _{0})\ d\mathbf {x} }
P ( D n R 0 | θ 1 ) = 1 β = R 0 L ( x ; θ 1 )   d x {\displaystyle P\left({\textbf {D}}_{n}\in R_{0}|\theta _{1}\right)=1-\beta =\int _{R_{0}}\!{\mathcal {L}}(\mathbf {x} ;\theta _{1})\ d\mathbf {x} }

D n = ( x 1 , , x n ) {\displaystyle D_{n}=(x'_{1},\ldots ,x'_{n})} est l'échantillon.

Démonstration :

Montrons tout d'abord que lorsque f X ( . ; θ ) {\displaystyle f_{\mathcal {X}}(.;\theta )} est une densité bornée, il existe toujours une constante k {\displaystyle k} telle que

P ( L ( x , θ 0 ) L ( x , θ 1 ) > k | H 0 ) = α {\displaystyle P\left({\frac {{\mathcal {L}}({\textbf {x}},\theta _{0})}{{\mathcal {L}}({\textbf {x}},\theta _{1})}}>k{\bigg |}H_{0}\right)=\alpha } .
En effet, lorsque k = 0 {\displaystyle k=0} , cette probabilité vaut 1. D'autre part, cette probabilité décroit monotonément et continument vers zéro, lorsque k {\displaystyle k\rightarrow \infty } . Par conséquent, il doit exister une valeur finie de k {\displaystyle k} , appelée k α {\displaystyle k_{\alpha }} , qui satisfait l'égalité, α ] 0 ; 1 [ {\displaystyle \forall \alpha \in ]0;1[} .
Désignons alors par R 0 {\displaystyle R_{0}} , le sous-ensemble de R n {\displaystyle \mathbb {R} ^{n}} suivant,
R 0 { x R n | L ( x , θ 0 ) L ( x , θ 1 ) k α } {\displaystyle R_{0}\triangleq \lbrace \mathbf {x} \in \mathbb {R} ^{n}{\bigg |}{\frac {{\mathcal {L}}({\textbf {x}},\theta _{0})}{{\mathcal {L}}({\textbf {x}},\theta _{1})}}\leq k_{\alpha }\rbrace } ,
et soit R {\displaystyle R} une autre partie de R n {\displaystyle \mathbb {R} ^{n}} , telle que P ( x R | θ 0 ) α {\displaystyle P(\mathbf {x} \in R|\theta _{0})\leq \alpha } .

Montrons que P ( x R 0 | θ 1 ) > P ( x R | θ 1 ) {\displaystyle P(\mathbf {x} \in R_{0}|\theta _{1})>P(\mathbf {x} \in R|\theta _{1})} :

P ( x R 0 | θ 1 ) P ( x R | θ 1 ) = R 0 L ( x ; θ 1 )   d x R L ( x ; θ 1 )   d x = R 0 R L ( x ; θ 1 )   d x R R 0 L ( x ; θ 1 )   d x {\displaystyle {\begin{aligned}P(\mathbf {x} \in R_{0}|\theta _{1})-P(\mathbf {x} \in R|\theta _{1})&=\int _{R_{0}}\!{\mathcal {L}}(\mathbf {x} ;\theta _{1})\ d\mathbf {x} -\int _{R}\!{\mathcal {L}}(\mathbf {x} ;\theta _{1})\ d\mathbf {x} \\&=\int _{R_{0}\backslash R}\!{\mathcal {L}}(\mathbf {x} ;\theta _{1})\ d\mathbf {x} -\int _{R\backslash R_{0}}\!{\mathcal {L}}(\mathbf {x} ;\theta _{1})\ d\mathbf {x} \end{aligned}}}

Or  L ( x ; θ 1 ) k α L ( x ; θ 0 )  sur  R 0  et  L ( x ; θ 1 ) < k α L ( x ; θ 0 )  en dehors {\displaystyle {\text{Or }}{\mathcal {L}}(\mathbf {x} ;\theta _{1})\geq k_{\alpha }{\mathcal {L}}(\mathbf {x} ;\theta _{0}){\text{ sur }}R_{0}{\text{ et }}{\mathcal {L}}(\mathbf {x} ;\theta _{1})<k_{\alpha }{\mathcal {L}}(\mathbf {x} ;\theta _{0}){\text{ en dehors}}}

P ( x R 0 | θ 1 ) P ( x R | θ 1 ) k α ( R 0 R L ( x ; θ 0 )   d x R R 0 L ( x ; θ 0 )   d x ) k α ( R 0 L ( x ; θ 0 )   d x R L ( x ; θ 0 )   d x ) {\displaystyle {\begin{aligned}P(\mathbf {x} \in R_{0}|\theta _{1})-P(\mathbf {x} \in R|\theta _{1})&\geq k_{\alpha }(\int _{R_{0}\backslash R}\!{\mathcal {L}}(\mathbf {x} ;\theta _{0})\ d\mathbf {x} -\int _{R\backslash R_{0}}\!{\mathcal {L}}(\mathbf {x} ;\theta _{0})\ d\mathbf {x} )\\&\geq k_{\alpha }(\int _{R_{0}}\!{\mathcal {L}}(\mathbf {x} ;\theta _{0})\ d\mathbf {x} -\int _{R}\!{\mathcal {L}}(\mathbf {x} ;\theta _{0})\ d\mathbf {x} )\\\end{aligned}}}

La première intégrale vaut α {\displaystyle \alpha } par construction, la deuxième est majorée par α {\displaystyle \alpha } , on obtient:

P ( x R 0 | θ 1 ) P ( x R | θ 1 ) 0 {\displaystyle P(\mathbf {x} \in R_{0}|\theta _{1})-P(\mathbf {x} \in R|\theta _{1})\geq 0} ce qui conclut.

Notes et références

  1. (en) J. Neyman et E. S. Pearson, « IX. On the problem of the most efficient tests of statistical hypotheses », Phil. Trans. R. Soc. Lond. A, vol. 231, nos 694-706,‎ , p. 289–337 (ISSN 0264-3952, DOI 10.1098/rsta.1933.0009, lire en ligne)

