在统计学 中,内曼-皮尔逊引理 (英语:Neyman–Pearson lemma )是假设检验 的基本引理 ,由耶日·内曼 和埃贡·皮尔逊 于1933年提出。引理指出当零假设 和备择假设 均为简单假设时,似然比检验 在所有显著性水平 相同的检验中统计功效 最大。
假设检验是根据样本 的观察结果,判断关于总体 的命题真伪的方法。若要对某一命题的真伪做出判断,两种错误可能会发生:在命题为真时判断它为假,和在命题为假时判断它为真,两者分别称为第一类错误与第二类错误 。发生第一类错误的概率 即称作显著性水平,而不发生第二类错误的概率称作统计功效。尽管理想的判断方法应该同时最小化两种错误,但这一点很难实现。内曼-皮尔逊引理给出了,在发生第一类错误的概率上限固定时,能尽量减少第二类错误的检验方法。
工厂验收、飞机试飞、新药研发等场合会从总体 中抽样 进行检查。总体的某一性质,比如合格品的占比、药品的效力,可被视作拥有未知概率分布 的随机变量
X
{\displaystyle \,X\,}
,比如期望 和方差 不明确的正态分布 。对样本 中这一性质的观察结果可视为
X
{\displaystyle \,X\,}
的取值,记为
x
{\displaystyle \,x\,}
。通过这些观察结果,对有关
X
{\displaystyle \,X\,}
的假设做出判断,例如分布的期望是否大于某一特定值,便是假设检验 的目标。这种判断称作接受或拒绝这一假设。若
X
{\displaystyle \,X\,}
有两种可能的分布
P
0
{\displaystyle \,P_{0}\,}
和
P
1
{\displaystyle \,P_{1}\,}
,记
X
{\displaystyle \,X\,}
服从分布
P
0
{\displaystyle \,P_{0}\,}
这一假设为
H
0
{\displaystyle \,H_{0}\,}
,而
X
{\displaystyle \,X\,}
不服从分布
P
0
{\displaystyle \,P_{0}\,}
,亦即服从分布
P
1
{\displaystyle \,P_{1}\,}
这一假设为
H
1
{\displaystyle \,H_{1}\,}
。用
ϕ
{\displaystyle \,\phi \,}
表示对假设的检验,其中
ϕ
(
x
)
=
0
{\displaystyle \,\phi (x)=0\,}
表示根据
x
{\displaystyle \,x\,}
的值接受了假设
H
0
{\displaystyle \,H_{0}\,}
,而
ϕ
(
x
)
=
1
{\displaystyle \,\phi (x)=1\,}
则代表拒绝了假设
H
0
{\displaystyle \,H_{0}\,}
。两种假设称作零假设 和备择假设 。
内曼和皮尔逊认为,仅靠概率论 无法证实或证伪单一的假设。然而,可以建立一套用于判断一系列假说的规则,使得长远来看依靠这一规则做出的判断大多数时候是正确的。在判断观测到的数据
x
{\displaystyle \,x\,}
来自于哪一种分布时,正如预算有限的消费者在购物时会分析商品的性价比,时间紧迫的旅客会思考不同交通方式的速度,一种可能的检验方法在于计算两种分布下出现这一观测结果的概率之比
P
1
(
x
)
P
0
(
x
)
.
{\displaystyle {\frac {P_{1}(x)}{P_{0}(x)}}.}
比值中的两种概率称作似然 ,而该检验方法称作似然比检验。
无论对假设作出怎样的判断,不可避免地会出现第一类错误与第二类错误 :在假设为真时拒绝假设,和在假设为假时接受假设。取决于假设检验运用的场合,两种错误的结果会相当不同。若是用假设检验判断患者是否患有某一疾病,则第一类错误代表着患者没有患病时仍进行治疗,可能造成患者的不适和金钱损失;第二类错误则代表患者患病但没有诊出,若病情因而恶化可能导致患者死亡。在样本大小固定的情况下,无法同时控制这两种错误。发生第一类错误的概率 称作显著性水平 ,统计功效 则指不发生第二类错误的概率。似然比检验即是显著性水平上限固定时,统计功效最大的检验方法。
埃里希·莱曼 使用拉东-尼科迪姆导数 定义概率分布的概率密度函数 ,对引理的表述为:
内曼-皮尔逊引理 — 设
P
0
,
P
1
{\displaystyle \,P_{0},P_{1}\,}
为概率分布,其关于测度
μ
{\displaystyle \,\mu \,}
的概率密度函数分别为
p
0
,
p
1
{\displaystyle \,p_{0},p_{1}\,}
。
存在性:存在有检验
ϕ
{\displaystyle \,\phi \,}
和常数
k
{\displaystyle \,k\,}
使得
E
0
(
ϕ
(
X
)
)
=
α
,
{\displaystyle E_{0}(\phi (X))=\alpha ,}
1
ϕ
(
x
)
=
{
1
,
p
1
(
x
)
>
k
p
0
(
x
)
,
0
,
p
1
(
x
)
<
k
p
0
(
x
)
.
{\displaystyle \phi (x)={\begin{cases}1,\quad p_{1}(x)>kp_{0}(x),\\0,\quad p_{1}(x)<kp_{0}(x).\end{cases}}}
2
最大功效检验的充分条件 :满足上述条件1和2的检验在显著性水平为
α
{\displaystyle \,\alpha \,}
的所有检验中统计功效最大。
最大功效检验的必要条件 :若检验
ϕ
{\displaystyle \,\phi \,}
的显著性水平为
α
{\displaystyle \,\alpha \,}
,且在显著性水平相同的所有检验中统计功效最大,则存在常数
k
{\displaystyle \,k\,}
使得
ϕ
{\displaystyle \,\phi \,}
在测度
μ
{\displaystyle \,\mu \,}
上几乎处处 满足条件2。除非存在显著性水平小于
α
{\displaystyle \,\alpha \,}
且统计功效为
1
{\displaystyle \,1\,}
的检验,检验
ϕ
{\displaystyle \,\phi \,}
亦满足条件1。
上述表述中的
E
0
(
ϕ
(
X
)
)
{\displaystyle \,E_{0}(\phi (X))\,}
表示假设
H
0
{\displaystyle \,H_{0}\,}
为真时
ϕ
(
X
)
{\displaystyle \,\phi (X)\,}
的期望。
另一种简化后的表述则只包含了充分条件部分:
内曼-皮尔逊引理 — 若检验
ϕ
{\displaystyle \,\phi \,}
的显著性水平为
α
{\displaystyle \,\alpha \,}
,其方法为在比值
P
1
(
x
)
P
0
(
x
)
.
{\displaystyle {\frac {P_{1}(x)}{P_{0}(x)}}.}
大于某常数
k
{\displaystyle \,k\,}
时拒绝
H
0
{\displaystyle \,H_{0}\,}
,即此时
ϕ
(
x
)
=
1
{\displaystyle \,\phi (x)=1\,}
。则任何其他显著性水平小于等于
α
{\displaystyle \,\alpha \,}
的检验方法的统计功效均小于等于
ϕ
{\displaystyle \,\phi \,}
的统计功效。
证明
记概率分布
P
0
,
P
1
{\displaystyle \,P_{0},P_{1}\,}
的概率密度函数或概率质量函数 分别为
p
0
,
p
1
{\displaystyle \,p_{0},p_{1}\,}
。一种检验方法
ϕ
{\displaystyle \,\phi \,}
只取
0
,
1
{\displaystyle \,0,1\,}
两个值,故
ϕ
(
X
)
{\displaystyle \,\phi (X)\,}
是一个服从伯努利分布 的随机变量。它的显著性水平
P
0
(
ϕ
(
X
)
=
1
)
{\displaystyle P_{0}(\phi (X)=1)}
即是假设
H
0
{\displaystyle \,H_{0}\,}
为真时
ϕ
(
X
)
{\displaystyle \,\phi (X)\,}
的期望
E
0
(
ϕ
(
X
)
)
.
{\displaystyle E_{0}(\phi (X)).}
它的统计功效
P
1
(
ϕ
(
X
)
=
0
)
{\displaystyle P_{1}(\phi (X)=0)}
即是假设
H
1
{\displaystyle \,H_{1}\,}
为真时
ϕ
(
X
)
{\displaystyle \,\phi (X)\,}
的期望
E
1
(
ϕ
(
X
)
)
.
{\displaystyle E_{1}(\phi (X)).}
若
ϕ
{\displaystyle \,\phi \,}
是显著性水平为
α
{\displaystyle \,\alpha \,}
的似然比检验,即
ϕ
(
x
)
{\displaystyle \,\phi (x)\,}
在
p
1
(
x
)
>
k
p
0
(
x
)
{\displaystyle \,p_{1}(x)>kp_{0}(x)\,}
时取值为
1
{\displaystyle \,1\,}
,且
E
0
(
ϕ
(
X
)
)
=
α
{\displaystyle \,E_{0}(\phi (X))=\alpha \,}
。设有另一个显著性水平小于等于
α
{\displaystyle \,\alpha \,}
的检验
ϕ
∗
{\displaystyle \,\phi ^{*}\,}
,即
E
0
(
ϕ
∗
(
X
)
)
≤
E
0
(
ϕ
(
X
)
)
=
α
{\displaystyle \,E_{0}(\phi ^{*}(X))\leq E_{0}(\phi (X))=\alpha \,}
,则有不等式
ϕ
∗
(
x
)
[
p
1
(
x
)
−
k
p
0
(
x
)
]
≤
ϕ
(
x
)
[
p
1
(
x
)
−
k
p
0
(
x
)
]
.
{\displaystyle \phi ^{*}(x)[p_{1}(x)-kp_{0}(x)]\leq \phi (x)[p_{1}(x)-kp_{0}(x)].}
这是因为若
ϕ
(
x
)
=
1
{\displaystyle \,\phi (x)=1\,}
,则依
ϕ
{\displaystyle \,\phi \,}
的定义
p
1
(
x
)
>
k
p
0
(
x
)
{\displaystyle \,p_{1}(x)>kp_{0}(x)\,}
;若
ϕ
(
x
)
=
0
{\displaystyle \,\phi (x)=0\,}
,则
p
1
(
x
)
<
k
p
0
(
x
)
{\displaystyle \,p_{1}(x)<kp_{0}(x)\,}
。
对不等式两侧关于
x
{\displaystyle \,x\,}
积分或求和,则
E
1
(
ϕ
∗
(
X
)
)
−
k
E
0
(
ϕ
∗
(
X
)
)
≤
E
1
(
ϕ
(
X
)
)
−
k
E
0
(
ϕ
(
X
)
)
.
{\displaystyle E_{1}(\phi ^{*}(X))-kE_{0}(\phi ^{*}(X))\leq E_{1}(\phi (X))-kE_{0}(\phi (X)).}
因此
k
[
E
0
(
ϕ
(
X
)
)
−
E
0
(
ϕ
∗
(
X
)
)
]
≤
E
1
(
ϕ
(
X
)
)
−
E
1
(
ϕ
∗
(
X
)
)
.
{\displaystyle k[E_{0}(\phi (X))-E_{0}(\phi ^{*}(X))]\leq E_{1}(\phi (X))-E_{1}(\phi ^{*}(X)).}
由于
ϕ
∗
{\displaystyle \,\phi ^{*}\,}
的显著性水平小于等于
ϕ
{\displaystyle \,\phi \,}
,此时不等式左侧非负。因此不等式右侧同样非负,即
ϕ
∗
{\displaystyle \,\phi ^{*}\,}
的统计功效亦小于等于
ϕ
{\displaystyle \,\phi \,}
。
若
x
{\displaystyle \,x\,}
取自期望为
μ
{\displaystyle \,\mu \,}
,方差为
σ
2
{\displaystyle \,\sigma ^{2}\,}
的正态分布,其中
σ
2
{\displaystyle \,\sigma ^{2}\,}
已知但
μ
{\displaystyle \,\mu \,}
为未知。如果假设
H
0
{\displaystyle \,H_{0}\,}
为
μ
=
0
{\displaystyle \,\mu =0\,}
,假设
H
1
{\displaystyle \,H_{1}\,}
为
μ
=
μ
1
>
0
{\displaystyle \,\mu =\mu _{1}>0\,}
,则似然比为
p
1
(
x
)
p
0
(
x
)
=
exp
[
−
(
x
−
μ
1
)
2
/
(
2
σ
2
)
]
exp
[
−
x
2
/
(
2
σ
2
)
]
=
exp
(
μ
1
x
σ
2
−
μ
1
2
2
σ
2
)
.
{\displaystyle {\frac {p_{1}(x)}{p_{0}(x)}}={\frac {\exp[-(x-\mu _{1})^{2}/(2\sigma ^{2})]}{\exp[-x^{2}/(2\sigma ^{2})]}}=\exp \left({\frac {\mu _{1}x}{\sigma ^{2}}}-{\frac {\mu _{1}^{2}}{2\sigma ^{2}}}\right).}
由于指数函数 单调递增 ,似然比
p
1
(
x
)
/
p
0
(
x
)
>
k
{\displaystyle \,{p_{1}(x)}/{p_{0}(x)}>k\,}
等价于
x
{\displaystyle \,x\,}
大于另一常数,即
x
>
k
′
{\displaystyle \,x>k'\,}
。
显著性水平为
α
{\displaystyle \,\alpha \,}
的检验需要满足
P
0
(
X
>
k
′
)
=
α
{\displaystyle \,P_{0}(X>k')=\alpha \,}
,因此
k
′
=
σ
z
1
−
α
{\displaystyle \,k'=\sigma z_{1-\alpha }\,}
,其中
z
1
−
α
{\displaystyle \,z_{1-\alpha }\,}
表示标准正态分布 的第
(
1
−
α
)
{\displaystyle \,(1-\alpha )\,}
分位数 。因此,对这一问题统计功效最大的检验方法为在
X
>
σ
z
1
−
α
{\displaystyle \,X>\sigma z_{1-\alpha }\,}
时拒绝
H
0
{\displaystyle \,H_{0}\,}
。
Lehmann, E. L.; Romano, Joseph P., Testing Statistical Hypotheses, Fourth Edition, Springer, 2022, ISBN 978-3-030-70578-7 (英语)
Rice, John A., Mathematical Statistics and Data Analysis, Third Edition, Duxbury, 2007, ISBN 0-534-39942-8 (英语)
Neyman, J.; Pearson, E. S., On the Problem of the Most Efficient Tests of Statistical Hypotheses, Philosophical Transactions of the Royal Society of London, Series A, 1933, 231 : 289–337, doi:10.1098/rsta.1933.0009 (英语)