在概率論 和統計學 中,二項分布 (英語:binomial distribution )是一種離散 概率分布 ,描述在進行獨立 隨機試驗 時,每次試驗都有相同概率 「成功」的情況下,獲得成功的總次數。擲硬幣 十次出現五次正面的概率、產品合格率
99
%
{\displaystyle \,99\%\,}
時抽出一百件樣本沒有發現一件次品的概率等等,都可以由二項分布給出。
只有「成功」和「失敗」兩種可能結果 ,每次重複時成功概率不變的獨立隨機試驗稱作伯努利試驗 ,例如上述的擲硬幣出現正面或反面、對產品進行抽樣檢查時抽到正品或次品。伯努利試驗作為理論模型,其前提在現實中無法完全得到滿足,比如生產線會磨損,因此每件產品合格的概率並非固定。儘管如此,二項分布給出的概率通常足以用於提供有用的推斷;即使在已知前提沒有滿足的場合,二項分布也能用於參考和比較。二項分布的應用出現在遺傳學 、質量控制 等領域之中。
若隨機變量
X
{\displaystyle \,X\,}
有概率質量函數
Pr
(
X
=
k
)
=
(
n
k
)
p
k
(
1
−
p
)
n
−
k
(
k
=
0
,
1
,
…
,
n
)
,
{\displaystyle \Pr(X=k)={n \choose k}p^{k}(1-p)^{n-k}\quad (k=0,1,\ldots ,n),}
其中
n
{\displaystyle \,n\,}
為正整數 、
0
≤
p
≤
1
{\displaystyle \,0\leq p\leq 1\,}
,則稱
X
{\displaystyle \,X\,}
服從參數 為
n
,
p
{\displaystyle \,n,p\,}
的二項分布,記為
X
∼
B
(
n
,
p
)
{\displaystyle \,X\sim \operatorname {B} (n,p)\,}
或
X
∼
Bin
(
n
,
p
)
{\displaystyle \,X\sim \operatorname {Bin} (n,p)\,}
。習慣上
1
−
p
{\displaystyle \,1-p\,}
也用
q
{\displaystyle \,q\,}
表示。
進行
n
{\displaystyle \,n\,}
次獨立 伯努利試驗 的結果可以由
n
{\displaystyle \,n\,}
個字母表示,例如用
S
{\displaystyle \,S\,}
表示成功,
F
{\displaystyle \,F\,}
表示失敗,則
S
S
F
S
F
{\displaystyle SSFSF}
表示五次試驗中第一、二、四次的結果為成功,其餘為失敗。設每次試驗成功的概率為
p
{\displaystyle \,p\,}
,失敗的概率為
1
−
p
{\displaystyle \,1-p\,}
。因為試驗相互獨立,每一種排列
k
{\displaystyle \,k\,}
個
S
{\displaystyle \,S\,}
、
n
−
k
{\displaystyle \,n-k\,}
個
F
{\displaystyle \,F\,}
的方式對應的概率為
p
k
(
1
−
p
)
n
−
k
{\displaystyle \,p^{k}(1-p)^{n-k}\,}
。
從
n
{\displaystyle \,n\,}
個不同元素 中選出含
k
{\displaystyle \,k\,}
個元素的子集 的方法數量等於二項式係數
(
n
k
)
=
n
!
k
!
(
n
−
k
)
!
.
{\displaystyle {n \choose k}={\frac {n!}{k!(n-k)!}}.}
而每種對
k
{\displaystyle \,k\,}
個
S
{\displaystyle \,S\,}
、
n
−
k
{\displaystyle \,n-k\,}
個
F
{\displaystyle \,F\,}
的排列都可理解為從
n
{\displaystyle \,n\,}
個位置中選出
k
{\displaystyle \,k\,}
個作為字母
S
{\displaystyle \,S\,}
的位置的方法,這種方法的數量即為
(
n
k
)
{\displaystyle \,{n \choose k}\,}
。與每種排列方式對應的概率相乘,便得到定義中的概率
(
n
k
)
p
k
(
1
−
p
)
n
−
k
.
{\displaystyle {n \choose k}p^{k}(1-p)^{n-k}.}
二項分布是最早得到研究的概率分布之一。丹麥統計學家安德斯·哈爾德 認為其歷史可以追溯至布萊茲·帕斯卡 與皮埃爾·德·費馬 於1654年對點數分配問題 的討論:兩名玩家贏得每局遊戲的機會相同,贏得一定局數的勝者可獲得獎金,但比賽僅進行了數局,尚未分出勝負就被迫中斷,則獎金該如何分配?帕斯卡認為,獎金的分配應當基於玩家距離勝利所差的局數:若一名玩家還需
r
{\displaystyle \,r\,}
局獲勝,另一名玩家還需
s
{\displaystyle \,s\,}
局獲勝,則應考慮在
r
+
s
−
1
{\displaystyle \,r+s-1\,}
局比賽的
2
r
+
s
−
1
{\displaystyle \,2^{r+s-1}\,}
種結果中,兩名玩家分別在多少種情況中獲勝。兩人的討論限於這一問題本身,並未推導出二項分布的概率,但這一解法可被視作基於參數
p
=
1
/
2
{\displaystyle \,p=1/2\,}
的二項分布。
對二項分布概率的推導為雅各布·伯努利 於《猜度術 》中作出。該著作在他去世後,於1713年得到出版,被視作概率論 的奠基性作品。伯努利還在其中首次給出了弱大數定律 的嚴格證明。對二項分布的正態 近似則是由亞伯拉罕·棣莫弗 發現,這一工作於1733年完成,於1738年出版在其著作《機遇論 》的第二版中。
參數為
n
,
p
{\displaystyle \,n,p\,}
的二項分布的期望值 為
n
p
{\displaystyle \,np\,}
,方差 為
n
p
(
1
−
p
)
{\displaystyle \,np(1-p)\,}
。其概率母函數 為
G
(
z
)
=
(
1
−
p
+
p
z
)
n
,
{\displaystyle G(z)=(1-p+pz)^{n},}
矩母函數 為
M
X
(
t
)
=
(
1
−
p
+
p
e
t
)
n
,
{\displaystyle M_{X}(t)=(1-p+pe^{t})^{n},}
特徵函數 為
φ
X
(
t
)
=
(
1
−
p
+
p
e
i
t
)
n
.
{\displaystyle \varphi _{X}(t)=(1-p+pe^{it})^{n}.}
參數
n
=
1
{\displaystyle \,n=1\,}
的二項分布稱作伯努利分布 。多項分布 是二項分布的拓展,描述重複進行不限於兩種結果、可能有多種可能結果的隨機試驗時的概率。二項分布本身是超幾何分布 的極限形式。
若
X
1
,
X
2
{\displaystyle \,X_{1},X_{2}\,}
兩個隨機變量獨立,分別服從參數為
n
1
,
p
{\displaystyle \,n_{1},p\,}
和
n
2
,
p
{\displaystyle \,n_{2},p\,}
的二項分布,則
X
1
+
X
2
{\displaystyle \,X_{1}+X_{2}\,}
即是在
n
1
+
n
2
{\displaystyle \,n_{1}+n_{2}\,}
次獨立伯努利試驗中取得成功的次數,所以
X
1
+
X
2
{\displaystyle \,X_{1}+X_{2}\,}
服從參數為
n
1
+
n
2
,
p
{\displaystyle \,n_{1}+n_{2},p\,}
的二項分布。這一結論亦可通過將兩者的概率母函數相乘而得出。在條件
X
1
+
X
2
=
k
{\displaystyle \,X_{1}+X_{2}=k\,}
之下,隨機變量
X
1
{\displaystyle \,X_{1}\,}
的條件概率分布 是參數為
k
,
n
1
,
n
1
+
n
2
{\displaystyle \,k,n_{1},n_{1}+n_{2}\,}
的超幾何分布。
計算
Pr
(
X
=
k
)
{\displaystyle \,\Pr(X=k)\,}
和
Pr
(
X
=
k
+
1
)
{\displaystyle \,\Pr(X=k+1)\,}
的比值可以得到
Pr
(
X
=
k
+
1
)
Pr
(
X
=
k
)
=
(
n
−
k
)
p
(
k
+
1
)
(
1
−
p
)
(
k
=
0
,
1
,
…
,
n
−
1
)
,
{\displaystyle {\frac {\Pr(X=k+1)}{\Pr(X=k)}}={\frac {(n-k)p}{(k+1)(1-p)}}\quad (k=0,1,\ldots ,n-1),}
因此,當
k
<
(
n
+
1
)
p
−
1
{\displaystyle \,k<(n+1)p-1\,}
時,
Pr
(
X
=
k
)
{\displaystyle \,\Pr(X=k)\,}
隨
k
{\displaystyle \,k\,}
增加而上升;當
k
>
(
n
+
1
)
p
−
1
{\displaystyle \,k>(n+1)p-1\,}
時,
Pr
(
X
=
k
)
{\displaystyle \,\Pr(X=k)\,}
隨
k
{\displaystyle \,k\,}
增加而下降。故二項分布的眾數 為
(
n
+
1
)
p
{\displaystyle \,(n+1)p\,}
的下取整
⌊
(
n
+
1
)
p
⌋
{\displaystyle \,\lfloor (n+1)p\rfloor \,}
。若
(
n
+
1
)
p
{\displaystyle \,(n+1)p\,}
本身是整數,則
(
n
+
1
)
p
{\displaystyle \,(n+1)p\,}
和
(
n
+
1
)
p
−
1
{\displaystyle \,(n+1)p-1\,}
均是眾數。若
p
<
(
n
+
1
)
−
1
{\displaystyle \,p<(n+1)^{-1}\,}
,則眾數為
0
{\displaystyle \,0\,}
。
二項分布的中位數
m
{\displaystyle \,m\,}
位於
n
p
{\displaystyle \,np\,}
的上下取整 之間,即
⌊
n
p
⌋
≤
m
≤
⌈
n
p
⌉
{\displaystyle \,\lfloor np\rfloor \leq m\leq \lceil np\rceil \,}
;若
n
p
{\displaystyle \,np\,}
為整數,則中位數
m
=
n
p
{\displaystyle \,m=np\,}
。中位數
m
{\displaystyle \,m\,}
和期望值
n
p
{\displaystyle \,np\,}
之間的差滿足
|
m
−
n
p
|
<
max
{
p
,
1
−
p
}
.
{\displaystyle |m-np|<\max\{p,1-p\}.}
若
p
>
ln
2
{\displaystyle \,p>\ln 2\,}
或
p
<
1
−
ln
2
{\displaystyle \,p<1-\ln 2\,}
,則該上界可進一步縮減為
|
m
−
n
p
|
<
ln
2.
{\displaystyle |m-np|<\ln 2.}
若
n
{\displaystyle \,n\,}
為奇數 、
p
=
1
/
2
{\displaystyle \,p=1/2\,}
,則
(
n
−
1
)
/
2
{\displaystyle \,(n-1)/2\,}
和
(
n
+
1
)
/
2
{\displaystyle \,(n+1)/2\,}
均為中位數。
二項分布的累積分布函數 和尾概率可以用正則化不完全貝塔函數 表示為
Pr
(
X
≤
k
)
=
I
1
−
p
(
n
−
⌊
k
⌋
,
⌊
k
⌋
+
1
)
,
{\displaystyle \Pr(X\leq k)=I_{1-p}(n-\lfloor k\rfloor ,\lfloor k\rfloor +1),}
Pr
(
X
≥
k
)
=
I
p
(
⌈
k
⌉
,
n
−
⌈
k
⌉
+
1
)
.
{\displaystyle \Pr(X\geq k)=I_{p}(\lceil k\rceil ,n-\lceil k\rceil +1).}
二項分布的
r
{\displaystyle \,r\,}
階原點矩 滿足
μ
r
′
=
E
[
X
r
]
=
∑
j
=
0
r
S
(
r
,
j
)
n
!
p
j
(
n
−
j
)
!
,
{\displaystyle \mu '_{r}=E[X^{r}]=\sum _{j=0}^{r}{\frac {S(r,j)n!p^{j}}{(n-j)!}},}
其中
S
(
r
,
j
)
{\displaystyle \,S(r,j)\,}
表示第二類 斯特林數 。具體而言,
μ
1
′
=
n
p
,
{\displaystyle \mu '_{1}=np,}
μ
2
′
=
n
p
+
n
(
n
−
1
)
p
2
,
{\displaystyle \mu '_{2}=np+n(n-1)p^{2},}
μ
3
′
=
n
p
+
3
n
(
n
−
1
)
p
2
+
n
(
n
−
1
)
(
n
−
2
)
p
3
,
{\displaystyle \mu '_{3}=np+3n(n-1)p^{2}+n(n-1)(n-2)p^{3},}
μ
4
′
=
n
p
+
7
n
(
n
−
1
)
p
2
+
6
n
(
n
−
1
)
(
n
−
2
)
p
3
+
n
(
n
−
1
)
(
n
−
2
)
(
n
−
3
)
p
4
.
{\displaystyle \mu '_{4}=np+7n(n-1)p^{2}+6n(n-1)(n-2)p^{3}+n(n-1)(n-2)(n-3)p^{4}.}
其低階中心矩 為
μ
2
=
n
p
(
1
−
p
)
,
{\displaystyle \mu _{2}=np(1-p),}
μ
3
=
n
p
(
1
−
p
)
(
1
−
2
p
)
,
{\displaystyle \mu _{3}=np(1-p)(1-2p),}
μ
4
=
3
[
n
p
(
1
−
p
)
]
2
+
n
p
(
1
−
p
)
[
1
−
6
p
(
1
−
p
)
]
.
{\displaystyle \mu _{4}=3[np(1-p)]^{2}+np(1-p)[1-6p(1-p)].}
n
=
6
{\displaystyle n=6}
、
p
=
0.5
{\displaystyle p=0.5}
時的二項分布 及其正態近似
標準二項分布
X
′
=
X
−
n
p
n
p
(
1
−
p
)
{\displaystyle X'={\frac {X-np}{\sqrt {np(1-p)}}}}
在
n
→
∞
{\displaystyle \,n\to \infty \,}
時趨近 於標準正態分布 。這一結果稱作棣莫弗-拉普拉斯定理 ,為中心極限定理 的特殊形式。基於這一定理可以得到
Pr
(
α
<
X
−
n
p
n
p
(
1
−
p
)
<
β
)
→
Φ
(
β
)
−
Φ
(
α
)
,
{\displaystyle \Pr(\alpha <{\frac {X-np}{\sqrt {np(1-p)}}}<\beta )\to \Phi (\beta )-\Phi (\alpha ),}
其中
Φ
{\displaystyle \,\Phi \,}
為標準正態分布的累積分布函數 。
正態分布為連續概率分布 ,在近似二項分布這類離散概率分布時,可將端點向外偏移
0.5
{\displaystyle \,0.5\,}
得到
Pr
(
X
≤
k
)
≈
Φ
(
k
+
0.5
−
n
p
n
p
(
1
−
p
)
)
,
{\displaystyle \Pr(X\leq k)\approx \Phi \left({\frac {k+0.5-np}{\sqrt {np(1-p)}}}\right),}
從而提升近似的準確性,這種技巧稱作連續性校正 。何時能採用這一近似依賴於使用經驗法則 ,例如要求
n
p
(
1
−
p
)
>
9
{\displaystyle \,np(1-p)>9\,}
,或是在
p
≤
0.5
{\displaystyle \,p\leq 0.5\,}
時要求
n
p
>
5
{\displaystyle \,np>5\,}
、在
p
>
0.5
{\displaystyle \,p>0.5\,}
時要求
n
(
1
−
p
)
>
5
{\displaystyle \,n(1-p)>5\,}
。
當
n
→
∞
,
p
→
0
{\displaystyle \,n\to \infty ,p\to 0\,}
,而
n
p
{\displaystyle \,np\,}
保持不變時,二項分布趨近於參數為
n
p
{\displaystyle \,np\,}
的泊松分布 。以此為基礎可以得到
Pr
(
X
≤
k
)
≈
e
−
n
p
∑
j
=
0
k
(
n
p
)
j
j
!
.
{\displaystyle \Pr(X\leq k)\approx e^{-np}\sum _{j=0}^{k}{\frac {(np)^{j}}{j!}}.}
二項分布與其泊松近似之間的絕對誤差存在上界。若隨機變量
X
{\displaystyle \,X\,}
服從參數為
n
,
p
{\displaystyle \,n,p\,}
的二項分布,隨機變量
Y
{\displaystyle \,Y\,}
服從參數為
n
p
{\displaystyle \,np\,}
的泊松分布,則
∑
k
=
0
∞
‖
Pr
(
X
=
k
)
−
Pr
(
Y
=
k
)
‖
≤
min
{
2
n
p
2
,
3
p
}
.
{\displaystyle \sum _{k=0}^{\infty }\|\Pr(X=k)-\Pr(Y=k)\|\leq \min\{2np^{2},3p\}.}
通常參數
n
{\displaystyle \,n\,}
為已知。假設隨機變量
X
{\displaystyle \,X\,}
服從二項分布,其參數
p
{\displaystyle \,p\,}
未知。若觀測到
X
{\displaystyle \,X\,}
的值為
x
{\displaystyle \,x\,}
,採用矩估計 和最大似然估計 對參數
p
{\displaystyle \,p\,}
的估計量 均為
x
n
{\displaystyle \,{\frac {x}{n}}\,}
,這一估計量為無偏 的。
參數
p
{\displaystyle \,p\,}
的貝葉斯估計量 取決於使用的先驗分布 。若使用連續型均勻分布 作為先驗分布,即假設
0
{\displaystyle \,0\,}
和
1
{\displaystyle \,1\,}
之間任意等長的區間 包含
p
{\displaystyle \,p\,}
的概率都相同,則後驗均值估計量為
p
^
=
x
+
1
n
+
2
.
{\displaystyle {\widehat {p}}={\frac {x+1}{n+2}}.}
這被稱作拉普拉斯–貝葉斯估計量 ,曾被皮埃爾-西蒙·拉普拉斯 用於估計在太陽 連續升起
n
{\displaystyle \,n\,}
天之後,太陽明天還會升起的概率。由於人類知道太陽在過去五千年,即1,826,213天都正常升起,拉普拉斯願意以1,826,214比1的賠率賭太陽明天繼續升起。
若使用參數為
α
,
β
{\displaystyle \,\alpha ,\beta \,}
的貝塔分布 作為先驗分布,則後驗均值估計量為
p
^
=
α
+
x
+
1
α
+
β
+
n
+
2
.
{\displaystyle {\widehat {p}}={\frac {\alpha +x+1}{\alpha +\beta +n+2}}.}
採用貝塔分布作為先驗分布時,後驗分布 亦是貝塔分布,即貝塔分布為二項分布的共軛先驗 。
若要對參數
p
{\displaystyle \,p\,}
以區間 形式給出估計,通過求解
∑
j
=
x
n
(
n
j
)
p
L
j
(
1
−
p
L
)
n
−
j
=
α
2
,
{\displaystyle \sum _{j=x}^{n}{n \choose j}p_{L}^{j}(1-p_{L})^{n-j}={\frac {\alpha }{2}},}
∑
j
=
0
x
(
n
j
)
p
U
j
(
1
−
p
U
)
n
−
j
=
α
2
,
{\displaystyle \sum _{j=0}^{x}{n \choose j}p_{U}^{j}(1-p_{U})^{n-j}={\frac {\alpha }{2}},}
所得的區間
(
p
L
,
p
U
)
{\displaystyle \,(p_{L},p_{U})\,}
為一個置信水平近似為
1
−
α
{\displaystyle \,1-\alpha \,}
的置信區間 ,稱作克洛珀-皮爾遜區間(Clopper-Pearson interval )。
正態分布可以用於推導近似的置信區間。若用
λ
α
/
2
{\displaystyle \,\lambda _{\alpha /2}\,}
表示標準正態分布的第
1
−
α
2
{\displaystyle \,1-{\frac {\alpha }{2}}\,}
分位數 ,即
Φ
(
λ
α
/
2
)
=
1
−
α
2
{\displaystyle \,\Phi (\lambda _{\alpha /2})=1-{\frac {\alpha }{2}}\,}
,則區間兩端的近似值為
x
n
±
λ
α
/
2
n
x
n
(
1
−
x
n
)
.
{\displaystyle {\frac {x}{n}}\pm {\frac {\lambda _{\alpha /2}}{\sqrt {n}}}{\sqrt {{\frac {x}{n}}\left(1-{\frac {x}{n}}\right)}}.}
Blyth, C. R. Approximate Binomial Confidence Limits . Journal of the American Statistical Association. 1986, 81 : 843–855. doi:10.1080/01621459.1986.10478343 (英語) .
Chew, V. Point Estimation of the Parameter of the Binomial Distribution. The American Statistician. 1971, 25 (5): 47–50. doi:10.1080/00031305.1971.10477305 (英語) .
Feller, W. An Introduction to Probability Theory and Its Applications, Volume 1, Third Edition. Wiley. 1968. ISBN 0-471-25708-7 (英語) .
Hald, A. A History of Probability and Statistics and Their Applications before 1750. Wiley. 2003. ISBN 0-471-47129-1 (英語) .
Hamza, K. The Smallest Uniform Upper Bound on the Distance Between the Mean and the Median of the Binomial and Poisson Distributions. Statistics and Probability Letters. 1995, 23 : 21–25. doi:10.1016/0167-7152(94)00090-U (英語) .
Johnson, N. L.; Kemp, A. W.; Kotz, S. Univariate Discrete Distributions, Third Edition. Wiley. 2005. ISBN 0-471-27246-9 (英語) .
Kaas, R.; Buhrman, J. M. Mean, Median and Mode in Binomial Distributions. Statistica Neerlandica. 1980, 34 (1): 13–18. doi:10.1111/j.1467-9574.1980.tb00681.x (英語) .
Schader, M.; Schmid, F. Two Rules of Thumb for the Approximation of the Binomial Distribution by the Normal Distribution. The American Statistician. 1989, 43 (1): 23–24. doi:10.1080/00031305.1989.10475601 (英語) .
Sheu, S. S. The Poisson Approximation to the Binomial Distribution . The American Statistician. 1984, 38 (3): 206–207. doi:10.1080/00031305.1984.10483202 (英語) .
Stigler, S. M. The History of Statistics: The Measurement of Uncertainty before 1900 . Harvard University Press. 1986. ISBN 0-674-40340-1 (英語) .