在概率论 和统计学 中,二项分布 (英語:binomial distribution )是一种离散 概率分布 ,描述在进行独立 随机试验 时,每次试验都有相同概率 “成功”的情况下,获得成功的总次数。掷硬币 十次出现五次正面的概率、产品合格率 99 % {\displaystyle \,99\%\,} 时抽出一百件样本没有发现一件次品的概率等等,都可以由二项分布给出。
只有“成功”和“失败”两种可能结果 ,每次重复时成功概率不变的独立随机试验称作伯努利试验 ,例如上述的掷硬币出现正面或反面、对产品进行抽样检查时抽到正品或次品。伯努利试验作为理论模型,其前提在现实中无法完全得到满足,比如生产线会磨损,因此每件产品合格的概率并非固定。尽管如此,二项分布给出的概率通常足以用于提供有用的推断;即使在已知前提没有满足的场合,二项分布也能用于参考和比较。二项分布的应用出现在遗传学 、质量控制 等领域之中。
若随机变量 X {\displaystyle \,X\,} 有概率质量函数
Pr ( X = k ) = ( n k ) p k ( 1 − p ) n − k ( k = 0 , 1 , … , n ) , {\displaystyle \Pr(X=k)={n \choose k}p^{k}(1-p)^{n-k}\quad (k=0,1,\ldots ,n),} 其中 n {\displaystyle \,n\,} 为正整数 、 0 ≤ p ≤ 1 {\displaystyle \,0\leq p\leq 1\,} ,则称 X {\displaystyle \,X\,} 服从参数 为 n , p {\displaystyle \,n,p\,} 的二项分布,记为 X ∼ B ( n , p ) {\displaystyle \,X\sim \operatorname {B} (n,p)\,} 或 X ∼ Bin ( n , p ) {\displaystyle \,X\sim \operatorname {Bin} (n,p)\,} 。习惯上 1 − p {\displaystyle \,1-p\,} 也用 q {\displaystyle \,q\,} 表示。
进行 n {\displaystyle \,n\,} 次独立 伯努利试验 的结果可以由 n {\displaystyle \,n\,} 个字母表示,例如用 S {\displaystyle \,S\,} 表示成功, F {\displaystyle \,F\,} 表示失败,则
S S F S F {\displaystyle SSFSF} 表示五次试验中第一、二、四次的结果为成功,其余为失败。设每次试验成功的概率为 p {\displaystyle \,p\,} ,失败的概率为 1 − p {\displaystyle \,1-p\,} 。因为试验相互独立,每一种排列 k {\displaystyle \,k\,} 个 S {\displaystyle \,S\,} 、 n − k {\displaystyle \,n-k\,} 个 F {\displaystyle \,F\,} 的方式对应的概率为 p k ( 1 − p ) n − k {\displaystyle \,p^{k}(1-p)^{n-k}\,} 。
从 n {\displaystyle \,n\,} 个不同元素 中选出含 k {\displaystyle \,k\,} 个元素的子集 的方法数量等于二项式系数
( n k ) = n ! k ! ( n − k ) ! . {\displaystyle {n \choose k}={\frac {n!}{k!(n-k)!}}.} 而每种对 k {\displaystyle \,k\,} 个 S {\displaystyle \,S\,} 、 n − k {\displaystyle \,n-k\,} 个 F {\displaystyle \,F\,} 的排列都可理解为从 n {\displaystyle \,n\,} 个位置中选出 k {\displaystyle \,k\,} 个作为字母 S {\displaystyle \,S\,} 的位置的方法,这种方法的数量即为 ( n k ) {\displaystyle \,{n \choose k}\,} 。与每种排列方式对应的概率相乘,便得到定义中的概率
( n k ) p k ( 1 − p ) n − k . {\displaystyle {n \choose k}p^{k}(1-p)^{n-k}.} 二项分布是最早得到研究的概率分布之一。丹麦统计学家安德斯·哈爾德 认为其历史可以追溯至布莱兹·帕斯卡 与皮埃尔·德·费马 于1654年对点数分配问题 的讨论:两名玩家赢得每局游戏的机会相同,赢得一定局数的胜者可获得奖金,但比赛仅进行了数局,尚未分出胜负就被迫中断,则奖金该如何分配?帕斯卡认为,奖金的分配应当基于玩家距离胜利所差的局数:若一名玩家还需 r {\displaystyle \,r\,} 局获胜,另一名玩家还需 s {\displaystyle \,s\,} 局获胜,则应考虑在 r + s − 1 {\displaystyle \,r+s-1\,} 局比赛的 2 r + s − 1 {\displaystyle \,2^{r+s-1}\,} 种结果中,两名玩家分别在多少种情况中获胜。两人的讨论限于这一问题本身,并未推导出二项分布的概率,但这一解法可被视作基于参数 p = 1 / 2 {\displaystyle \,p=1/2\,} 的二项分布。
对二项分布概率的推导为雅各布·伯努利 于《猜度术 》中作出。该著作在他去世后,于1713年得到出版,被视作概率论 的奠基性作品。伯努利还在其中首次给出了弱大数定律 的严格证明。对二项分布的正态 近似则是由亞伯拉罕·棣莫弗 发现,这一工作于1733年完成,于1738年出版在其著作《机遇论 》的第二版中。
参数为 n , p {\displaystyle \,n,p\,} 的二项分布的期望值 为 n p {\displaystyle \,np\,} ,方差 为 n p ( 1 − p ) {\displaystyle \,np(1-p)\,} 。其概率母函数 为
G ( z ) = ( 1 − p + p z ) n , {\displaystyle G(z)=(1-p+pz)^{n},} 矩母函数 为
M X ( t ) = ( 1 − p + p e t ) n , {\displaystyle M_{X}(t)=(1-p+pe^{t})^{n},} 特征函数 为
φ X ( t ) = ( 1 − p + p e i t ) n . {\displaystyle \varphi _{X}(t)=(1-p+pe^{it})^{n}.} 参数 n = 1 {\displaystyle \,n=1\,} 的二项分布称作伯努利分布 。多项分布 是二项分布的拓展,描述重复进行不限于两种结果、可能有多种可能结果的随机试验时的概率。二项分布本身是超几何分布 的极限形式。
若 X 1 , X 2 {\displaystyle \,X_{1},X_{2}\,} 两个随机变量独立,分别服从参数为 n 1 , p {\displaystyle \,n_{1},p\,} 和 n 2 , p {\displaystyle \,n_{2},p\,} 的二项分布,则 X 1 + X 2 {\displaystyle \,X_{1}+X_{2}\,} 即是在 n 1 + n 2 {\displaystyle \,n_{1}+n_{2}\,} 次独立伯努利试验中取得成功的次数,所以 X 1 + X 2 {\displaystyle \,X_{1}+X_{2}\,} 服从参数为 n 1 + n 2 , p {\displaystyle \,n_{1}+n_{2},p\,} 的二项分布。这一结论亦可通过将两者的概率母函数相乘而得出。在条件 X 1 + X 2 = k {\displaystyle \,X_{1}+X_{2}=k\,} 之下,随机变量 X 1 {\displaystyle \,X_{1}\,} 的条件概率分布 是参数为 k , n 1 , n 1 + n 2 {\displaystyle \,k,n_{1},n_{1}+n_{2}\,} 的超几何分布。
计算 Pr ( X = k ) {\displaystyle \,\Pr(X=k)\,} 和 Pr ( X = k + 1 ) {\displaystyle \,\Pr(X=k+1)\,} 的比值可以得到
Pr ( X = k + 1 ) Pr ( X = k ) = ( n − k ) p ( k + 1 ) ( 1 − p ) ( k = 0 , 1 , … , n − 1 ) , {\displaystyle {\frac {\Pr(X=k+1)}{\Pr(X=k)}}={\frac {(n-k)p}{(k+1)(1-p)}}\quad (k=0,1,\ldots ,n-1),} 因此,当 k < ( n + 1 ) p − 1 {\displaystyle \,k<(n+1)p-1\,} 时, Pr ( X = k ) {\displaystyle \,\Pr(X=k)\,} 随 k {\displaystyle \,k\,} 增加而上升;当 k > ( n + 1 ) p − 1 {\displaystyle \,k>(n+1)p-1\,} 时, Pr ( X = k ) {\displaystyle \,\Pr(X=k)\,} 随 k {\displaystyle \,k\,} 增加而下降。故二项分布的众数 为 ( n + 1 ) p {\displaystyle \,(n+1)p\,} 的下取整 ⌊ ( n + 1 ) p ⌋ {\displaystyle \,\lfloor (n+1)p\rfloor \,} 。若 ( n + 1 ) p {\displaystyle \,(n+1)p\,} 本身是整数,则 ( n + 1 ) p {\displaystyle \,(n+1)p\,} 和 ( n + 1 ) p − 1 {\displaystyle \,(n+1)p-1\,} 均是众数。若 p < ( n + 1 ) − 1 {\displaystyle \,p<(n+1)^{-1}\,} ,则众数为 0 {\displaystyle \,0\,} 。
二项分布的中位数 m {\displaystyle \,m\,} 位于 n p {\displaystyle \,np\,} 的上下取整 之间,即 ⌊ n p ⌋ ≤ m ≤ ⌈ n p ⌉ {\displaystyle \,\lfloor np\rfloor \leq m\leq \lceil np\rceil \,} ;若 n p {\displaystyle \,np\,} 为整数,则中位数 m = n p {\displaystyle \,m=np\,} 。中位数 m {\displaystyle \,m\,} 和期望值 n p {\displaystyle \,np\,} 之间的差满足
| m − n p | < max { p , 1 − p } . {\displaystyle |m-np|<\max\{p,1-p\}.} 若 p > ln 2 {\displaystyle \,p>\ln 2\,} 或 p < 1 − ln 2 {\displaystyle \,p<1-\ln 2\,} ,则该上界可进一步缩减为
| m − n p | < ln 2. {\displaystyle |m-np|<\ln 2.} 若 n {\displaystyle \,n\,} 为奇数 、 p = 1 / 2 {\displaystyle \,p=1/2\,} ,则 ( n − 1 ) / 2 {\displaystyle \,(n-1)/2\,} 和 ( n + 1 ) / 2 {\displaystyle \,(n+1)/2\,} 均为中位数。
二项分布的累积分布函数 和尾概率可以用正则化不完全贝塔函数 表示为
Pr ( X ≤ k ) = I 1 − p ( n − ⌊ k ⌋ , ⌊ k ⌋ + 1 ) , {\displaystyle \Pr(X\leq k)=I_{1-p}(n-\lfloor k\rfloor ,\lfloor k\rfloor +1),} Pr ( X ≥ k ) = I p ( ⌈ k ⌉ , n − ⌈ k ⌉ + 1 ) . {\displaystyle \Pr(X\geq k)=I_{p}(\lceil k\rceil ,n-\lceil k\rceil +1).} 二项分布的 r {\displaystyle \,r\,} 阶原点矩 满足
μ r ′ = E [ X r ] = ∑ j = 0 r S ( r , j ) n ! p j ( n − j ) ! , {\displaystyle \mu '_{r}=E[X^{r}]=\sum _{j=0}^{r}{\frac {S(r,j)n!p^{j}}{(n-j)!}},} 其中 S ( r , j ) {\displaystyle \,S(r,j)\,} 表示第二类 斯特林数 。具体而言,
μ 1 ′ = n p , {\displaystyle \mu '_{1}=np,} μ 2 ′ = n p + n ( n − 1 ) p 2 , {\displaystyle \mu '_{2}=np+n(n-1)p^{2},} μ 3 ′ = n p + 3 n ( n − 1 ) p 2 + n ( n − 1 ) ( n − 2 ) p 3 , {\displaystyle \mu '_{3}=np+3n(n-1)p^{2}+n(n-1)(n-2)p^{3},} μ 4 ′ = n p + 7 n ( n − 1 ) p 2 + 6 n ( n − 1 ) ( n − 2 ) p 3 + n ( n − 1 ) ( n − 2 ) ( n − 3 ) p 4 . {\displaystyle \mu '_{4}=np+7n(n-1)p^{2}+6n(n-1)(n-2)p^{3}+n(n-1)(n-2)(n-3)p^{4}.} 其低阶中心矩 为
μ 2 = n p ( 1 − p ) , {\displaystyle \mu _{2}=np(1-p),} μ 3 = n p ( 1 − p ) ( 1 − 2 p ) , {\displaystyle \mu _{3}=np(1-p)(1-2p),} μ 4 = 3 [ n p ( 1 − p ) ] 2 + n p ( 1 − p ) [ 1 − 6 p ( 1 − p ) ] . {\displaystyle \mu _{4}=3[np(1-p)]^{2}+np(1-p)[1-6p(1-p)].} n = 6 {\displaystyle n=6} 、 p = 0.5 {\displaystyle p=0.5} 时的二项分布 及其正态近似 标准二项分布
X ′ = X − n p n p ( 1 − p ) {\displaystyle X'={\frac {X-np}{\sqrt {np(1-p)}}}} 在 n → ∞ {\displaystyle \,n\to \infty \,} 时趋近 于标准正态分布 。这一结果称作棣莫弗-拉普拉斯定理 ,为中心极限定理 的特殊形式。基于这一定理可以得到
Pr ( α < X − n p n p ( 1 − p ) < β ) → Φ ( β ) − Φ ( α ) , {\displaystyle \Pr(\alpha <{\frac {X-np}{\sqrt {np(1-p)}}}<\beta )\to \Phi (\beta )-\Phi (\alpha ),} 其中 Φ {\displaystyle \,\Phi \,} 为标准正态分布的累积分布函数 。
正态分布为连续概率分布 ,在近似二项分布这类离散概率分布时,可将端点向外偏移 0.5 {\displaystyle \,0.5\,} 得到
Pr ( X ≤ k ) ≈ Φ ( k + 0.5 − n p n p ( 1 − p ) ) , {\displaystyle \Pr(X\leq k)\approx \Phi \left({\frac {k+0.5-np}{\sqrt {np(1-p)}}}\right),} 从而提升近似的准确性,这种技巧称作连续性校正 。何时能采用这一近似依赖于使用经验法则 ,例如要求 n p ( 1 − p ) > 9 {\displaystyle \,np(1-p)>9\,} ,或是在 p ≤ 0.5 {\displaystyle \,p\leq 0.5\,} 时要求 n p > 5 {\displaystyle \,np>5\,} 、在 p > 0.5 {\displaystyle \,p>0.5\,} 时要求 n ( 1 − p ) > 5 {\displaystyle \,n(1-p)>5\,} 。
当 n → ∞ , p → 0 {\displaystyle \,n\to \infty ,p\to 0\,} ,而 n p {\displaystyle \,np\,} 保持不变时,二项分布趋近于参数为 n p {\displaystyle \,np\,} 的泊松分布 。以此为基础可以得到
Pr ( X ≤ k ) ≈ e − n p ∑ j = 0 k ( n p ) j j ! . {\displaystyle \Pr(X\leq k)\approx e^{-np}\sum _{j=0}^{k}{\frac {(np)^{j}}{j!}}.} 二项分布与其泊松近似之间的绝对误差存在上界。若随机变量 X {\displaystyle \,X\,} 服从参数为 n , p {\displaystyle \,n,p\,} 的二项分布,随机变量 Y {\displaystyle \,Y\,} 服从参数为 n p {\displaystyle \,np\,} 的泊松分布,则
∑ k = 0 ∞ ‖ Pr ( X = k ) − Pr ( Y = k ) ‖ ≤ min { 2 n p 2 , 3 p } . {\displaystyle \sum _{k=0}^{\infty }\|\Pr(X=k)-\Pr(Y=k)\|\leq \min\{2np^{2},3p\}.} 通常参数 n {\displaystyle \,n\,} 为已知。假设随机变量 X {\displaystyle \,X\,} 服从二项分布,其参数 p {\displaystyle \,p\,} 未知。若观测到 X {\displaystyle \,X\,} 的值为 x {\displaystyle \,x\,} ,采用矩估计 和最大似然估计 对参数 p {\displaystyle \,p\,} 的估计量 均为 x n {\displaystyle \,{\frac {x}{n}}\,} ,这一估计量为无偏 的。
参数 p {\displaystyle \,p\,} 的贝叶斯估计量 取决于使用的先验分布 。若使用连续型均匀分布 作为先验分布,即假设 0 {\displaystyle \,0\,} 和 1 {\displaystyle \,1\,} 之间任意等长的区间 包含 p {\displaystyle \,p\,} 的概率都相同,则后验均值估计量为
p ^ = x + 1 n + 2 . {\displaystyle {\widehat {p}}={\frac {x+1}{n+2}}.} 这被称作拉普拉斯–贝叶斯估计量 ,曾被皮埃尔-西蒙·拉普拉斯 用于估计在太阳 连续升起 n {\displaystyle \,n\,} 天之后,太阳明天还会升起的概率。由于人类知道太阳在过去五千年,即1,826,213天都正常升起,拉普拉斯愿意以1,826,214比1的赔率赌太阳明天继续升起。
若使用参数为 α , β {\displaystyle \,\alpha ,\beta \,} 的贝塔分布 作为先验分布,则后验均值估计量为
p ^ = α + x + 1 α + β + n + 2 . {\displaystyle {\widehat {p}}={\frac {\alpha +x+1}{\alpha +\beta +n+2}}.} 采用贝塔分布作为先验分布时,后验分布 亦是贝塔分布,即贝塔分布为二项分布的共轭先验 。
若要对参数 p {\displaystyle \,p\,} 以区间 形式给出估计,通过求解
∑ j = x n ( n j ) p L j ( 1 − p L ) n − j = α 2 , {\displaystyle \sum _{j=x}^{n}{n \choose j}p_{L}^{j}(1-p_{L})^{n-j}={\frac {\alpha }{2}},} ∑ j = 0 x ( n j ) p U j ( 1 − p U ) n − j = α 2 , {\displaystyle \sum _{j=0}^{x}{n \choose j}p_{U}^{j}(1-p_{U})^{n-j}={\frac {\alpha }{2}},} 所得的区间 ( p L , p U ) {\displaystyle \,(p_{L},p_{U})\,} 为一个置信水平近似为 1 − α {\displaystyle \,1-\alpha \,} 的置信区间 ,称作克洛珀-皮尔逊区间(Clopper-Pearson interval )。
正态分布可以用于推导近似的置信区间。若用 λ α / 2 {\displaystyle \,\lambda _{\alpha /2}\,} 表示标准正态分布的第 1 − α 2 {\displaystyle \,1-{\frac {\alpha }{2}}\,} 分位数 ,即 Φ ( λ α / 2 ) = 1 − α 2 {\displaystyle \,\Phi (\lambda _{\alpha /2})=1-{\frac {\alpha }{2}}\,} ,则区间两端的近似值为
x n ± λ α / 2 n x n ( 1 − x n ) . {\displaystyle {\frac {x}{n}}\pm {\frac {\lambda _{\alpha /2}}{\sqrt {n}}}{\sqrt {{\frac {x}{n}}\left(1-{\frac {x}{n}}\right)}}.} Blyth, C. R. Approximate Binomial Confidence Limits . Journal of the American Statistical Association. 1986, 81 : 843–855. doi:10.1080/01621459.1986.10478343 (英语) . Chew, V. Point Estimation of the Parameter of the Binomial Distribution. The American Statistician. 1971, 25 (5): 47–50. doi:10.1080/00031305.1971.10477305 (英语) . Feller, W. An Introduction to Probability Theory and Its Applications, Volume 1, Third Edition. Wiley. 1968. ISBN 0-471-25708-7 (英语) . Hald, A. A History of Probability and Statistics and Their Applications before 1750. Wiley. 2003. ISBN 0-471-47129-1 (英语) . Hamza, K. The Smallest Uniform Upper Bound on the Distance Between the Mean and the Median of the Binomial and Poisson Distributions. Statistics and Probability Letters. 1995, 23 : 21–25. doi:10.1016/0167-7152(94)00090-U (英语) . Johnson, N. L.; Kemp, A. W.; Kotz, S. Univariate Discrete Distributions, Third Edition. Wiley. 2005. ISBN 0-471-27246-9 (英语) . Kaas, R.; Buhrman, J. M. Mean, Median and Mode in Binomial Distributions. Statistica Neerlandica. 1980, 34 (1): 13–18. doi:10.1111/j.1467-9574.1980.tb00681.x (英语) . Schader, M.; Schmid, F. Two Rules of Thumb for the Approximation of the Binomial Distribution by the Normal Distribution. The American Statistician. 1989, 43 (1): 23–24. doi:10.1080/00031305.1989.10475601 (英语) . Sheu, S. S. The Poisson Approximation to the Binomial Distribution . The American Statistician. 1984, 38 (3): 206–207. doi:10.1080/00031305.1984.10483202 (英语) . Stigler, S. M. The History of Statistics: The Measurement of Uncertainty before 1900 . Harvard University Press. 1986. ISBN 0-674-40340-1 (英语) .