aibiology

Artificial intelligence in biology

0%

Binomial Distribution

1.二项分布(binomial distribution)

两点分布重复n次,就得到了二项分布,二项分布的概率质量函数(probability mass function, PMF): n为实验的总次数,k为实验成功的次数,p是成功的概率 \[ P(X=k)=C_n^kp^k(1-p)^{n-k} \] 服从二项分布的随机变量记为 \(X \sim B(n,p)\)

2.二项分布的期望

二项分布分布,事件发生的概率为p, 不发生的概率为q=1-p, 这里的 \(C_n^k\) 称为二项系数,根据二项展开式的系数,可以反推二项分布的概率和为1. \[ \sum_{k=0}^nP(X=k) = \sum_{k=0}^nC_n^kp^k(1-p)^{n-k} = (p+(1-p))^n=1 \] 期望是离散型随机变量的特征之一,定义如下: 设\(\xi\) 为离散型随机变量,它可以取值\(x_1,x_2,x_3,...\),对应的概率为\(p_1,p_2,p_3,...\) 如果级数 \[\sum_{i=1}^{\infty}x_ip_i\] 绝对收敛,则把它称为\(\xi\)的数学期望(mathematical expectation),简称期望,期望值或均值(mean),记为\(E\xi\)\(\sum_{i=1}^{\infty}{\vert}x_i{\vert}p_i\) 发散时,则\(\xi\)的数学期望不存在。

\[\begin{equation} \begin{aligned} \sum_{k=0}^{n}kp_k &= \sum_{k=1}{n}{n \choose k}p^kq^{n-k} \\ &= np \sum_{k=1}^{n}{n-1 \choose k-1}p^{k-1}q^{n-k} \\ &=np(p+q)^{n-1} \\ &=np \end{aligned} \end{equation}\]

二项分布期望证明二:

\(\xi_1,\xi_2,...\xi_n\) 是n个伯努利随机变量,以概率\(P\{\xi_i=1\} = p\)\(P\{\xi_i=0\} = q,p + q = 1\), 则对于: \[S_n = \xi_1+\xi_2+...+\xi_n\] 根据期望的基本性质,\(S_n\)的数学期望为 \[ES_n = E(\xi_1)+E(\xi_2) + ... + E(\xi_n) = np \] 证明的过程比第一个证明要简单快捷。

3.二项分布的方差

随机变量\(\xi\),如果\(E(\xi-E\xi)^2\)存在,则称它为随机变量\(\xi\)的方差(variance). 并记为\(D\xi\),而\(\sqrt{D\xi}\)称为标准差(standard deviation),描述的是随机变量 对其数学期望的偏离程度(dispersion)。

\[ E(X) = np\]

\[\begin{equation} \begin{aligned} E(X^2) &= \sum_{k=0}^{n} k^2 C_n^kp^kq^{n-k} \\ &=\sum_{k=1}^{n} [k(k-1)+k]\frac{n!}{k!(n-k)!}p^kq^{n-k} \\ &=\sum_{k=2}^{n} \frac{n!}{(k-2)!(n-k)!} + E(X) \\ &=n(n-1)p^2 \sum_{k=2}^{n} \frac{(n-2)!}{(k-2)![(n-2) - (k-2)]!} \cdot p^{k-2}q^{(n-2)-(k-2)} +E(X) \\ &=n(n-1)p^2 \sum_{k{'}=0}^{n-2} C_{n-2}^k{'}p^k{'}q^{(n-2)-k{'}} + E(X) \\ &=n(n-1)p^2 + np \\ &=n^2p^2 + np(1-p) \\ \end{aligned} \end{equation}\]

由于方差恒等式\(D(X) = E(X^2) - [E(X)]^2\),所以 \(D(X) = np(1-p)\)

二项分布方差证明二:

\(\xi\)是伯努利随机变量,以概率\(P\{\xi_i=1\} = p\)\(P\{\xi_i=0\} = q,p + q = 1\), 根据方差的定义:

伯努利期望\(E\xi = p\), \[ D\xi = E(\xi - E\xi)^2 = E(\xi - p)^2=(1-p)^2p + (0-p)^q = pq \] 由此可见,\(\xi_1,\xi_2,...\xi_n\)是独立同分布的伯努利随机变量序列,且\(S_n = \xi_1+\xi_2+...+\xi_n\)\[DS_n = npq\] 这里参考了方差的性质:如果\(\xi\)\(\eta\)独立,则和\(\xi+\eta\)的方差等于方差之和。 \[D(\xi+\eta) = D\xi + D\eta\]