aibiology

Artificial intelligence in biology

0%

Possion Distribution

泊松分布,二项分布的极限形式,广泛应用于管理科学,运筹学,自然科学中。生活中某个十字路口在一定时间内经过的车辆数,就服从泊松分布。 它描述的是在单位时间(空间)内随机事件发生的次数。 泊松分布的推导如下:

二项分布(binomial distribution)

两点分布重复n次,就得到了二项分布,二项分布的概率质量函数(probability mass function, PMF): n为实验的总次数,k为实验成功的次数,p是成功的概率 \[ P(X=k)=C_n^kp^k(1-p)^{n-k} \] 服从二项分布的随机变量记为 \(X \sim B(n,p)\)

二项分布的期望

二项分布分布,事件发生的概率为p, 不发生的概率为q=1-p, 这里的 \(C_n^k\) 称为二项系数,根据二项展开式的系数,可以反推二项分布的概率和为1. \[ \sum_{k=0}^nP(X=k) = \sum_{k=0}^nC_n^kp^k(1-p)^{n-k} = (p+(1-p))^n=1 \] 期望是离散型随机变量的特征之一,定义如下: 设\(\xi\) 为离散型随机变量,它可以取值\(x_1,x_2,x_3,...\),对应的概率为\(p_1,p_2,p_3,...\) 如果级数 \[\sum_{i=1}^{\infty}x_ip_i\] 绝对收敛,则把它称为\(\xi\)的数学期望(mathematical expectation),简称期望,期望值或均值(mean),记为\(E\xi\)\(\sum_{i=1}^{\infty}{\vert}x_i{\vert}p_i\) 发散时,则\(\xi\)的数学期望不存在。

\[\begin{equation} \begin{aligned} \sum_{k=0}^{n}kp_k &= \sum_{k=1}{n}{n \choose k}p^kq^{n-k} \\ &= np \sum_{k=1}^{n}{n-1 \choose k-1}p^{k-1}q^{n-k} \\ &=np(p+q)^{n-1} \\ &=np \end{aligned} \end{equation}\]

二项分布的方差

随机变量\(\xi\),如果\(E(\xi-E\xi)^2\)存在,则称它为随机变量\(\xi\)的方差(variance). 并记为\(D\xi\),而\(\sqrt{D\xi}\)称为标准差(standard deviation),描述的是随机变量 对其数学期望的偏离程度(dispersion)。

\[ E(X) = np\]

\[\begin{equation} \begin{aligned} E(X^2) &= \sum_{k=0}^{n} k^2 C_n^kp^kq^{n-k} \\ &=\sum_{k=1}^{n} [k(k-1)+k]\frac{n!}{k!(n-k)!}p^kq^{n-k} \\ &=\sum_{k=2}^{n} \frac{n!}{(k-2)!(n-k)!} + E(X) \\ &=n(n-1)p^2 \sum_{k=2}^{n} \frac{(n-2)!}{(k-2)![(n-2) - (k-2)]!} \cdot p^{k-2}q^{(n-2)-(k-2)} +E(X) \\ &=n(n-1)p^2 \sum_{k{'}=0}^{n-2} C_{n-2}^k{'}p^k{'}q^{(n-2)-k{'}} + E(X) \\ &=n(n-1)p^2 + np \\ &=n^2p^2 + np(1-p) \\ \end{aligned} \end{equation}\]

由于方差恒等式\(D(X) = E(X^2) - [E(X)]^2\),所以 \(D(X) = np(1-p)\)

泊松分布(possion distribution)

在下面的情形下,\(n \to \infty,\,p,\,\lambda > 0,\,\lambda=np,\,p = \frac{\lambda}{n}\) \[P(X=k)=\displaystyle \lim_{n \to \infty} C_n^k \cdot (\frac{\lambda}{n})^k \cdot (1-\frac{\lambda}{n})^{n-k}\] \[C_n^k \cdot (\frac{\lambda}{n})^k \cdot (1-\frac{\lambda}{n})^{n-k}=\frac{1}{k!} \cdot \frac{n(n-1)...(n-k+1)}{n^k} \cdot \lambda^k \cdot\frac{(1-\frac{\lambda}{n})^n}{(1-\frac{\lambda}{n})^k}\] 因为\(n \to \infty\), k不变,第二个因子

\[\displaystyle \lim_{n \to \infty} \frac{n(n-1)...(n-k+1)}{n^k}=\frac{n}{n} \cdot \frac{n-1}{n}...\frac{n-(k-1)}{n}=1\]

第四个因子中的分母

\[\displaystyle \lim_{n \to \infty}(1-\frac{\lambda}{n})^k = 1\]

第四个因子中的分子 \[(1-\frac{\lambda}{n})^n = [(1-\frac{\lambda}{n})^{-\frac{n}{\lambda}}]^{-\lambda}\] 因为 \(\displaystyle \lim_{n \to \infty} (1-\frac{\lambda}{n})^{-\frac{n}{\lambda}} = e\),所以 \((1-\frac{\lambda}{n})^n = e^{-\lambda}\)

因此 \[\displaystyle \lim_{n \to \infty} C_n^k \cdot (\frac{\lambda}{n})^k \cdot (1-\frac{\lambda}{n})^{n-k}=\frac{\lambda^k}{k!}e^{-\lambda}\] 综上 \[P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda},k=0,1,2...\] 服从泊松分布随机变量记为 \(X \sim p(\lambda)\) 在应用中,当p相当小(p <= 0.1)时,我们用下面的近似公式 \(b(k;n,p) \sim \frac{(np)^k}{k!}e^{-np}\)

泊松分布期望

证明泊松分布的概率和为1 \[ \sum_{k=0}^{\infty}p(k;\lambda) = \sum_{k=0}^{\infty} \frac{\lambda^k}{k!}e^{-\lambda}=e^{-\lambda} \cdot e^{\lambda}=1\] \(e^{\lambda} = \sum_{k=0}^{\infty} \frac{\lambda^k}{k!}\) 为指数函数的泰勒展开式

\[\begin{equation} \begin{aligned} \sum_{k=0}^{\infty}kp_k &= \sum_{k=1}^{\infty}k \cdot \frac{\lambda^k}{k!}e^{-\lambda} \\ &=\lambda e^{-\lambda}\sum_{k=1}^{\infty}\frac{\lambda^{k-1}}{(k-1)!} \\ &=\lambda e^{-\lambda} \cdot e^\lambda \\ &=\lambda \end{aligned} \end{equation}\]

泊松分布方差

方差的推导如下: 对于泊松分布期望:\(E(\xi)=\lambda\)

\[\begin{equation} \begin{aligned} E(\xi)^2 &= \sum k^2p_k \\ &=\sum_{k=1}^{\infty}k^2 \cdot \frac{\lambda^k}{k!}e^{-\lambda} \\ &=\sum_{k=1}^{\infty}k \frac{\lambda^k}{(k-1)!} e^{-\lambda} \\ &=\sum_{k=1}^{\infty} [(k-1)+1] \cdot \frac{\lambda^k}{(k-1)!} e^{-\lambda} \\ &=\sum_{k=2}^{\infty} \frac{\lambda^k}{(k-2)!}e^{-\lambda} + \sum_{k=1}^{\infty} \frac{\lambda^k}{(k-1)!}e^{-\lambda} \\ &=\lambda^2\sum_{k{'}=0}^{\infty} \frac{\lambda^k{'}}{(k{'})!}e^{-\lambda} + \lambda\sum_{k{''}=0}^{\infty} \frac{\lambda^k{''}}{(k{''})!}e^{-\lambda} \\ &=\lambda^2+\lambda \end{aligned} \end{equation}\]

\[D\xi = E(\xi^2) - [E(\xi)]^2 = \lambda^2+\lambda -\lambda^2 = \lambda\] 附方差恒等式的证明 \[D\xi = E(\xi^2) - [E(\xi)]^2 \]

\[\begin{equation} \begin{aligned} D(\xi) &= E[\xi - E(\xi)]^2 \\ &=E{\xi^2 - 2E(\xi) \cdot \xi +[E(\xi)]^2} \\ &=E(\xi^2) - E[2E(\xi) \cdot \xi] + E[E(\xi)]^2 \\ &=E(\xi^2) - 2E(\xi) \cdot E(\xi) + [E(\xi)]^2\\ &=E(\xi^2) - [E(\xi)]^2 \end{aligned} \end{equation}\]

方差恒等式证明二: 以\(\xi \sim p(\xi)\)为例

\[\begin{equation} \begin{aligned} D(\xi) &= \int_{-\infty}^{\infty}[\xi - E(\xi)]^2p(\xi)d\xi \\ &=\int_{-\infty}^{\infty}\{\xi^2 - 2E(\xi) \cdot \xi + [E(\xi)]^2\}p(\xi)d\xi \\ &=\int_{-\infty}^{\infty}\xi^2p(\xi)d\xi - 2E(\xi)\int_{-\infty}^{\infty}\xi p(\xi)d\xi + [E(\xi)]^2\int_{-\infty}^{\infty}p(\xi)d\xi \\ &=E(\xi^2) - 2E(\xi) \cdot E(\xi) + [E(\xi)]^2 \cdot 1 \\ &=E(\xi^2) - [E(\xi)]^2 \end{aligned} \end{equation}\]