aibiology

Artificial intelligence in biology

0%

sigmoid

sigmoid 函数是机器学习常用的一种激活函数,公式如下: \[ f(x) = \frac{1}{1+e^{-x}} \]

求导

\[\begin{equation} \begin{aligned} f(x)^{\prime} &= ((1+e^{-x})^{-1})^{\prime} \\ &= (-1)\times(1+e^{-x})^{-2} \times e^{-x} \times (-1) \\ &= (1+e^{-x})^{-2} \times e^{-x} \\ &= \frac{e^{-x}}{(1+e^{-x})^2} \\ &= \frac{1+e^{-x}-1}{(1+e^{-x})^2} \\ &= \frac{1+e^{-x}}{(1+e^{-2})^2} - \frac{1}{(1+e^{-x})^2} \\ &= \frac{1}{1+e^{-x}} - \frac{1}{(1+e^{-x})^2} \\ &= \frac{1}{1+e^{-x}}(1-\frac{1}{1+e^{-x}}) \\ &= f(x)(1-f(x)) \end{aligned} \end{equation}\]

巴斯卡分布

伯努利事件中,记\(\xi\)为第r次成功出现的实验次数,则\(\xi\)是随机变量, 取值为r,r+1,r+2,...,其概率分布为巴斯卡分布 \[ P(\xi=k) = {k-1 \choose (r-1)}p^rq^{k-r}, k=r,r+1,r+2,... \] 显然,单r=1时,即为几何分布

负二项分布

巴斯卡分布规定事件发生的次数为正整数r>=0,当除掉这个限制后,巴斯卡分布就拓展为负二项分布。 现在规定,伯努利事件发生的概率为p,伯努利试验发生的总次数为r+k,事件刚好在r+k次发生第r次的 概率为\(f(k;r;p)\)

\[ f(k;r;p) = {k+r-1 \choose (r-1)}\cdot p^r \cdot (1-p)^k \]

几何分布

时间A发生的概率为p的伯努利实验中,\(\xi\)记为事件A首次出现的 实验次数,则称随机变量\(\xi\)服从几何分布,

\[ g(k,p) = P(\xi=k) = q^{k-1}p, k= 1,2,... \]

几何分布的无记忆性

在伯努利实验中,等待首次成功的时间\(\xi\)服从几何分布。假定前m次都没有成功, 那么首次成功等待的时间为\(\xi^{'}\),也是服从几何分布的。 证明: 根据条件概率的定义 \[ P = \frac{q^{m+k+1}p}{q^m} = q^{k-1}p \]

阶乘

对于任意自然数,\(0,1,2,...,n\)的阶乘的定义为 \(n! = 1\times 2 \times 3 ... \times n\)

但是\(0.5!\)怎么计算呢?

伽玛函数

1728年,哥德巴赫在考虑数值插值问题时提出的,如何将自然数的阶乘推广到实数集。 将数据点\((n,n!)\)画在图形上,好像可以看出大致的趋势,但是无法从数学的角度严 格证明。于是请教同时期的伯努利兄弟。由于欧拉当时还是丹尼尔伯努利的助手。 因此欧拉也得知这个问题,第二年,即1729年,欧拉给出了完美的数据公式, 从此完成了阶乘向实数集的拓展,此时欧拉大神22岁。

1730年欧拉定义

\[ \Gamma(x) = \displaystyle \int^{1}_{0}( -log(t))^{x-1}dt \]

\(t=e^{-u}\),由于\(t \in (0,1)\),所以\(u \in (0,\infty)\) \[ \Gamma(x) = \displaystyle \int^{\infty}_{0}u^{x-1}e^{-u}du \]\(u=x, x=s\),则得到了伽玛函数的一般形式。 \[\begin{equation} \Gamma(s) = \displaystyle \int^{+\infty}_{0}{x^{s-1}e^{-x}dx} \end{equation}\]

证明过程需要使用分部积分法

\[\begin{equation} \begin{aligned} \Gamma(s+1) &= \displaystyle \int^{+\infty}_{0}{x^{s}e^{-x}dx} \\ &= -\displaystyle \int^{\infty}_{0}{x^{s}d(e^{-x})} \\ &= -((x^s e^{-x}|_{0}^{\infty}) - (\displaystyle \int^{\infty}_{0}e^{-x}d(-x^s))) \\ &= -((x^s e^{-x}|_{0}^{\infty}) - \displaystyle \int^{\infty}_{0}s x^{s-1}e^{-x}dx) \\ &= s\Gamma(s) \end{aligned} \end{equation}\]

\[ \Gamma(1) = \displaystyle \int^{\infty}_{0}e^{-x}dx = 1 \] 规定\(0!=1\) 由上面的证明可知,伽玛函数具有递归性质,可以用来进行阶乘的计算。 则\(\Gamma(n+1)=n!\),因此对于任意的数都可以进行阶乘计算。 回到上面的\(0.5!\)的计算。

\(0.5!=\Gamma(0.5+1)=\displaystyle \int^{+\infty}_{0}{x^{0.5}e^{-x}dx}=\frac{1}{2}\sqrt{\pi}\)

伽玛分布

因为伽玛函数的一般表达式为\(\Gamma(\alpha) = \displaystyle \int^{+\infty}_{0}{x^{\alpha-1}e^{-x}dx}\) 等式两边同时除以\(\Gamma(\alpha)\),则得

\(1=\displaystyle \int^{+\infty}_{0}\frac{x^{\alpha-1}e^{-x}}{\Gamma(\alpha)}d(x)\)

\(x=\lambda x\),代入上式, 则上式如下: \[\begin{equation} \begin{aligned} 1 &= \displaystyle \int^{+\infty}_{0}\frac{x^{\alpha-1}e^{-x}}{\Gamma(\alpha)}d(x) \\ &= \displaystyle \int^{+\infty}_{0}\frac{(\lambda x)^{\alpha-1}e^{-(\lambda x)}}{\Gamma(\alpha)}d(\lambda x) \\ &= \displaystyle \int^{+\infty}_{0}\frac{(\lambda x)^{\alpha-1}e^{-\lambda x}}{\Gamma(\alpha)} \cdot \lambda d(x) \\ &= \displaystyle \int^{+\infty}_{0}\frac{\lambda^\alpha x^{\alpha-1}e^{-\lambda x}}{\Gamma(\alpha)}d(x) \\ \end{aligned} \end{equation}\]

取上式中的的被积函数作为伽马分布的密度函数

\[\begin{equation} \begin{aligned} p(x) &= \frac{\lambda^\alpha x^{\alpha-1}e^{-\lambda x}}{\Gamma(\alpha)} \\ &= \frac{\lambda^\alpha}{\Gamma(\alpha)} x^{\alpha-1}e^{-\lambda x} \end{aligned} \end{equation}\]

伽玛分布的期望和方差

期望的证明

\[\begin{equation} \begin{aligned} E(x) &= \sum p(x_i)\cdot x_i \\ &= \frac{\lambda^\alpha}{\Gamma(\alpha)} \displaystyle \int^{+\infty}_{0} x^{\alpha-1}e^{-\lambda x} d(x) \end{aligned} \end{equation}\]

因为 \(\Gamma(\alpha+1) = \displaystyle \int^{+\infty}_{0} x^{\alpha}e^{-\lambda x}\),

\(x=\lambda x\),则\(\Gamma(\alpha+1)\) \[\begin{equation} \begin{aligned} \Gamma(\alpha+1) &= \displaystyle \int^{+\infty}_{0} \lambda^\alpha x^{\alpha}e^{-\lambda x} d(\lambda x)d(x) \\ &=\lambda \displaystyle \int^{+\infty}_{0} \lambda^\alpha x^{\alpha}e^{-\lambda x} d(x) \end{aligned} \end{equation}\]

所以 \[\begin{equation} \begin{aligned} E(x) &= \frac{\frac{\Gamma(\alpha+1)}{\lambda}}{\Gamma(x)} \\ &= \frac{\Gamma(\alpha+1)}{\Gamma(\alpha)}\cdot\frac{1}{\lambda} \\ &= \frac{\alpha}{\lambda} \end{aligned} \end{equation}\]

方差的证明

因为\(p(x) = \frac{\lambda^\alpha}{\Gamma(\alpha)}x^(\alpha-1)e^{-\lambda x}\), 所以对于离散型随机变量,\(E(x^2) = p(x)\cdot x^2\) 对于连续型随机变量,二阶原点矩如下: \[\begin{equation} \begin{aligned} E(x^2) &= \displaystyle \int^{+\infty}_{0} x^2 \frac{\lambda^\alpha}{\Gamma(\alpha)} x^{\alpha-1}e^{-\lambda x}d(x) \\ &= \displaystyle \int^{+\infty}_{0}\frac{\lambda^\alpha}{\Gamma(\alpha)} x^{\alpha+1}e^{-\lambda x}d(x) \end{aligned} \end{equation}\]

因为\(\Gamma(\alpha+1)=\lambda \displaystyle \int^{+\infty}_{0} \lambda^\alpha x^{\alpha}e^{-\lambda x}d(x)\)

\[\begin{equation} \begin{aligned} \Gamma(\alpha+2) &= \lambda \displaystyle \int^{+\infty}_{0} \lambda^{\alpha+1} x^{\alpha+1}e^{-\lambda x}d(x) \\ &= \lambda^2 \displaystyle \int^{+\infty}_{0} \lambda^\alpha x^{\alpha+1}e^{-\lambda x}d(x) \end{aligned} \end{equation}\]

由上式可知\(\displaystyle \int^{+\infty}_{0} \lambda^\alpha x^{\alpha+1}e^{-\lambda x} d(x) = \frac{\Gamma(\alpha+2)}{\lambda^2}\) \[\begin{equation} \begin{aligned} E(x^2) &= \frac{\displaystyle \int^{+\infty}_{0}\lambda^\alpha x^{\alpha+1}e^{-\lambda x}d(x)}{\Gamma(\alpha)} \\ &= \frac{\Gamma(\alpha+2)}{\lambda^2\Gamma(\alpha)} \\ &= \frac{\alpha(\alpha+1)}{\lambda^2} \end{aligned} \end{equation}\]

根据方差的性质\(Var(x) = E(x^2) - E(x)^2\)

所以伽玛分布的方差为: \[\begin{equation} \begin{aligned} Var(x) &= \frac{\alpha(\alpha+1)}{\lambda^2} - {(\frac{\alpha}{\lambda})}^2 \\ &= \frac{\alpha}{\lambda^2} \end{aligned} \end{equation}\]

分布函数

设总体X的分布函数是\(F(x)\),从中获得的样本观察值为\(x_1,x_2,...x_n\)。 将他们从小到大重新排序,重新编号为\(x_(1)\).

矩(moment)

原点矩

一阶原点矩$ E(x) $ 二阶原点矩$ E(x^2)$ k阶原点矩 $ E(x^k)$

中心矩

二阶中心距 \(E((X-E(X))^2)\)

统计量

不含有任何位置参数的样本函数称为统计量。

例如,数据的算数平均数称为样本均值。

\(\overline x = \frac{1}{n} \sum_{i=1}^{n}x_i\)

估计量

用于估计未知参数的统计量称为点估计量。 参数\(\theta\)的估计量常用\(\hat \theta=\hat \theta(x_1,x_2,...x_n)\),表示,参数的可能取值范围是参数空间,记为\(\Theta = (\theta)\)

这里的参数常常只如下几种: * 分布中所含有的位置参数; * 分布中的期望,方差,标准差,分位数,和特征值; * 某事件的概率; 一个参数的估计量通常不止一个,如何判断优劣?常用的标准有多个。如无偏性,有效性,均方误差最小,相合性等等。

\(\hat \theta =\hat \theta(x_1,x_2,...x_n)\)是参数\(\theta\)的一个估计,对于参数空间\(\Theta=\theta\)中任意一个\(\theta\) 都有 \[ E(\hat \theta) = \theta, \forall \theta \in \Theta \] 则称\(\hat \theta\)\(\theta\)的无偏估计,否则称为\(\theta\)有偏估计。

样本方差

统计学中常用的三个统计量是:

  • 样本均值:\(\overline x = \frac{1}{n} \sum_{i=1}^{n}x_i\)
  • 样本方差:\(s^2 = \frac{1}{n-1} \sum_{i=1}^{n}(x_i-\overline x)\)
  • 样本标准差:\(s = \sqrt{s^2}\)
  1. 样本均值\(\overline x\)总位于数据中部,他是总体均值\(\mu\)的无偏估计,即\(E(\overline x) = \mu\)
  2. \(x_i\)\(\overline x\)的偏差\(x_i-\overline x\)可正可负,其和恒为零,\(\sum_{i=1}^{n}(x_i-\overline x) = 0\) 这个等式表明: n个偏差中只有n-1个是独立的,第n个可以根据其和为0的公式计算得出。 在统计中独立偏差的个数称为自由度,记为\(f\),故n个偏差有n-1个自由度,即\(f= n-1\)
  3. 全部的偏差之和恒为零,故样本偏差只和不能累加起来,不能直接用来度量样本散布大小,而改为样本偏差平方和\(Q\). \[ Q = \sum_{i=1}^{n}(x_i-\overline x)^2 \]
  4. 在样本量不同的场合,偏差平方和\(Q\)失去了比较样本散布大小的公平性。为了消除样本量大小对偏差平方和的干扰,改用平均偏差平方和\(s_n^2\)来度量, \[ s_n^2 = \frac{Q}{n} = \frac{1}{n} \sum_{i=1}^{n}(x_i-\overline x)^2 \] 样本方差\(s_n^2\)是总体方差\(\sigma^2\)的一个估计。

  5. \(s_n^2\)的改进。无论从理论还是实际使用中,用样本方差\(s_n^2\)估计总体方差\(\sigma^2\)多数情况下是偏小的。 证明如下:

\[\begin{equation} \begin{aligned} s_n^2 & = \frac{1}{n}\sum_{i=1}{n}(x_i-\overline x)^2 \\ &= \frac{1}{n}\sum_{i=1}^{n}(x_i^2 - 2x_i\overline x + \overline x^2) \\ & = \frac{1}{n}\sum_{i=1}^{n}x_i^2 - 2\frac{1}{n}\sum_{i=1}^{n}x_i \cdot \overline x + \overline x^2 \\ & = \frac{1}{n}\sum_{i=1}^{n}x_i^2 - \overline x^2 \\ \end{aligned} \end{equation}\]

为了求\(E(s_n^2)\),先求\(E(x_i^2),E(\overline x^2)\),

根据方差基本性质,方差和均值关系证明, 样本均值是总体期望的无偏估计,

  • \(E(x_i^2) = Var(x_i) + (E(x_i))^2=\sigma^2 + \mu^2\)
  • \(E(\overline x^2) = Var(\overline x) + (E(\overline x))^2 = Var(\frac{\sum x_i}{n})+\mu^2=\frac{1}{n^2}Var(\sum x_i) + \mu^2 = \frac{n\sigma^2}{n^2} + \mu^2 = \frac{\sigma^2}{n} + \mu^2\)

所以 \[ E(s_n^2) = \frac{1}{n}\sum_{i=1}^{n}(\sigma^2+\mu^2) - (\frac{\sigma^2}{n} + \mu^2) = (1-\frac{1}{n})\sigma^2 \le \sigma^2 \]

\(s_n^2\)是总体方差\(\sigma^2\)的有偏估计。

\[ s^2 = \frac{Q}{f} = \frac{1}{n-1}\sum_{i=1}{n}(x_i-\overline x)^2 \] \(s^2\)是总体方差的无偏估计,自由度是n-1。

证明: \[ E(s^2) = E(\frac{n}{n-1}s_n^2) = \frac{n}{n-1}(1-\frac{1}{n})\sigma^2 = \sigma^2 \]

分位数标准化 Quantile normalization

分位数标准化就是使得两个分布在统计属性上相同的技术手法。 该方法在基因芯片中经常使用。

例子

如图我们有三个基因芯片的数据,假设有A,B,C,D四个基因

表格Table1

Gene Sample1 Sample2 Sample3
A 5 4 3
B 2 1 4
C 3 4 6
D 4 2 8

对每一列进行排序,按照从小到大的顺序。 表格Table2

Gene Sample1 Sample2 Sample3
A iv iii i
B i i ii
C ii iii iii
D iii ii iv

这个排序好的列表(Table2)后续会用到。回到第一个数据表(Table1),重排每一列的数据,根据从小到大的顺序依次排列。 第一列原始的数据是5,2,3,4 ---> 2,3,4,5 第二列原始的数据是4,1,4,2 ---> 1,2,4,4 第三列原始的数据是3,4,6,8 ---> 3,4,6,8(原始已经是从小大,不变)

表格Table3

Gene Sample1 Sample2 Sample3
A 2 1 3
B 3 2 4
C 4 4 6
D 5 4 8

计算Table3每一行的均值,找到新的排序, A (2+1+3)/3 = 2.00 = rank i

B (3+2+4)/3 = 3.00 = rank ii

C (4+4+6)/3 = 4.67 = rank iii

D (5+4+8)/3 = 5.67 = rank iv

根据原始数据的排序Table2,和上面新排序对应的值, 将原始值根据对应的排序进行值的替换。

第一次标准化 表格Table4

Gene Sample1 Sample2 Sample3
A 5.67 4.67 2.00
B 2.00 2.00 3.00
C 3.00 4.67 4.67
D 4.67 3.00 5.67

注意,在第二列中有并列的值,这些并列的值应该被平均值替换,于是在这里我们替换第二列中并列的值, 使用4.67和5.67的(4.67+5.67)/2=5.17平均值来替换。

第二次标准化 表格Table5

Gene Sample1 Sample2 Sample3
A 5.67 5.17 2.00
B 2.00 2.00 3.00
C 3.00 5.17 4.67
D 4.67 3.00 5.67

新的值符合相同的分布,我们现在来看看一些统计量,发现这些值比较相近。

Sample1 Sample2 Sample3
Min. :2.000 Min. :2.000 Min. :2.000
1st Qu.:2.750 1st Qu.:2.750 1st Qu.:2.750
Median :3.833 Median :4.083 Median :3.833
Mean :3.833 Mean :3.833 Mean :3.833
3rd Qu.:4.917 3rd Qu.:5.167 3rd Qu.:4.917
Max. :5.667 Max. :5.167 Max. :5.667

python实现quantile normalize

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

import numpy as np
import pandas as pd

def quantileNormalize(df_input):
df = df_input.copy()
#compute rank
dic = {}
for col in df:
dic.update({col : sorted(df[col])})
sorted_df = pd.DataFrame(dic)
rank = sorted_df.mean(axis = 1).tolist()
#sort
for col in df:
t = np.searchsorted(np.sort(df[col]), df[col])
df[col] = [rank[i] for i in t]
return df

超几何分布(hypergeometric distribution)

设有N个产品,其中次品有M个。从中任取n个(n<=N-M) 则,n个抽取的产品中次品数目X是离散型随机变量, 概率质量函数如下: \[P(X=m)=\frac{C_M^m \cdot C_{N-M}^{n-m}}{C_N^n}, (m=0,1,2,...min(M,n))\] 则称 X服从参数为n,m和N的超几何分布,记为 \(X \sim H(n, m, N)\) $$ =

希腊字母

\[ \begin{array}{|c|c|c|c|c|c|c|c|} \hline {\alpha} & {\backslash alpha} & {\theta} & {\backslash theta} & {o} & {o} & {\upsilon} & {\backslash upsilon} \\\\ \hline {\beta} & {\backslash beta} & {\vartheta} & {\backslash vartheta} & {\pi} & {\backslash pi} & {\phi} & {\backslash phi} \\\\ \hline {\gamma} & {\backslash gamma} & {\iota} & {\backslash iota} & {\varpi} & {\backslash varpi} & {\varphi} & {\backslash varphi} \\\\ \hline {\delta} & {\backslash delta} & {\kappa} & {\backslash kappa} & {\rho} & {\backslash rho} & {\chi} & {\backslash chi} \\\\ \hline {\epsilon} & {\backslash epsilon} & {\lambda} & {\backslash lambda} & {\varrho} & {\backslash varrho} & {\psi} & {\backslash psi} \\\\ \hline {\varepsilon} & {\backslash varepsilon} & {\mu} & {\backslash mu} & {\sigma} & {\backslash sigma} & {\omega} & {\backslash omega} \\\\ \hline {\zeta} & {\backslash zeta} & {\nu} & {\backslash nu} & {\varsigma} & {\backslash varsigma} & {} & {} \\\\ \hline {\eta} & {\backslash eta} & {\xi} & {\backslash xi} & {\tau} & {\backslash tau} & {} & {} \\\\ \hline {\Gamma} & {\backslash Gamma} & {\Lambda} & {\backslash Lambda} & {\Sigma} & {\backslash Sigma} & {\Psi} & {\backslash Psi} \\\\ \hline {\Delta} & {\backslash Delta} & {\Xi} & {\backslash Xi} & {\Upsilon} & {\backslash Upsilon} & {\Omega} & {\backslash Omega} \\\\ \hline {\Omega} & {\backslash Omega} & {\Pi} & {\backslash Pi} & {\Phi} & {\backslash Phi} & {} & {} \\\\ \hline \end{array} \]

伯努利大数定理(Law of Large Numbers)

伯努利分布也称两点分布,相关的描述和证明见伯努利分布

伯努利概型

\(\Omega\),\(\mathscr{A}\),\(P\) ,其中 \(\Omega=\{\omega:\omega=(a_1,...a_n),a_i=0,1\}\)

\(\mathscr{A}=\{A:A \subset \Omega\}\) , \(P(\{\omega\})=p^{\sum a_i}(1-p)^{n-\sum a_i}=p(\omega)\)

上面定义的三对象,称作伯努利概型。白话就是“有两种结局的n次独立试验的概率模型”

对于二项分布而言,\(ES_n = np\) \(E\frac{S_n}{n} = p\),即成功的频率\(S_n/n\)的平均值等于成功的概率。那么成功的频率对成功的概率的偏差如何呢? 这里需要借助切比雪夫不等式。

切比雪夫不等式

设(\(\Omega\),\(\mathscr{A}\),\(P\))是某一概率空间,\(\xi=\xi(\omega)\) 是非负随机变量,那么对于任意的\(\varepsilon>0\),

\[ P\{\xi\geq\varepsilon\} \leq \frac{E\xi}{\varepsilon} \]

切比雪夫不等式证明: 根据示性函数的性质,

\[\begin{equation} \begin{aligned} \xi &=\xi I(\xi \geq \varepsilon) + \xi I(\xi < \varepsilon) \\ &\geq \xi I(\xi \geq \varepsilon) \\ &\geq \varepsilon I(\xi \geq \varepsilon) \\ \end{aligned} \end{equation}\]

所以 \(\xi \geq \varepsilon I(\xi \geq \varepsilon)\) 根据期望的性质 \[\begin{equation} \begin{aligned} E\xi &\geq E\varepsilon I(\xi \geq \varepsilon) \\ &\geq \varepsilon E I(\xi \geq \varepsilon) = \varepsilon P\{\xi \geq \varepsilon\} \end{aligned} \end{equation}\] 不等式得证。

切比雪夫不等式的另一种表达方式

设随机变量\(X\)的数学期望和方差都存在,对于任意的常数\(\varepsilon\)有: \[ P(|X-E(X)| \geq \varepsilon) \leq \frac{Var(X)}{\varepsilon^2} \] 或者 \[ P(|X-E(X)| \leq \varepsilon) \geq 1- \frac{Var(X)}{\varepsilon^2} \] 证明如下: 设\(X\)是一个连续的随机变量,其密度函数为\(p(x)\),记\(E(X)=a\)

\[\begin{align*} P(|X-a|\geq\varepsilon) &= \int\limits_{\{x:|x-a|\geq\varepsilon\}} \quad p(x)dx \\ &\leq \int \limits_{\{x:|x-a|\geq\varepsilon\}} \quad \frac{(x-a)^2}{\varepsilon^2}p(x)dx \\ &\leq \frac{1}{\varepsilon^2}\int_{-\infty}^{+\infty}(x-a)^2p(x)dx = \frac{Var(x)}{\varepsilon^2} \end{align*}\]

此证明的第一个不等式,是由于 \(|X-E(X)| \geq \varepsilon\)得出,第二个不等式是积分区间的扩大导致的。 该切比雪夫不等式的证明,将\(\xi = X-E(X)\),则就是第一个切比雪夫不等式的证明推导。

证明伯努利概型大数定理

\[ \lim_{n \to \infty}P(|\frac{S_n}{n}-p|\le \varepsilon) = 1 \]

证明:

\[\begin{align*} 1 &\geq P(|\frac{S_n}{n}-p| \leq \varepsilon) \\ &\geq 1 - \frac{Var(\frac{S_n}{n})}{\varepsilon^2} = 1- \frac{p(1-p)}{n^2\varepsilon^2} \end{align*}\]

\(n\)趋近与\(\infty\)时,上式趋近与1,事件发生的频率趋近与概率。