aibiology

Artificial intelligence in biology

0%

统计学中的正态性检验

统计学检验的前提条件

大多数统计学检验(相关性,回归,t-test, ANOVA)都需要数据符合正态分布,这些检验也叫参数检验,因为它们依赖数据分布。 在进行参数检验之前,我们要保证这些数据分布的假设能满足;不能满足的话,就进行非参检验。

预安装的R包

1
2
3
4
5
6
7
8
# dplyr
install.packages('dplyr')

# ggpubr
if(!require(devtools)) install.packages("devtools")
devtools::install_github("kassambara/ggpubr")

install.packages("ggpubr")

密度图和QQ图,可视化查看是否满足正态分布

1
2
3
4
5
6
7
8
9
10
library("dplyr")
library("ggpubr")

set.seed(1234)
dplyr::sample_n(ToothGrowth, 10)

library("ggpubr")
ggdensity(ToothGrowth$len,
main = "Density plot of tooth length",
xlab = "Tooth length")
1
2
library(ggpubr)
ggqqplot(ToothGrowth$len)

正态性检验

前面可视化的查看是否符合正态分布通常是不可靠的,需要我们进行显著性检验,比较我们的数据分布和正太数据分布的差异。 有两种正态性检验方法:Kolmogorov-Smirnov(K-S)检验和Shapiro-Wilk's 检验。 零假设是:样本的数据分布是正态分布, 检验如果显著,则数据是非正态分布。 注意:正态性检验对样本数量是非常敏感的,小样本数目容易通过正态检验,因此要结合数据的可视化和检验来确定数据的分布。

1
shapiro.test(ToothGrowth$len)