统计学检验的前提条件
大多数统计学检验(相关性,回归,t-test, ANOVA)都需要数据符合正态分布,这些检验也叫参数检验,因为它们依赖数据分布。 在进行参数检验之前,我们要保证这些数据分布的假设能满足;不能满足的话,就进行非参检验。
预安装的R包
1 2 3 4 5 6 7 8
| install.packages('dplyr')
if(!require(devtools)) install.packages("devtools") devtools::install_github("kassambara/ggpubr")
install.packages("ggpubr")
|
密度图和QQ图,可视化查看是否满足正态分布
1 2 3 4 5 6 7 8 9 10
| library("dplyr") library("ggpubr")
set.seed(1234) dplyr::sample_n(ToothGrowth, 10)
library("ggpubr") ggdensity(ToothGrowth$len, main = "Density plot of tooth length", xlab = "Tooth length")
|
1 2
| library(ggpubr) ggqqplot(ToothGrowth$len)
|
正态性检验
前面可视化的查看是否符合正态分布通常是不可靠的,需要我们进行显著性检验,比较我们的数据分布和正太数据分布的差异。 有两种正态性检验方法:Kolmogorov-Smirnov(K-S)检验和Shapiro-Wilk's 检验。 零假设是:样本的数据分布是正态分布, 检验如果显著,则数据是非正态分布。 注意:正态性检验对样本数量是非常敏感的,小样本数目容易通过正态检验,因此要结合数据的可视化和检验来确定数据的分布。
1
| shapiro.test(ToothGrowth$len)
|