统计学总结

点击量:76

统计基础

  1. 3\sigma原则

正态分布X\sim N(\mu,\sigma^2)中,

P(\mu-\sigma\lt X\lt \mu+\sigma)=0.6826

P(\mu-2\sigma\lt X\lt \mu+2\sigma)=0.9545

P(\mu-3\sigma\lt X\lt \mu+3\sigma)=0.9973

关于抽样

  1. 大数定律

如果随机变量总体存在有限的平均数和方差,则对于充分大的抽样数量n,可以以几乎趋近于1的概率来期望抽样平均数与总体平均数的绝对离差.

\lim_{n\to \infty}P(|\overline x-\overline X|\le\epsilon)=1

其中,\epsilon为任意小的正数.

  1. 中心极限定理

大数定律论证了抽样平均数趋近于总体平均数的趋势,抽样平均数与总体平均数的离差不超过一定范围的概率大小问题则是由中心极限定理确定.

中心极限定理结论是:随机变量之和的分布函数向正态分布收敛

  1. 抽样形式
  • 简单随机抽样

  • 分层抽样
    先依据特征将总体划分为多个部分,然后在各个子部分进行抽样.

  • 等距抽样
    先将总体按照某一标准排列,然后按照固定的间隔进行抽取.
  • 整群抽样
    先将总体(学生)按单位划分为多个群(班级),然后在各个群众进行抽取.
  • 多阶段抽样
    先按总体的层次关系进行划分,再随机抽取高层次的群,然后依次按层次抽取.
  1. 抽样平均误差
  • 重复抽样

\mu_x=\sqrt{\frac{\sigma^2}{n}}

  • 不重复抽样

\mu_x=\sqrt{\frac{\sigma^2}{n}\frac{N-n}{N-1}}

关于相关性分析

  1. 皮尔逊线性相关系数
    用于观察两个变量之间的线性关系

要求:
– 变量之间是线性关系,都是连续数据
– 变量使正态分布,或者接近正态的单峰分布
– 变量之间的观测值成对,且相互独立

r=\frac{Cov(X,Y)}{\sigma_X\sigma_Y}

  • r>0时,两个变量正相关,当x增大时,y也有增大的趋势
  • r<0时,两个变量负相关,当x减小时,y有增大的趋势

经验解释:

  • |r|\ge 0.8时,两个变量之间高度相关
  • 0.5 \le|r| \gt 0.8时,两个变量之间中度相关
  • 0.3 \le|r| \gt 0.5时,两个变量之间低度相关
  • |r| \gt 0.3时,两个变量之间相关程度极弱
  1. 斯皮尔曼等级相关系数
    依据两列成对数据的各对等级数之差来计算,又被称为“等级差数法”

要求:
没有皮尔逊相关系数要求严格,不论变量的分布形态.

\rho=\frac{6\sum_{i=1}^{N}d_i^2}{N(N^2-1)}

取值也是在0\sim 1之间

  1. 肯德尔等级相关系数

Tau=\frac{C-D}{\frac{1}{2}N(N-1)}

其中,C表示XY中拥有一致性的元素对数,D表示XY中不一致的元素对数.同时上述公司只适用于XY中不存在相同元素的情况.取值情况与皮尔逊系数一样.


知识共享许可协议
本作品采用知识共享署名-非商业性使用-相同方式共享 3.0 中国大陆许可协议进行许可。

发表评论

电子邮件地址不会被公开。 必填项已用*标注