相关性分析(相关系数)-hxw

皮尔逊 Pearson 相关系数/斯皮尔曼 Spearman 相关系数


一、统计学概论

总体与样本

总体:考察对象的全部个体叫做总体

样本:总体中所抽取的一部分个体

利用抽取的样本的统计量来估计总体的统计量

使用样本均值、样本标准差来估计总体的均值(平均水平)和总体的标准差(偏离程度)

描述性统计

image

描述性工具:SPSS/Excel/python

二、皮尔逊 Pearson 相关系数

总体皮尔逊 Pearson 相关系数

如果两组数据 X: X_1, X_2, \ldots, X_nY: Y_1, Y_2, \ldots, Y_n 是总体数据

总体均值:E(X) = \frac{\sum_{i=1}^{n} X_i}{n}, \quad E(Y) = \frac{\sum_{i=1}^{n} Y_i}{n}
总体协方差:\text{Cov}(X, Y) = \frac{\sum_{i=1}^{n} (X_i - E(X))(Y_i - E(Y))}{n}

注意:协方差的大小和两个变量的量纲有关

总体Pearson相关系数(剔除了量纲影响): \rho_{XY} = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y}
其中: \text{Cov}(X, Y) = \frac{\sum_{i=1}^{n} (X_i - E(X))(Y_i - E(Y))}{n}
\sigma_X = \sqrt{\frac{\sum_{i=1}^{n} (X_i - E(X))^2}{n}} , \sigma_Y = \sqrt{\frac{\sum_{i=1}^{n} (Y_i - E(Y))^2}{n}}

不难证明,当 X 与 Y 为线性关系时,Pearson 相关系数为 1 或-1。(侧面说明了皮尔逊相关系数绝对值不超过 1

image

样本皮尔逊 Pearson 相关系数

\text{假设有两组数据:} X: (X_1, X_2, \ldots, X_n) \text{ 和 } Y: (Y_1, Y_2, \ldots, Y_n)
\text{样本均值:} \bar{X} = \frac{\sum_{i=1}^{n} X_i}{n}
{样本协方差:} \text{Cov}(X, Y) =\frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{n}
\text{样本 Pearson 相关系数:} r_{XY} = \frac{\text{Cov}(X, Y)}{S_X S_Y}
\text{其中,} S_X (\sigma_X) \text{ 为样本标准差:} S_X = \sqrt{\frac{\sum_{i=1}^{n} (X_i - \bar{X})^2}{n-1}}
同理有 \quad S_Y = \sqrt{\frac{\sum_{i=1}^{n} (Y_i - \bar{Y})^2}{n-1}}

皮尔逊相关系数的一些理解误区

皮尔逊相关系数只是用来衡量两个变量线性相关程度的指标:
必须先确认这两个变量是线性相关的,然后相关系数才能衡量线性相关程度

  • 非线性相关也会导致线性相关系数很大
  • 离群点对相关系数的影响很大(可能偏大很多,也可能偏小很多)
  • 相关系数计算结果为 0,只能说不是线性相关,可能会有更复杂的相关关系 (非线性相关)

总结:

(1)如果两个变量就是线性的关系,那么皮尔逊相关系数绝对值大的就是相关性强,小的就是相关性弱;

(2)在不确定两个变量是什么关系的情况下,即使算出皮尔逊相关系数,发现很大,也不能说明那两个变量线性相关,而且不能说他们相关,一定要画出散点图来看才行。

对相关系数大小的解释:

  • 对相关系数的解释是依赖于具体的应用背景和目的
  • 比起相关系数的大小,我们往往更关注的是显著性(假设检验)

对皮尔逊相关系数进行假设检验

假设检验(主要靠理解,详见普林斯顿概率论读本 P658 页)

  • H0 为原假设,H1 为备选假设(H0 的反面)
  • 在 H0 成立的条件下,计算统计量,其中统计量函数服从某个分布
  • 在给定置信水平的条件下,求出接受域和拒绝域
  • 检验值统计量是否在接受域内(若在则接受,不在则拒绝 H0)

或者:p-value 值检验法,计算统计量对应的概率

与 0.01/0.05/0.10 做比较,得到显著性标记

image

其中 r 为皮尔逊相关系数,n 为样本数量

皮尔逊相关系数假设检验的条件

  • 假设是来自于正态分布的总体(如何检验正态分布?)
  • 实验数据之间的差距不能太大,异常值的影响比较大(数据预处理的任务)
  • 每组样本之间是独立抽样的(构造 t 统计量时需要用到)(默认的模型假设)

正态分布检验

正态分布介绍:偏度与峰度

image

1.雅克‐贝拉检验(Jarque‐Bera test)-JB 检验 (大样本 n>30)

对于一个随机变量 X_i,假设其偏差为 K,峰度为 J,构造 JB 统计量为:

JB = \frac{n}{6} \left[ S^2 + \frac{(K - 3)^2}{4} \right]

可以证明如果 K 是正态分布,则 JB \sim \chi^2(2)(自由度为 2 的卡方分布)

那么进行假设检验的步骤如下:

  1. 该假设是 H_0X 是正态分布
  2. 该假设是 H_1X 不是正态分布
  3. 然后计算观察到的统计量 JB^*,并与对应的临界值进行比较

2.Shapiro‐wilk 夏皮洛‐威尔克检验-小样本 3≤n≤50:Shapiro-wilk 检验(SPSS)

3.Q-Q 图(Q 代表分位数 Quantile)(要求数据量非常大)

通过比较两个概率分布的分位数对这两个概率分布进行比较的概率图方法

如果要检验的随机变量是正态分布,那么 QQ 图就是一条直线

只需看 Q‐Q 图上的点是否近似地在一条直线附近

三、斯皮尔曼 Spearman(等级)相关系数

定义

定义一:

X 和 Y 是两个变量,其中皮尔逊相关系数(等级)相关系数:

其中d_iXY 之间的等级差:

一个数的等级,就是将它所值的所有数按从小到大排列后,这个数所处的位置

注:如果有的数值相同,则将它们所在的位置取算术平均

image

r_s = 1 - \frac{6 \sum_{i=1}^{n} d_i^2}{n(n^2 - 1)}

可以说明:r_s 位于 -1 和 $1$ 之间

定义二:

斯皮尔曼相关系数被定义成等级之间的皮尔逊相关系数

斯皮尔曼相关系数的假设检验

小样本情况,即 𝒏 小于等于 𝟑𝟎 时,直接查临界值表即可:

相关系数 r 必须大于表中的临界值,才能得出显著的结论

大样本情况:

r_s \sqrt{n-1} \sim N(0,1) \\ H_0: r_s = 0, \quad H_1: r_s \neq 0 \\ \text{我们计算检验统计量 } r_s \sqrt{n-1},\text{并求出对应的 } p \text{ 值与 } 0.05 \text{ 相比}

四、两个相关系数的比较

斯皮尔曼相关系数和皮尔逊相关系数选择:

1.连续数据,正态分布,线性关系,用 pearson 相关系数是最恰当

2.上述任一条件不满足,用 spearman 相关系数,不能用 pearson 相关系数

3.两个定序数据之间也用 spearman 相关系数,不能用 pearson 相关系数

定序数据是指仅仅反映观测对象等级、顺序关系的数据,是由定序尺度计量形成的,表现为类别,可以进行排序,属于品质数据。例如:优、良、差

五、综上所述

相关性分析part尚未完成任务-hxw

  1. SPSS 操作熟悉与 python 的代码准备
  2. 假设检验的原理部分还有一些不理解的地方
  3. 总结相关性分析的步骤流程
  • 描述性统计
  • 相关性系数(如果是皮尔逊需要先进行假设检验)

  • 算法
    428 引用 • 254 回帖 • 24 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...