典型相关分析

研究两组变量(每组变量中有多个指标)之间相关关系

揭示出两组变量之间的内在联系

image


一、典型相关分析到底是什么?

如果我们为了研究两组变量的相关性

是的典型相关分析的研究对象是:两组变量(各含有多个小指标)的相关性

\begin{cases} X = (x_1, x_2, \cdots, x_p) \\ Y = (y_1, y_2, \cdots, y_q) \end{cases}

最常规的思路是什么,是不是把 X 的 p 个指标和 Y 的 q 个指标都做一遍相关性系数,这样就是 pq 次,这肯定是非常不好的方法

在我们学习了因子分析模型之后应该意识到,多个指标(或者叫变量)是可以融合为一个综合因子的。所以我们如果希望研究 X 的 p 个指标的线性组合以及 Y 的指标线性组合的相关关系

这样的分析就叫典型相关分析

二、完整的步骤到底是什么?

image

Ui、Vi就是我们说的典型变量,他们之间的相关系数称为典型相关系数

上面这张图很清楚的说明了典型相关分析的步骤:

  1. 定义变量 X 和 Y, 标准化检验****X 和 Y 服从正态分布

    确定要分析的两组变量:

    \begin{cases}X = (x_1, x_2, \cdots, x_p) \\Y = (y_1, y_2, \cdots, y_q)\end{cases}
    • 如果量纲不一样,需要标准化去除量纲的影响
    • 检验正态分布
  2. 构建典型相关假设模型

    是的,他这里又是在构建假设模型,所以后面一定有假设检验

    典型相关分析的目标是找到一对线性组合,使得它们的相关性最大

    U1=aTX

    V1=bTY

    • 约束条件是**Var(U1)=Var(V1)=1**
    • 目标是使得**U1V1的相关系数最大**

    有时候不止提取一对线性组合:

    确定需要提取多少组典型变量(Ui 和 Vi):

    累积贡献率

    • 计算典型相关系数的平方(特征值的平方) ,并查看它们的累积贡献率。巨大的典型相关系数贡献会指示这些对的相关性和解释力。一般来说,可以选择能够累积解释大部分变异(通常是 85%-90% 以上)的典型变量对

      image-20240828135826-sxmuq3y

    提取出来的每一对满足不相关

    Cov(Ui,Uj)=Cov(Vi,Vj)=0
  3. 计算结果(求解特征值问题)(原理后面讲)

  4. 计算典型相关系数

    从特征值中提取典型相关系数,这些系数反映了每对线性组合之间的相关强度。

  5. 假设检验

    通过假设检验方法检验典型相关系数的显著性

  6. 解释结果

三、典型变量到底怎么求出来的?

image-20240828133346-psy1igu

image-20240828133404-jmfkxp1

image-20240828133422-929ouyc

image-20240828135119-by8t9fq

可以证明这样求出来的典型变量是满足假设的:

image-20240828133748-l49ihmu

四、假设检验到底检验什么?

  1. 变量的正太分布检验

    image-20240828134053-j9tmlqd

  2. 检验 X 和 Y 是否相关

    image-20240828134431-m5i9oix

    image-20240828134457-hell2ls

  3. 检验每一对典型变量是否显著(有必要)

    image-20240828134646-z4o14maimage-20240828134721-2vwj98k

    我们发现如果 k=0,就是上面我们的第二部检验(检验 X 和 Y 是否相关)

    因为前面以及做过了,所以我们知道这个假设是肯定要被推翻的(也就是第一对线性组合是显著的)

    image-20240828135007-x1b9981

    就这样一个个检验

    如果我们定了就两对典型变量,那么就需要继续检验第二对

五、到底怎么解释结果?

  1. 对典型变量和典型相关系数进行直接的分析

image-20240828135928-2x2k75d

image-20240828135944-3hjxdui

具体如何解释还是得看优秀论文中的使用

  1. 有一种叫做典型载荷分析的东西

    典型载荷分析是初始变量和典型变量之间的相关性分析

    image-20240828141010-x99xmtg

    如图横轴是 X 的三个典型变量,纵轴是 X 的原始变量

    求一下这样一个相关系数,然后进行具体的文字说明

  2. 还有个叫典型冗余分析的东西

    我觉得这个东西看不懂莫名其妙

    就不用了,也不讲了

六、最后总结下步骤流程

  1. 定义变量 X 和 Y, 标准化检验****X 和 Y 服从正态分布
  2. 构建典型相关假设模型
  3. 得出结果(典型变量、典型相关系数)
  4. 假设检验(三大检验)
  5. 解释结果(两大分析)

  • 算法
    428 引用 • 254 回帖 • 24 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...