研究两组变量(每组变量中有多个指标)之间相关关系
揭示出两组变量之间的内在联系
一、典型相关分析到底是什么?
如果我们为了研究两组变量的相关性
是的典型相关分析的研究对象是:两组变量(各含有多个小指标)的相关性
\begin{cases} X = (x_1, x_2, \cdots, x_p) \\ Y = (y_1, y_2, \cdots, y_q) \end{cases}最常规的思路是什么,是不是把 X 的 p 个指标和 Y 的 q 个指标都做一遍相关性系数,这样就是 pq 次,这肯定是非常不好的方法
在我们学习了因子分析模型之后应该意识到,多个指标(或者叫变量)是可以融合为一个综合因子的。所以我们如果希望研究 X 的 p 个指标的线性组合以及 Y 的指标线性组合的相关关系
这样的分析就叫典型相关分析
二、完整的步骤到底是什么?
Ui、Vi就是我们说的典型变量,他们之间的相关系数称为典型相关系数
上面这张图很清楚的说明了典型相关分析的步骤:
-
定义变量 X 和 Y, 标准化并检验****X 和 Y 服从正态分布
确定要分析的两组变量:
\begin{cases}X = (x_1, x_2, \cdots, x_p) \\Y = (y_1, y_2, \cdots, y_q)\end{cases}- 如果量纲不一样,需要标准化去除量纲的影响
- 检验正态分布
-
构建典型相关假设模型
是的,他这里又是在构建假设模型,所以后面一定有假设检验典型相关分析的目标是找到一对线性组合,使得它们的相关性最大。
U1=aTX
V1=bTY
- 约束条件是**Var(U1)=Var(V1)=1**
- 目标是使得**U1和V1的相关系数最大**
有时候不止提取一对线性组合:
确定需要提取多少组典型变量(Ui 和 Vi):
累积贡献率
-
计算典型相关系数的平方(特征值的平方) ,并查看它们的累积贡献率。巨大的典型相关系数贡献会指示这些对的相关性和解释力。一般来说,可以选择能够累积解释大部分变异(通常是 85%-90% 以上)的典型变量对
提取出来的每一对满足不相关
Cov(Ui,Uj)=Cov(Vi,Vj)=0 -
计算结果(求解特征值问题)(原理后面讲)
-
计算典型相关系数
从特征值中提取典型相关系数,这些系数反映了每对线性组合之间的相关强度。
-
假设检验
通过假设检验方法检验典型相关系数的显著性
-
解释结果
三、典型变量到底怎么求出来的?
可以证明这样求出来的典型变量是满足假设的:
四、假设检验到底检验什么?
-
变量的正太分布检验
-
检验 X 和 Y 是否相关
-
检验每一对典型变量是否显著(有必要)
我们发现如果 k=0,就是上面我们的第二部检验(检验 X 和 Y 是否相关)
因为前面以及做过了,所以我们知道这个假设是肯定要被推翻的(也就是第一对线性组合是显著的)
就这样一个个检验
如果我们定了就两对典型变量,那么就需要继续检验第二对
五、到底怎么解释结果?
- 对典型变量和典型相关系数进行直接的分析
具体如何解释还是得看优秀论文中的使用
-
有一种叫做典型载荷分析的东西
典型载荷分析是初始变量和典型变量之间的相关性分析
如图横轴是 X 的三个典型变量,纵轴是 X 的原始变量
求一下这样一个相关系数,然后进行具体的文字说明
-
还有个叫典型冗余分析的东西
我觉得这个东西看不懂莫名其妙
就不用了,也不讲了
六、最后总结下步骤流程
- 定义变量 X 和 Y, 标准化并检验****X 和 Y 服从正态分布
- 构建典型相关假设模型
- 得出结果(典型变量、典型相关系数)
- 假设检验(三大检验)
- 解释结果(两大分析)
欢迎来到这里!
我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。
注册 关于