PCA主成分分析

kevin 2023-08-26

主成分分析是一种降维算法,它能将多个指标转换为少数几个主成分,这些主成分是原始变量的线性组合,且彼此之间互不相关,其能反映出原始数据的大部分信息。一般来说,当研究的问题涉及到多变量且变量之间存在很强的相关性时, 我们可考虑使用主成分分析的方法来对数据进行简化。

截屏2023-08-26 15.11.21

截屏2023-08-26 15.11.54

截屏2023-08-26 15.13.36

截屏2023-08-26 15.15.17

主成分分析的说明

​ 在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平,其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释。

主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义 那么清楚、确切,主成分分析是会损失原始数据的信息的, 这些是变量降维过程中不得不付出的代价。因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。

​ 如果原始变量之间具有较高的相关性,则前面少数几个主成分的累计贡献率通常就能达到一个较高水平,也就是说,此时的累计贡献率通常较易得到满足。 ​ 主成分分析的困难之处主要在于要能够给出主成分的较好解释,所提取的主成分中如有一个主成分解释不了,整个主成分分析也就失败了。

​ 主成分分析是变量降维的一种重要、常用的方法,简单的说,该方 法要应用得成功,一是靠原始变量的合理选取,二是靠“运气”。

​ ——参考教材:《应用多元统计分析》王学民