附录B 外文参考文献(原文)
Principal component analysis and factor analysis and SPSS software in detail the similarities and differences
Abstract: The principal component analysis and factor analysis (R-type) is widely used, but some papers and some textbooks SPSS software (see text) error. This paper points out these errors and their causes, and points out the harm caused by errors, in principle gives the principal component analysis and R-type factor analysis of the detailed mathematical model of similarities and differences between the methods are given to avoid making mistakes, and the SPSS software and made recommendations about textbooks.
Keywords: Principal component analysis; factor analysis; SPSS software; error; avoid
Let = (X1, ..., XP for the standardized random vector (p ge; 2), R is the correlation coefficient matrix, = (F1, ..., Fm main component vector, = (Z1, ..., Zm for the factor vector, m le; p , for the convenience factor, factor estimates, factor score with the same mark.
First, the issues raised and conclusions
Principal component analysis and R-type factor analysis is a multivariate statistical analysis in two important ways, the same dimension reduction, wide range of applications, but by popular SPSS software very wide process of the two methods is called the command, the user prone to error, what is causing these mistakes? Principal component analysis and factor analysis in the end R-similarities and differences between it? What harm would it go wrong?
The SPSS software in the economy, medicine and management in areas such as widespread use, particularly necessary to solve these problems.
After a number of papers and textbooks, some of SPSS software (see enclosure) due diligence analysis, comparison, the study draws:
Error reason: Some users and the author of the main component analysis and R-type factor analysis theory, similarities and differences and not through the steps towards solving the current SPSS software and the book does not improve the study of these two methods (for university teachers a great error of Health).
Conclusion: The principal component analysis and R-type factor analysis has 10 main difference, resulting in the principal component analysis and factor analysis of the quantitative evaluation system for different values of mixing different alternative quantitative error evaluation must be conducted separately.
Errors harm: economic efficiency of enterprises, competitiveness will bring a comprehensive evaluation of error assessment, medical diagnosis will bring misdiagnosis, wrong decision will bring down and so on.
Second, some users and its causes errors
After due diligence analysis, the following error:
① using principal component analysis theory of principal component analysis are not available, such as principal components analysis described the concept of error. ② solve the wrong principal component F, as = (the unit matrix, the significance of Table 1). ③ I do not know the name based on principal component F, of the principal components F named wrong. ④ Xk be a loss of explanatory variables. ⑤ carried out on the wrong rotation. ⑥ regression wrongly seeking F. ⑦ the factor analysis (with no rotation) error to as principal component analysis.
① using factor analysis on the principle of factor analysis are not available, such as factor analysis of the idea described in the main component analysis of the idea. ② I do not know the name factor Zi based on the factor Zis name wrong, as with a factor score function to name the factor Zi. ③ Xk be a loss of explanatory variables. ④ the principal component or factor that is wrong (meaning see Table 1). ⑤ I do not know the correlation coefficient matrix eigenvalue and factor the difference between contributions to vi, such as integrated function of factor score in Z = Zi vi Fully incorrectly taken as the characteristic value. ① using SPSS software, SPSS software itself, because no principal component analysis module, some users will use some of the modules of factor analysis to make the results of principal components, there has been confusion in the quantitative process. ② the SPSS software, the contents of the textbooks at the confusion factor analysis principal component analysis and factor analysis, resulting in some users confuse the two methods are wrong.
Can be seen from the above cause of the error is: Some users on the principal component analysis and R-type factor analysis of principle (principle see [4]), similarities and differences with the problem-solving steps to master not through SPSS software and the book does not present Both methods of improving.
Third, the principal component analysis and R-type factor analysis model comparing the similarities and differences
Here are the principal component analysis and R-type factor analysis of the similarities and differences compared with the current view is the comparison on the content and process, more thorough, more accurate, is to recognize the depth.
In common: principal component analysis and R-type factor analysis is the approximation of the covariance matrix, are intended to explain the reduced dimension data set. As an indicator of the positive of the specific [3], the standardization of indicators (SPSS software automatically), to determine the correlation matrix through the correlation between variables, find the correlation matrix eigenvalues and eigenvectors, principal components, the factor between the lines sex has nothing to do with the cumulative contribution rate (%), the variable does not appear to determine the main components is missing, the number of factors m, before the previous principal components m m a comprehensive contribution to the X Factor on the same, is maximized, are named according to principal comp
剩余内容已隐藏,支付完成后下载完整资料
附录A 外文参考文献(译文)
主成分分析与因子分析详细的异同和SPSS软件
摘要:主成分分析与因子分析(R-型)应用十分广泛,但一些论文和一些SPSS软件教科书(见附文)出错。本文指出了这些错误及其成因,指出了出错造成的危害,从原理上给出了主成分分析与R-型因子分析数学模型详细的异同,给出了避免出错的方法, 并对SPSS软件及有关教科书提出了一些建议。
关键词:主成分分析;因子分析;SPSS软件;出错;避免
设X=(X1 ,hellip;,XP为标准化随机向量(pge;2),R为相关系数矩阵, =(F1 ,hellip;,Fm 为主成分向量,=(Z1 ,hellip;,Zm 为因子向量,mle;p,为方便,因子、因子估计、因子得分用同一记号。
一、问题的提出与结论
主成分分析与R-型因子分析是多元统计分析中的两个重要方法,同是降维技术,应用范围十分广泛,但通过流行甚广的SPSS软件调用这两种方法的过程命令,使用者容易出错,是什么原因造成这些错误呢?主成分分析与R-型因子分析到底有何异同呢?出错会造成什么危害呢?
由于SPSS软件在经济、医学、管理等领域中的广泛流行使用,解决这些问题尤其必要。
经过对一些论文和一些SPSS软件教科书(见附文)仔细查证分析、比较、研究得出:
出错原因:有些使用者和书作者对主成分分析与R-型因子分析的原理、异同与解题步骤掌握不透,现行SPSS软件及其书中没有完善这两种方法的研究(对高校师生出错影响很大)。
结论:主成分分析与R-型因子分析有10处主要的不同,致使主成分分析与因子分析的定量综合评价体系不同,混淆在一起是不同定量值交替错误,综合评价必须分开进行。
出错带来的危害:企业经济效益、竞争力等的综合评价会带来误评,医学诊断会带来误诊,决策会带来误断等。
二、一些使用者出现的错误及其成因分析
经过仔细查证分析,有下列错误:
使用主成分分析时①对主成分分析的原理没有掌握, 如叙述主成分分析概念出错。②主成分F求解出错,如=中(为单位矩阵,的意义见表1)。③不知主成分F的命名依据,对主成分F命名出错。④解释变量某Xk 被丢失。⑤对错误地进行旋转。⑥错误地进行回归求F。⑦把因子分析法(含没有旋转过程的)错误地当作主成分分析法。
使用因子分析时①对因子分析的原理没有掌握, 如将因子分析的思想叙述为主成分分析的思想。②不知因子Zi的命名依据,对因子Zi 的命名出错,如用因子得分函数对因子Zi进行命名。③解释变量某Xk 被丢失。④将主成分或因子错误地表示为(的意义见表1)。⑤不知相关系数矩阵特征值与因子贡献vi的区别,如综合因子得分函数Z综 =Zi中的vi错误地取为特征值。使用SPSS软件时①由于SPSS软件本身无主成分分析模块,有些使用者就用因子分析中一些模块来制造主成分的结果,出现了混乱的定量过程。②由于SPSS软件教科书中因子分析内容处混淆主成分分析与因子分析,致使有些使用者也混淆这两种方法出错。
从以上可看出出错的原因是:有些使用者对主成分分析与R-型因子分析的原理(原理可见[4])、异同与解题步骤掌握不透,现行SPSS软件及其书中没有完善这两种方法的研究。
三、主成分分析与R-型因子分析数学模型的异同比较
这里给出的主成分分析与R-型因子分析的异同,与现行观点相比,是内容与过程上的比较,更透彻、更准确,是认识的深入。
相同之处:主成分分析与R-型因子分析都是对协差阵的逼近,都是打算降维解释数据集。具体为指标的正向化[3], 指标的标准化(SPSS软件自动执行),通过相关系数矩阵判断变量间的相关性,求相关系数矩阵的特征值和特征向量, 主成分间、因子间线性无关,用累计贡献率(%)、变量不出现丢失确定主成分、因子个数m, 前m个主成分与前m个因子对X的综合贡献相同、是最大化的,命名依据都是主成分、因子与变量的相关系数。
不同之处:方差, 最大化方向, 所处的坐标系(标准正交性), 应用上侧重等见表1。
表1 主成分分析与R-型因子分析的不同
区别项目 |
主成分分析数学模型: |
R-型因子分析数学模型: |
表达式与系数矩阵 |
=()=(hellip;,),,是相应的特征值和单位特征向量,ge;hellip;ge;ge; 0。 |
(为特殊因子), 因子载荷矩阵m = ()=, =( hellip;,) 为初等因子载荷矩阵*(同左)。 |
因变量方差最大化 |
Fi依次达到信息贡献最大化, Var Fi=。 |
Zi没有达到最大化,Var Zi=1。 |
矩阵方差最大化旋转 |
无, 旋转后就不是主成分了,因为 Var Fi ne;lambda;i 。 |
有,为方差最大正交旋转矩阵,m达到方差最大化。 |
标准正交性 |
是,即(判据之一)。 |
非,因为。 |
因变量对X 的贡献 |
特征值。 |
vi=,vi,通常gt; v1 。 |
相关系数 |
=。 |
=。 |
命名依据 |
用(,hellip;,)式中系数绝对值大的对应变量对Fj命名,有时命名清晰性低。 |
将的第j列绝对值大的对应变量归为Zj一类并由此对Zj命名,命名清晰性高(精细)。 |
回归过程 |
无。 |
有,因子得分函数 |
综合评价函数及方差 |
F综 = Fi , Var F综 = (,或 hellip; , 通常VarF综 gt; VarZ综, 即F综 的取值范围通常比Z综 大。 |
Z综 =Zi, vi(判据之一) Var Z综 = ((旋转后因子贡献从变为vi,因此权数应取为vi/), 或v1 v2 hellip; vm 。 |
应用上侧重 |
信息贡献影响力综合评价。 |
成因清晰性的综合评价。 |
注意:主成分分析有时命名清晰, 此时既能达到信息贡献影响力综合评价效果, 又能达到成因清晰性的综合评价效果,此时主成分分析的结果多数优于因子分析的结果。
以上说明:主成分分析与因子分析定量上不同的显著性标志是方差。事实上,VarFi gt;(lt;) VarZi =1,即Fi 的取值范围比Zi 的取值范围大(小);通常VarF综 gt; VarZ综 ,即F综 的取值范围比Z综 的取值范围大(见表5、8),这些都肯定了主成分分析与因子分析的定量值评价体系不同。
结论:主成分分析与因子分析两种方法方差、最大化方向不同,直接导致主成分值、因子得分值、综合评价值和应用侧重上不同,综合评价应该分开进行, 混淆在一起是不同定量值交替错误。
出错带来的危害:如在企业的综合评价中,某行业通过样本搜集,可确定出主成分分析、因子分析各自优、良、中、一般的定量值范围,两种方法确定的定量值范围肯定不同,如果混用二种方法,那么就会带来二种方法定量值的误用, 甚至误评,使企业失去公平竞争机会。在医学诊断、经济竞争力等综合评价问题中也是如此。
检验: 用实际结果、经验和原始数据做聚类分析对综合评价值进行检验。
争议解决:用原始数据做判别分析解决综合评价中的争议。
四、避免出错的方法步骤
1.主成分分析法和SPSS软件应用时一对一的正确步骤:
①指标的正向化[2]。
②指标数据标准化(SPSS软件自动执行)。
③指标之间的相关性判定: 用SPSS软件中表“Correlation Matrix(相关系数矩阵)”判定。
④确定主成分个数m:用SPSS软件中表“Total Variance Explained(总方差解释)” 的主成分方差累计贡献率%、结合表“Component Matrix(初始因子载荷阵)”中变量不出现丢失确定主成分个数m。
⑤主成分Fi表达式(这是SPSS软件及其教科书中没完善的地方):将SPSS软件中表“Component Matrix”中的第i列向量除以第i个特征根的开根后就得到第i个主成分函数Fi的系数(在“transform --gt;compute”中进行计算),由此写出主成分Fi表达式。用的=检验之。
⑥主成分Fi命名:用SPSS软件中表“Component Matrix”中的第i列中系数绝对值大的对应变量对Fi命名(有时命名清晰性低)。
⑦主成分与综合主成分(评价)值(这是SPSS软件及其教科书中没完善的地方):综合主成分(评价)公式 F综 = Fi (在“transform --gt;compute”中进行计算[3]), 在SPSS软件中表“Total Variance Explained”下“Initial Eigrnvalues(主成分方差)”栏的
“% of Variance(方差率)”中。Var F综 = =(。
⑧检验:综合主成分(评价)值用实际结果、经验与原始数据做聚类分析进行检验(对有争议的结果,可用原始数据做判别分析解决争议)。
⑨综合实证分析。
2. 因子分析法和SPSS软件应用时一对一的正确步骤:
①∽③步骤同主成分分析步骤。
④确定因子个数m:用SPSS软件中表“Total Variance Explained”特征值累计贡献率%、结合表“Rotated Component Matrix(旋转后因子载荷阵)”中变量不出现丢失确定因子个数m。
⑤求因子载荷矩阵: SPSS软件中表“Rotated Component Matrix”。
⑥因子Zi的命名:将SPSS软件中表“Rotated Component Matrix”因子载荷矩阵的第i列绝对值大的对应变量归为Zi一类, 并由此对Zi命名(命名清晰性高)。
⑦回归求因子得分函数Zi表达式:SPSS软件中表“Component Score Coefficient Matrix(因子得分系数矩阵)”的第i列向量为第i个因子得分函数Zi的系数,由此写出因子得分函数Zi表达式。
⑧求因子得分值与综合因子得分(评价)值:综合因子得分(评价)公式Z综=Zi (在“transform --gt;compute”中进行计算),在SPSS软件中表“Total Variance Explained”下“Rotation Sums of Squared Loadings(旋转后因子对X的方差)”栏的“% of Variance”中。用vi=检验, 通常gt; v1 ,Var Z综 = (。
⑨检验:综合评价值用实际结果、经验与原始数据做聚类分析
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[479694],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。