英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料
毕 业 设 计(论文)
外 文 文 献 翻 译
文献、资料中文题目:缺少数据下的变量选择
文献、资料英文题目:variable selection in the
目 录
1. 介绍 1
2. 准备工作 1
2.1利益问题 1
2.2缺少数据机制 1
2.3归责 2
2.4基于RR的变量选择 2
2.5每个输入数据集上的变量选择 2
2.6叠加插补变量选择 3
2.7输入数据集的变量选择 3
3. 论述 4
4. 致谢 5
参考文献 5
缺失数据下的变量选择:基于插补的方法
Yize Zhao1 and Qi Long2*
摘要:变量选择在回归分析中起着至关重要的作用,因为它确定了与结果相关的重要变量,并且已知这些变量可以提高结果模型的预测准确性。变量选择方法已被广泛研究,以充分观察数据。然而,在丢失数据的前提下,需要仔细设计变量选择方法,以说明丢失的数据机制和用于处理丢失数据的统计技术。由于插补可以说是处理缺失数据最流行的方法,因为它的易用性,与插补相结合的变量选择的统计方法尤其有趣。这些方法在随机丢失和完全随机丢失的假设下有效和使用,主要分为三类。第一种策略将现有的变量选择方法应用于每个输入数据集,然后在所有输入数据集中组合变量选择结果。第二种策略将现有的变量选择方法应用于堆叠的输入数据集。第三个变量选择策略结合了诸如插补引导等重采样技术。尽管最近取得了进展,但该地区仍然欠发达,为进一步研究提供了肥沃的土地。copy;2017威利期刊公司
关键词:3月,资料,mnar,imputation,自助,变量的选择、数据的小姐了,resampling
- 介绍
ISSING数据在许多研究中都很常见,并使数据分析复杂化。它是众所周知,简单的方法,如果只使用完全观察到数据的案例的完整案例分析,往往会导致偏见或不太精确的结果。这里有有大量关于处理缺失数据的统计方法的文献。尤其是,缺失的数据对回归分析中的变量选择提出了新的挑战。变量选择在回归分析中起着至关重要的作用,因为它识别了与结果相关的重要变量,并被证明能够提高结果模型的预测准确性。变量选择方法被广泛应用于完全观测数据,包括经典模型选择技术、惩罚技术和贝叶斯变量选择技术。然而,在数据缺失的情况下,变量选择方法需要仔细设计,以解决数据缺失的问题。用于处理丢失数据的ISMS和统计技术。具体来说,有三种常见的缺失数据机制,完全随机丢失(mcar)、随机丢失(mar)和非随机丢失(mnar)。一种仅使用完整案例进行变量选择的幼稚方法被证明会导致虚假结果。绝大多数现有的在有缺失数据的情况下进行可变选择的方法都是在mar假设下开发出来的,大致上,可以根据处理缺失数据的统计技术分为三组。
第一组试图将可变选择技术与逆概率加权(IPW)相结合,以处理缺失数据或其扩展,包括增强的IPW,例如Johnson和Johnson等人的惩罚ESI-匹配函数方法和Wolfson的eeBoost方法。第二组试图将变量选择技术与基于可能性的方法结合起来处理缺失数据(见参考文献1第8节)。属于这一组的方法通常将变量选择技术(如lasso)和平滑剪裁绝对偏差(scad)惩罚7纳入期望最大化算法中,以最大化被惩罚的观测数据的可能性。
第三组试图将变量选择技术与插补方法结合起来处理缺失数据(见参考文献1第4节和第5节)。插补可以说是处理缺失数据最广泛使用的方法,因为插补很容易使用,因为插补可以很容易地使用现有软件包进行。插补的一个特别有吸引力的特征是插补缺失值与随后对插补数据集的分析是分开的。因此,将现有的变量选择方法应用于每个输入的数据集是很简单的。尽管插补法和变量选择法相结合提供了一个有前途的方向,但文献中仍有许多挑战。一个特别的挑战是如何将多个输入数据集的变量选择结果以一种原则性的方式组合起来,以获得最终的变量选择结果。
本文的其余部分重点是回顾现有的变量选择方法,这些方法与处理缺失数据的插补方法相结合。这些方法在马尔可夫和马尔可夫假设下是有效的,主要分为三种一般策略。第一种策略将现有的变量选择方法应用于每个输入数据集,然后在所有输入数据集中组合变量选择结果。第二种策略将现有的变量选择方法应用于堆叠的输入数据集。第三个变量选择策略结合了重新采样技术,如引导带和插补。
- 准备工作
2.1利益问题
为了验证这一观点,在不丧失普遍性的情况下,我们考虑了一个线性回归模型,其中有n个观测值和p个预测值。y=beta;0 xbeta; ε;其中y=(y1,y2,hellip;,y n)t是感兴趣的结果,x=(x1,x2,hellip;,x p)(ntimes;p)是n乘p设计矩阵,其中p允许大于n,beta;=(beta;1,hellip;,beta;p)t是回归系数集,ε是白噪声。用z=(y,x)表示完整的数据,用Delta;表示缺失的数据指标矩阵,这样,Delta;的(i,j)th元素delta;i j表示z的(i,j)th元素是否缺失。我们进一步用zobs表示z的观测分量,用zmis表示z的缺失分量。(感兴趣的问题是在z中存在缺失数据的情况下,对等式(1)进行变量选择,其中p可能小于或大于n。)
2.2缺少数据机制
丢失的数据机制可以通过概率p(Delta;_z,xi;)来定义,其中xi;是一组未知参数。Mcar被定义为数据的偏差独立于所有数据,即p(Delta;_z,xi;)=p(Delta;_xi;)。定义mar是因为数据的偏差仅取决于观测数据,即p(Delta;_z,xi;)=p(Delta;zobs,xi;)。mnar被定义为数据的丢失可能取决于观测到的和丢失的z.虽然完整案例和可用案例分析等幼稚方法在MCAR下是合适的,但在实践中MCAR可能是不现实的。在实践中,mar比mcar更为现实,在mar下有大量关于处理缺失数据的文献。虽然mnar最为现实,但处理起来比其他两种机制更具挑战性。敏感性分析通常在mnar下使用。有关缺失数据机制的更详细信息,请参阅参考文献1。
2.3归责
大多数现有的插补方法都需要假设mcar或mar。多点插补的关键思想是用一组“可信”值替换每一个缺失值,使用其(后验)预测分布(以观测数据为条件)。它通常需要一个连续的两步程序,首先生成theta;的随机绘制,theta;是与z分布相关的未知参数,来自其后验分布P(theta;zobs),然后通过条件预测分布的随机抽取来输入zmis。通过以下方式表示LTH输入数据集:z_l_=0.zobs,z_l_sum;,其中l=1,hellip;,l,其中z_l_在l个输入数据集之间,直接应用rr可能不适合组合变量选择结果,并且已经提出了许多解决这一挑战的方法。表示缺失复合物的输入值-nent Zmis。每个插补数据集都可以单独分析,最后的分析结果可以通过使用Rubin规则(RR)的插补数据集进行组合,该规则正确地解释了插补的不确定性。值得注意的是,除了通过概率模型进行插补外,还有其他的插补技术,包括均值和模式、k-最近邻、热甲板和自联想神经网络技术等,本文所讨论的方法不限于任何特定的插补技术。
2.4基于RR的变量选择
在缺少数据的情况下进行变量选择的一个简单方法是重复使用RR。正如Wood等人23所讨论的,在获得多个输入数据集后,可以使用RR将每个输入数据集的估计值组合起来。
用theta;^k,k=1,hellip;,l表示为一个整体估计值,并用估计方差var_etheta;_23表示。
= 1 XLV L+1 XL_theta;minus;etheta;_theta;^minus;etheta;_,然后基于Wald检验的经典逐步模型选择,使用经典变量选择方法,例如向前、向后或逐步选择方法基于使用theta;和vartheta;构建的wald测试。然而,除了密集的计算外,基于RR的经典变量选择方法的使用还存在其他众所周知的局限性,包括在处理共线性、错误指定的F分布和过度配置方面存在差异。此外,这种方法不适用于p接近或大于n的高维数据。
2.5每个输入数据集上的变量选择
将多重插补(mi)与变量选择方法相结合的最简单方法是在每个插补数据集z(l)上实现变量选择,就好像它是在完整的数据上执行的一样,从而产生一组由s(l)1,hellip;,p(l=1,hellip;,l)表示的选定变量。这些变量的选择可以使用基于Wald检验的正向、反向或逐步选择方法、Likeli-Hood比检验、Akaike或Bayesian信息准则、正则化方法(如Lasso和弹性网)或Bayesian变量选择方法。然而,所选变量集s(l)可能在l输入的数据集中有所不同,因此直接应用rr可能不适合组合变量选择结果,并且已经提出了许多解决这一挑战的方法。
伍德调查了用多次输入进行变量选择数据。一个简单的方法是随机选择的输入变量选择
数据集,比如mi后面的第一个。虽然这结果表明,该方法能够实现更高的效率与直接在完全情况下进行变量选择相比,它不考虑插补,可能导致参数偏差大估计。在伍德提出的更的战略等。是对每个输入进行模型选择单独数据集并定义所选的最终集变量s=j,特大号L=1I J 2 S_L=Lge;pi;nO,pi;在这里用于选择预测器的阈值,可以设置为比如说,0.5。换句话说,s包含的变量在输入数据集的pi;l中选择。鉴于激活集S,执行标准MI程序最后一个结果加上回归的RR模型只包含S中的变量。这种方法结果表明,在变量选择和系数估计,但变量选择结果可能对阈值敏感值pi;。此外,Wood等人仅调查基于Wald检验的经典逐步模型选择,(同时也受到基于RR的变量选择的探讨。)他们的策略不适用于高维有nlt;p.相似策略的数据也用于在缺少数据的情况下分析纵向数据,其中广义估计用于纵向数据分析的方程(GEE)是使用沈和陈通过扩展下的拟似然性来关注模型选择准则。独立模型准则(QIC)和缺少纵向信息标准(MLIC)当一个特定的模型应用于L MI数据集。具体来说,他们建议使用所有输入数据集进行变量选择。与Wood等人评估的策略类似,Lachenbruch研究了一种方法,该方法使用最小角度回归(lars)和lasso在每个输入数据集中进行变量选择,然后使用预先设定的阈值pi;组合变量选择结果。然而,Lachen-Bruch在Wood等人的战略中评估了这种方法,仅在数据应用中,而在模拟中没有。
另一种策略是将多个贝叶斯框架中的插补和变量选择。贝叶斯变量选择方法自动允许变量量化选择的不确定性,这是一个吸引人的特点。此外,由于多重插补是固有的Bayesian,在Bayesian框架中组合mi和变量选择似乎很自然,尽管在这方面的工作相当有限。提出了线性下插补和贝叶斯变量选择的两种方法缺少协变量的回归模型。第一这种方法被称为“输入,然后选择”(ITS)。具体来说,对于每个输入数据集z(l),贝叶斯随机搜索变量选择(SSV)是使用潜在选择指标gamma;执行l LJ.xj,j=1,hellip;,p其中gamma;l L如果选择变量xj,j=1gamma;l Lj=0否则。利用马尔可夫链蒙特卡罗算法,可以得到gamma;的后验概率。l Lj=1,用p_l表示J最后一个变量选择由定义为pj的l mi数据集中gamma;的平均边缘后验概率决定。=特大号L=1P·LJ=L超过一定值阈值pi;这种方法允许量化模型选择的不确定
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[20870],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。