英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料
多元t分布下分层混合模型的贝叶斯分析
摘要
本文提出了一种完全的贝叶斯方法,使用具有AR(p)独立的t线性混合模型,对不完整纵向数据进行建模。马尔可夫链蒙特卡罗(MCMC)技术用于计算参数的后验分布。为了便于计算,我们将两种类型的辅助指示矩阵加入到模型中。同时,由自回归参数的平稳性条件引起的对参数空间的约束,将由重新参数化方法来处理。我们还研究了未来向量的贝叶斯预测推论,同时也通过多发性硬化临床试验的实际例子说明了该方法的可应用性。
关键字:自回归过程 贝叶斯预测 马尔可夫链蒙特卡洛 缺失值 随机效应 t线性混合模型
引言
用于纵向数据分析和连续结果的最流行的分析工具是线性混合模型由Laird和Ware(1982)提出,该模型假设随机效应和主体内误差为数学上的方便而呈正态分布。但是,这种正常假设容易受到非典型观测的影响,这可能严重影响固定效应和方差分量的估计。要克服这个障碍,许多作者(例如,Zellner,1976; Langeetal等人,1989)考虑线性回归模型的重尾t误差,而不是使用传统的正常误差,多元t分布下的线性混合模型,之后被称作t线性混合的模型,被Pinheiro等人考虑研究(2001)。他们提出了几种比较的高效EM算法,用于计算最大似然(ML)估计,并通过一个真实的例子和一些模拟来说明模型的稳健性。
主要是由于近期技术的进步,基于贝叶斯抽样的方法已被公认为数据分析师提供了另一种建模策略,采用这种方法最实用的优点是能够考虑所有参数的不确定性,虽然直接从后验分布模拟通常很困难,许多作者提倡使用马尔可夫链蒙特卡罗(MCMC)方法来处理棘手的后验整合。例如,Gibbs采样器(GemanandGeman,1984)和Metropolis-Hastings(M-H)算法(Hastings,1970)广泛应用于许多研究领域,对于正常的线性混合模型,Gelfand等人(1990)提出了用于贝叶斯计算的Gibbs采样器,Zeger和Karim(1991)将该方法扩展到广义线性混合模型,Chib和Carlin(1999)考虑了几种用于分层纵向模型的MCMC抽样方案。最近,Schafer和Yucel(2002)提出了一些基于似然和贝叶斯计算方法的多元缺失纵向数据。在本文中,当重复观测是序列相关的数据并且一些数据丢失时,我们将对t线性混合模型提出一种完全基于贝叶斯采样的方法。该模型涉及自然的正态伽玛分层,这在概念上是灵活的,并且很容易为贝叶斯实践者实现。正如ChiandReinsel(1989)和Keramidas 和 Lee(1995)所解释的那样,适当的依赖结构在模型拟合和预测能力中起着重要作用。在纵向研究中,随着时间的推移收集每个受试者的重复观测值,因此倾向于序列相关。因此,我们考虑静态自回归(AR)时间序列结构来解释受试者内误差的序列相关性。值得注意的是,纯AR模型可以扩展到更丰富的ARMA家族,参见Rochon(1992),Lin和Lee(2003)以及Lee等人的文章(2005)。 然而,由于纵向数据通常是短时间序列,因此该方法适合高阶AR模型而不是ARMA模型是合适且相对简单的。
本文的其余部分安排如下:第2节描述了模型和所选择的先验。在第3节中,我们提出贝叶斯估计和后验预测推论。第4节说明了我们的方法在一组多发性硬化(MS)数据中的应用。最后,第5节报告了一些结论性意见。
- t线性混合模型和先验分布
2.1模型
假设在纵向数据研究中有N个对象,并且在第次重复实验第i个对象,t线性混合模型的基本公式可表示为:
|
(1) |
其中是一个的向量,具有固定的相应决策矩阵,是一个的向量,并且具有随机效应的相应的决策矩阵,并且是假定为伽马分布均值为1方差为的未知权重,和是的相互独立的服从正态分布的随机变量,此外,是非结构化正定矩阵,而是用于受试者内误差的结构化AR(p)依赖矩阵,特别地,
|
其中和是自回归参数的隐函数,并满足Yule-Walker方程(Box 等人(1994)),即
此外,的根必须位于单位圆外,以确保模型的平稳性。 对于纯AR模型,被限制在p维超立方体中。
模型(1)分层公式化如下:
|
(2) |
结合从(2)得到的的联合分布对和做积分, 我们得到
|
其中,设表示具有位置矢量的n维多元t分布,散度矩阵为,自由度为,由此得出服从的分布为.
我们关注一些观测结果缺失的情况。让被分成两个分量,其中和分别表示的观察和缺失分量。为了便于计算,引入两个辅助二进制指示矩阵,由和表示,对应于,分别使得和.注意到,和是和矩阵,它们分别从维单位矩阵的行位置中的和提取,而且,很容易看出,
|
且.
利用的边际分布的分布特性和给定的的条件分布很重要,将的联合密度对求积分,得到的边际分布,即,其中和,此外,我们有,其中
|
我们将集中讨论从模型(2)估计参数的一般方法。有关详细信息,请参阅Little和Rubin(2002)。为了便于估算,达到需要的条件,我们对进行重新参数化,如Barndorff-Nielsen和Schou(1973):
|
其中,,注意到,(3)是一对一的变换,它根据部分自相关,对进行重新参数化。我们将看做重新参数化参数,所有随机生成都在中完成,然后在最后返回到.
2.2 先验分布
要得到模型(2)的贝叶斯公式,必须指定一个先验分布,假设是先验独立的,即
|
在缺乏良好的先验信息的情况下,为了避免不合适的后验分布,我们使用适当的扩散先验。 先前分布如下:
|
其中表示反伽马分布,表示逆Wishart分布,表示均匀分布,注意到关于的先验 Liu和Rubin(1998)也在模糊的基础上考虑了这个问题。超参数的值,可以基于强大的先验知识或被选择来反映扩散的先验信息,超参数和应该保持固定并且尽可能小,同时,我们将令和,其中表示普通正态线性混合模型的ML估计,其中缺失值由两个相邻值的平均值估算。通常,我们将选择和,这将是平坦分布,并使和,其中表示先验分布的期望。
- 贝叶斯估计和预测推论
令
,将模型(2)的完整数据似然函数与先验分布(4)相结合,我们有以下联合后验密度:
|
(5) |
其中是将转换为的雅可比行列式,有关完整条件形式和MCMC采样实施的详细信息,请参见附录。
我们考虑的预测,即维向量的未来观测。 令和为对应于的预测回归量的和决策矩阵,我们有
|
其中
令,我们进一步定义了四个额外的辅助二进制指示矩阵,且,使用类似于第2节中指出的参数,我们有,其中.
的后验预测分布是
|
在式(6)中,我们有,其中
|
(7) |
设在达到收敛时,在MCMC采样方法的第g次迭代时生成样本,我们可以使用Rao-Blackwellization(Gelfand和Smith,1990)获得的近似预测分布,是
|
对于之后的值,它可以通过式(8)直接预测,其中是(7)中的,其中由代替.
|
(8) |
- 实例
我们将前面部分的方法应用于52例复发缓解型MS(RRMS)患者的临床试验中的MS数据研究中,1988年6月至1990年5月在不列颠哥伦比亚大学网站进行的队列研究是干扰素beta;-1b(INFB)的安慰剂对照试验,该试验已获得美国批准,食物及药物管制局于一九九三年年中为早期RRMS患者提供服务。所有52名患者被随机分为三个治疗组 - 安慰剂(PL)组,低剂量(LD)组和高剂量(HD)组,LD和HD处理分别对应于每隔一天1.6和8百万国际单位(MIU)IFNB的剂量。Dyachkova等人1997年使用MS数据来说明广义估计方程(GEE)方法的应用。Gill(2000)基于混合线性建模和Huber的函数分别分析了三个治疗组。 Lin和Lee(2006)提出了一种使用t分布的替代稳健方法,并提供了用于检测AR(1)序列相关性的分数检验统计量。该研究中的响应变量是患者的“疾病负担”,其通过颅脑磁共振成像(MRI)扫描的所有切片上的MS病变的总面积来测量(每)。第i个患者在时间点j的疾病负担由Area(i,j)表示,其中j = 0作为基线时间点。由于未转换的负载测量的强偏度,我们使用由LRB(i,j)= log(Area(i,j)/Area(i,j))定义的对数相对负载(LRB)作为响应变量.
在这项研究中,三名患者未被纳入分析,因为他们中的两名(LD和HD组各一组)很早就退出,而LD组中有一名在MRI扫描中有3次测量为零,注意到,在两年期间,每六周大约一次重复测量每位患者一次,因此每位患者的最大就诊次数为17次。在这个数据集中,除了5名患者外,其他所有患者都有一套完整的17次扫描:一个完成14次就诊后从PL中退出,两个在完成13次访问后从LD中退出,两个完成12次访问后从HD中退出。假设这些早期退出是“可忽略的”(Rubin,1976),我们的分析仅限于其余49名患者的LRB测量。PL患者17例,LD和HD患者16例,在这49名患者中,6名患者缺失了一次或两次孤立的MRI扫描,我们不是像Gill(2000)那样通过两个相邻值的平均值来估算这些缺失值,而是使用(A.1)通过MCMC方法简单地模拟这些缺失值。
|
图1.来自三个治疗组的LRB的纵向趋势和LRB与时间的平均值 |
我们对这49名患者进行编码,编号为1至49,对于PL,身份编号为1至17,LD为18至33,HD为34至49。图1描绘了每个患者的LRB测量的时间演变和每组的平均LRB,表明对于PL和LD组显然存在一些异常观察。
我们通过拟合单个线性混合模型对所有三个治疗组进行分析,其中方差分量和自由度在所有治疗组中是共同的。此外,我们假设固定的线性增长函数,以及特定的随机截距和斜率以及对于p = 0,1,2,3的的AR(p)结构。注意到,p = 0表示受试者内残差遵循白噪声过程,拟合层次模型可以写成
|
(9) |
其中
|
其中是的单位向量,并且,在这个模型中,是所有受试者共同的固定拦截效应,并且分别是PL,LD和HD组的治疗特定斜率。此外,随机效应具有尺度协方差矩阵,而是的隐含函数,当然,如果p = 0,则.
我们运行了10条独立的平行链,每条链的初始值不同,从前一个随机抽取的点开始。 对于每个链,我们实施了10,000次迭代,我们通过使用多链检查Brooks和Gelman(1998)的多变量潜在尺度缩减因子(MPSRF)来监测收敛。对于所有拟合模型,后验分布的收敛很快并且混合良好。收敛发生在2000次迭代之后。 将前2000个迭代作为每个链的“老化”丢弃,然后我们为每20次迭代存储一个估算参数值以减少自相关,我们从目标中获得最终的4000个实现后验分布。
表1
具有四个选定依赖结构的t线性混合模型的MCMC样本的后验结果总结
先验估计 |
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[18953],资料为PDF文档或Word文档,PDF文档可免费转换为Word |
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。