会议筹备问题数学模型的建立与应用外文翻译资料

 2022-08-22 10:49:02

英语原文共 16 页,剩余内容已隐藏,支付完成后下载完整资料


致谢

首先,我想对我的导师托德·科尔曼教授表示感谢,感谢他对我的学习和研究的持续支持,感谢他的激励性习惯用语、热情、耐心以及在许多跨学科领域的广博知识。我无法想象还有比他更好的研究生导师。

除了我的导师之外,我还要感谢我的大学导师和好朋友索兰纳德瑞,感谢她在过去的六年里给予我的支持,感谢她在通往成年的旅程中给予我的鼓励、耐心、建议和持续的生活指导。

我感谢我的实验室和同事们,感谢我们分享的丰富多彩的讨论,美味的浓咖啡,感谢我们一起度过的所有快乐时光,在卡利2号的四楼引起了一场骚动。

最后,但并非最不重要的是,我感谢我的父母和姐姐对我完成研究生学业的不间断的支持和鼓励;和爱丽丝·林、泰勒·隆格罗、克里斯托弗·钱德勒、凯文·耶普以及其他许多亲密的朋友一起,他们提醒我,学校之外还有一种生活。

论文摘要

逻辑回归的完全贝叶斯方法

乔安妮·申

电气工程理学硕士(智能系统、机器人和控制)

加州大学圣地亚哥分校,2015年

主席,托德·科尔曼教授

二元逻辑回归通常用于临床应用,以预测患者群体中出现的医疗状况。点估计通常用来逼近未知的回归权重。在这样做时,关于权重的潜在后验分布的信息会丢失。我们提出了一种方法,该方法从贝叶斯的角度看待逻辑回归模型,并且在计算属于正类的概率时考虑未知回归系数的完全后验。这种方法将被称为完全贝叶斯方法。完全贝叶斯方法允许我们量化概率计算中的不确定性。本文的工作建立在Kim和Ma的先前工作的基础上,在这些工作中,他们展示了有效可解的完全贝叶斯估计技术。通过解决一个(凸的)库尔巴克-莱布勒散度问题,他们能够在对应的后验分布之前从任何对数凹点获得一个映射,从而使人们能够容易地从后验点抽取独立的样本。拥有完整的后验概率有助于揭示预测的可信度,并可用于定义弃权策略。该数据集是从凯泽医疗用品有限公司(Kaiser Permanente)的已识别患者数据的子样本中创建的,由已经和尚未被诊断患有哮喘的患者的高度不平衡的数量组成。结果表明,与点估计方法相比,完全贝叶斯方案的整体性能拥有更高的准确度。

第一章

引言

1.1背景

回归模型是广泛应用于许多学科和应用领域的预测模型。这些模型旨在拟合一些范畴因变量(回归变量)与一个自变量之间的函数关系。回归模型的类型决定了回归模型的可靠性和独立性之间的关系。在独立变量只具有两个状态(二进制类)的情况下,通常使用逻辑回归模型。

在临床应用中,二进制逻辑回归模型是一种流行的预测医疗结果的方法。回归因子通常被认为是二进制(是或否)和实值测量(心率、体重指数、年龄等)的混合物[1]。可能的结果通常是1或0,表明病人有或没有一个特定的疾病或条件。为了根据特定的数据集拟合模型,我们需要估计所涉及的参数——即每个回归因子的权重。拟合阶段称为学习阶段,学习阶段所涉及的数据称为训练数据。为了测试我们的模型,我们保留了一部分模型看不到的数据,这些数据称为测试数据。正如我们将在下面的部分中看到的,一个点估计可以最小化与逻辑回归模型相关的损失,这个点估计用来近似每个回归项的权重。通过执行点估计估计来学习关于估计的不确定性的回归权重信息是丢失的。然而,在临床领域人们可能会问-如何可信的结果是模型?

1.2注释

下列符号将在本文件中始终使用。

  • 大写字母将用来表示随机变量。大写字母表示回归因子/特征的数量(回归因子和特征可以互换使用)
  • 表示向量形式的回归变量,
  • 表示类标签
  • 类别标签0和1被称为”负”和”正”类别,
  • 上标用来表示不同的样本(如:即表示第一个样本)
  • 其他符号将根据需要定义。

第二章

完全贝叶斯决策

2.1传统逻辑回归模型

逻辑回归模型假设属于正数类(p)的条件概率与回归变量(2.1)之间存在以下关系。

(2.1)

此时,

(2.2)

注意,上面的符号中使用了分号来表示这个是一个确定的未知变量。本着使用逻辑回归模型来模拟医疗结果的精神,让每个样本代表不同的病人,并且让属于阳性类别的每个结果类似于一个被诊断患有某种疾病的病人。所有的病人都被认为是相互独立的。每个病人k都有他们自己的特征和被诊断的概率:,但是所有的病人都被假定在每个回归因子上有相同的权重()。

使用一个标记的训练数据集合,可以估计系数。

在讨论如何估算之前,让我们先更详细地设置整个问题。从(2.1)开始的关系可以重写为(2.3)和(2.4)。

(2.3)

(2.4)

因此,当时我们可以将(2.3)和(2.4)紧凑地表示为(2.5)。

(2.5)

早期假设每个病人都是独立的,这使得我们可以将每个病人的所有结果的概率表示为每个个体结果的乘积(2.7)。

(2.6)

(2.7)

这也称为参数化的似然函数()。

2.1.1点估计

给定一组标记的训练数据,目标是找到最大化的值(2.7)。请注意(2.7)是不凹的方面,因此很难解决。然而,众所周知,结构为指数对数和的对数似然函数是凹的[2]。此外,由于log(u)是一个单调递增函数,因此极大值/极小值保持不变(2.8)-(2.9)。最大化对数可能性等价于最小化负对数可能性,如(2.10)-(2.11)所示。

(2.8)

(2.9) (2.10) (2.11)

负对数似然通常称为对数损失(2.12)-(2.13)。

(2.12) (2.13)

用这种方法求解最优估计被称为最大似然估计(MLE)。一个劣势或正规化条件往往是加上防止过度拟合劝阻的值增长不切实际的大(2.14)。在贝叶斯意义上,将这个结构放在的回归权重上是等价的,就是将某种先验信念放在回归权重上,并将权重本身解释为一个随机变量。这个贝叶斯意义上的等价问题被称为最大后验点估计问题,将在下一节进一步探讨。

(2.14)

让我们转移到贝叶斯的观点,并解释回归权重是一个随机变量。 选择决定了 w 上的先验结构,例如,选择 L2正则化器相当于在 w 上施加一个高斯先验,而 L1正则化器相当于在 w 上施加一个拉普拉斯先验。 一旦是估计,新的样本()可以归类为属于阳性类根据(2.15)。

如)(2.15)则申报1.

请注意,当与这两种类型的误差相关的成本不相等时,1/2可以用某个阈值替换,这是成本的比率。

2.2完全贝叶斯逻辑回归模型

正如前面所看到的,正则化的最大似然点估计与贝叶斯MAP点估计是等价的。这一部分主要集中在贝叶斯对点估计问题的解释。虽然点估计估计通常用于估计未知参数,但在估计参数的精度方面存在根本性的限制。例如,假设我们想要在一个有d=1回归因子的Logit模型框架中估计回归权重。让在W的后面,为了射击,让在后面。图2.1显示了两种可能的w。尽管绿色曲线的可信区间为95%,比蓝色曲线宽得多,MAP点的估计值在两条曲线中是相等的(=10用红色表示)。顾名思义,可信度间在揭示估计的“好”或“可信度”方面是有用的。如果我们的点估计来自绿色后验,相对较大的变化值,w采取的结果在w的概率小的变化。当评估后验时,似乎w在95%可信区间内的任何值都是合适的。然而,w所承担的值的大变化往往会导致属于正类的概率发生足够大的变化,从而使决策不稳定(在0和1之间翻转)。我们提出了一种完全贝叶斯逻辑回归模型分类方法,该方法可以稳定地学习w的后验,并且在执行分类任务时考虑w的分布及其可信区间。让我们首先假设我们能够获得完整的后验概率和详细说明它是如何有用的。回想一下,在MAP点估计框架中对新样本进行分类的规则是由(2.15)给出的。注意,一旦w被学习,训练数据,,不再提供任何额外的信息。因此,条件独立将我们引向(2.16)。

(2.16)

权重的后验概率由(2.17)定义。

图2.1:注意两种可能的后验分布,虽然两种分布不同,但它们具有相同的模式(用红色表示)。

(2.17)

2.2.1学习背景

开发点估计积分方法的主要动机之一是避免在学习整个后验概率时计算非平凡积分的麻烦。然而,只要能获得大量的后验概率样本,我们就可以大致估算出整个脊椎骨的大小和属于脊椎骨的任何统计数据。获得这些样品的一个著名的抽样方法是吉布斯抽样[5]。吉布斯采样器是一种马尔科夫蒙特卡洛算法。MCMC算法最大的缺点之一是它们往往具有未知的收敛速度;也就是说,不能保证训练这样一个分类器需要多长时间。另一个重要问题来自于改变潜在的感兴趣的概率分布。由于MCMC算法是针对特定的概率分布构造的,改变这些分布往往会完全改变算法的结构。

通过Kim和Ma最近的工作,已经开发出一种从后验概率中获取样本的有效方法,这种方法不会遇到MCMC算法所遇到的同样问题。正如我们将看到的,Kim,Ma和Mesa的[7]结果提供了一个强有力的方式样本,从后验给予任何对数凹先验。为了总结他们的研究结果,让我们定义一些术语。设p和q分别对应于某些随机变量的先验和后验概率,s是将p推进或转换为q-Kim和Ma的映射,如果我们的似然分布和先验分布是对数凹的,那么存在一些微分同胚映射s,将p推进到q。

(2.18)

这个结果允许我们从(已知的)先前的分布中提取样本,并将它们转化为从相应的后验概率中提取的样本。

在进一步的总结中,必要的细节将包括在内,以提供一个如何实现地图的想法。

设是最优的或期望的映射,它将 p 推到 q,并且让所有其他的映射 s,推出一些不一定等于p到q的值,如图 2.4[6]所示

第三章

实验

其目的是提供一个完全贝叶斯分类器和传统的逻辑回归模型分类器之间的比较(在性能和能力上)

3.1 数据

这个数据集是使用来自凯泽永久的被去除标识的真实病人数据创建 的。我们旨在分类的医学条件是哮喘(ICD9:493.00)。这些病例被定义 为诊断为哮喘的患者,而对照组则被定义为未诊断为哮喘的患者。数 据集包含 10100 名患者,其中 100 例为病例,10000 例为对照组。在 实际患者人群中,观察到大约有 10 倍以上的对照病人比病例专利。 表 3.1 列出了每个病人的 10 个特征。具体来说,这些特征都是常用 于治疗哮喘或类哮喘症状的各种药物。

表3.1:功能描述

1平喘药

2哮喘/慢性阻塞性肺病治疗-beta;2肾上腺素能药物,吸入,短效

3硫酸沙丁胺醇

4beta;-肾上腺素能药物

5硫酸沙丁胺醇HFA 90微克/驱动气雾剂吸入器

6糖皮质激素,口服吸入

7哮喘治疗,糖皮质激素

8倍氯米松二丙酸酯

9倍氯米松二丙酸酯80微克/驱动气雾剂吸入器

10硫酸沙丁胺醇2.5毫克/3毫升(0.083 %)溶液,用于雾化

在二进制分类任务中,理想的分类器能够正确识别新观察到的类标签。在实践中,当属于每个类的样本分布没有任何重叠或者可以用 某种边界分离时,这个任务是可行的。最简单的边界是线性的,但边 界可以采用双曲线、椭圆和许多其他几何形状。我们的数据集是不可 分的,所有属于正类的样本都有属于负类的两个样本。换句话说,给 病例组开出的所有不同的药物组合也开给了对照组的一些病人。对于 我们收集的病例和控制哮喘病人来说,表 3.1 中列出的药物作为具有 哮喘类似症状的疾病的处方并不少见。例如,特征 2 被交叉引用为 COPD 或慢性阻塞性肺病,特征 3 和 5(沙丁胺醇)被用作快速缓解药物, 处方用于治疗呼吸问题,而不仅限于哮喘。

3.2 错误度量

使用的误差指标是平衡准确度[8]准确度、召回率和混淆度

矩阵:

平衡精度=

精度(PPV)=

召回率(TPR)=

请注意,当数据集平衡时,平衡精度等于传统的精度定义。它在描述不平衡数据集的准确性时特别有用。例如,如果99/100的患者属于类别0,那么将所有患者分类为属于类别0的分类器的准确度为99%。显然,这有点误导。另一方面,同一分类器的平衡精度等于0.5。由于平衡准确度分别考虑了每类患者的正确分类比例,因此作为误差的度量标准,它比传统方法更有用。

第四章

总结

完全贝叶斯/逻辑回归模型框架提供了可信区间,可用于各种不同的 应用。本文特别举例说明了一个用例,其中分类器难以用来自哮喘患 者人群的真实患者数据来识别代表性不足的类。可信度区间被用来提 供一个额外的信任度量,并为我们提供了一个更有力的方法来确定潜 在的错误分类。这些错误

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[409479],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。