英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料
基于高斯过程恢复胎儿心率记录中缺失的样本
摘要:由于各种原因,包括胎儿或母体移动以及错位的电极,导致样本缺失在胎儿心率(FHR)记录中非常常见。样本的缺失会导致后面对胎儿心率的分析造成不便。在本文中,我们提出了一种基于高斯过程的方法,可以利用其他信号(例如,子宫活动和母亲心率)来预测FHR记录中缺失的样本。该方法在较短的实时FHR记录片段上进行了测试,并将其预测性能与在FHR记录的预处理中广泛使用的三次样条插值方法进行比较。我们的结果表明,利用UA信号的高斯过程方法实现了从2.35dB提升至14.85dB的性能恢复。此外,实验结果还表明,即使样本缺失的百分比超过50%,这种方法的均方误差仍较低,每分钟的样本预测量不会超过一次。
1.引言
监测分娩胎儿健康状况的最常见方法是通过心脏血管造影术(CTG)测量胎心率和子宫活动(UA)信号。这两种信号都由临床医生进行视觉检查。有关FHR评估的临床指南可以从国家儿童健康与人类发展研究所(NICHD)和国际妇产科联合会(FIGO)]获得。然而,众所周知,由于视觉检查中的主观性,FHR信号的解释倾向于高度观察者之间和观察者内部的差异性。此外,目前的FHR评估指南的简单化的解释,对防御性实践以及不必要的手术干预负责已经被批评。
为了解决这些问题,自20世纪80年代以来已经提出了各种自动化的FHR分析和评估方法。它们在本质上是客观的,并且能够提取人眼无法看到的特征和发现模式。例如,在参考文献[4]中,作者开发了基于生成模型(GM)和贝叶斯理论的FHR分类方法,使用脐带pH值定义了健康和不健康两类,这是金标准诊断。结果表明,GM和贝叶斯范式可以显著的提高自动FHR分类的准确率。最近,在FHR分析中已经提出了使用分层Dirichlet过程(HDP)混合模型,并且FHR分类的结果非常有前景。也有采用人工神经网络的方法得到了较好的结果。虽然关于这个话题的研究主要集中在FHR上,但它不是关于胎儿健康的唯一可用信息来源,其他产时信号比如UA和MHR也包含关于胎儿状态的信息。
在FHR取样中,胎儿或母体移动以及错位的电极等各种原因都可能导致样本数据的缺失和失真。对于外部超声测量,样本缺失率的百分比在0-40%之间变化,对于内部胎儿心电图直接测量,样本缺失率的百分比从0-10%之间变化。我们应该注意到,尽管视觉检查的临床医生给出的经验值为50%的样本缺失率,但仍没有关于到底多少的样本缺失率会使FHR记录丧失视觉检查或自动分析资格的结果。但是临床医生却可以容忍高比例的FHR样本缺失率,一方面是因为视觉检查与自动化系统不同,它们的检查主要集中在形态学特征上;另一方面是人类视觉感知对样本损失是非常强大的。
为了减少自动FHR分析中失真情况的出现,通常会采取一些措施,第一步是进行预处理,插值和间隙处理。预处理的目的在于提高FHR记录的质量。这通常涉及到去除人为因素的干扰(一种流行的算法在参考文献[8]中有描述)。更具体地说,通常使用线性插值或三次样条插值对小段缺失样本进行插值,而更大的缺失样本段(例如15秒或更长的段)通常被完全去除。
然后从预处理的携带胎儿状态信息的FHR记录中提取描述FHR的不同特征。例如,短期变异性(STV),长期变异性(LTV)和熵。预处理步骤对FHR分析至关重要,因为预处理的质量直接与特征的值相关,也就是分析的性能。例如,在参看文献[11]中,作者在第一产程中的5分钟FHR片段中随机选择0-50%样本缺失率,研究了几个STV和LTV特征的稳定性。然后在计算特征之前对这些缺失的样本进行线性插值。结果表明许多特征的值发生了显著变化。结论是,缺失的样本如果没有得到适当的恢复或处理,可能会在自动分析中造成严重的问题。
FHR缺失样本的恢复是FHR分析研究中在很大程度上被忽略的一个话题。直到最近,才引入了包括两个步骤的自适应方法。在第一步中,使用经验字典估计丢失的样本,并且在第二步中,使用第一步中更新的数据重建字典。迭代地应用这两个步骤直到收敛。与三次样条插值相比,这种自适应方法已经实现了2dB至4.5dB更好的重构能力。然而,在诸如图像处理,机器学习和地理统计等许多其他领域中,丢失数据的恢复问题已经被深入研究了。在广泛用于开采矿物资源的地理统计中,常见的任务是从相对较小的钻孔或其他样本集中估计坡度和其他参数。解决这一任务的强大和有效的方法是kriging。这种方法已经被开发出来并应用于包括机器学习在内的许多其他领域,它也被称为高斯过程(GP)预测。
在本文中,我们提出了一种有效的基于GP的方法,不仅使用观察到的FHR样本中的信息,而且还借助于UA信号来恢复缺失的FHR样本。虽然MHR也可能携带一些信息,但我们并没有使用它,因为我们的实验数据库中没有它。如果缺失的FHR样本与记录中观察到的FHR样本相距很远,这些观察到的样本中含有关于该缺失样本的信息就会非常有限。但是,其观察样本附近的UA和MHR样本可能包含有关其真实价值的信息。对于每个缺失的FHR样本,提供缺失样本的全预测高斯分布。这比单纯的点估计和误差棒提供更多的洞察力。
本文的结构如下。在下一节中,我们提供了关于数据采集和全科医生的简要背景。在第3节中,我们详细介绍了基于GP的方法。在下面的章节中,我们首先描述我们用于实验的开放存取的分娩式CTG数据库,然后展示我们如何在一段真实的FHR记录上实现我们的基于GP的方法,最后,我们将其性能与三次样条插值方法的性能相比较。然后我们在第5部分对这篇论文进行总结。
2.背景
A.数据获取
电子胎儿监护(EFM)主要用于CTG评估分娩前或分娩期间的胎儿状态,同时监测FHR和UA的变化。通过多普勒超声(外部)或胎儿头皮电极(内部)直接测量胎儿心电图和记录FHR的变化,UA信号通常使用外部动力学计监测。外部CTG因其非侵入性而更为流行,非常适合连续或间歇性监测。但是,它通常提供的准确度较低。图1给出了一个例子,可以看出在FHR记录中有许多缺失的样本。
图1. 一段未预处理(原始)FHR和相应的UA信号
高斯过程在监督和非监督机器学习任务中都取得了成功。这里我们重点关注GP的回归框架,因为恢复缺失的FHR样本确实是一个回归问题。根据定义,GP是具有联合高斯分布的随机变量的集合。GP将多元高斯分布扩展为无限维度,因此可以看作实值函数f(x)的分布,其中位置索引x通常是一个向量。对于每个固定的x,f(x)是一个实值的随机向量。事实上,由于GP的一致性(也称为边缘化属性)和计算易处理性,事实上易于使用无限维度。
高斯分布可以用其均值和方差完全表示。类似地,高斯过程完全由其平均函数和协方差函数来定义,其中
的先验分布是通过构造的,其中两个随机变量和的协方差取决于它们的位置和。通常为了简单起见,GP的均值被假定为零,即对于每个,。设计合适的协方差函数是成功使用GP的关键,因为它们传达了我们对特性的信念。
广泛使用的协方差函数之一是平方指数协方差函数,对于一维情况,它具有以下形式
其中尺度l(lgt; 0)是超参数。由于平方指数协方差函数是无限可微的,因此得到的GP具有所有阶的均方导数,因此非常平滑,如图2所示。
图2. 从GP指数(上)和Matern(下,nu;= 3/2)协方差函数构成的GP先验的两个函数样本分别具有相同的长度尺度l = 0.1
机器学习领域中另一类流行的协方差函数被称为Matern类函数。定义它们的一个参数被称为nu;,并且可以证明,当nu;是半整数时,Matern协方差函数变成指数和多项式简单地乘积。对应于nu;= 3/2和nu;= 5/2的一维格式如下:
其中r是和之间的距离。为了说明结果函数的不同特征,在图2中,我们给出了由一个GP在平方指数协方差函数和一个具有一个Matern(v = 3/2)协方差函数的GP之前生成的两个函数,相同的尺度l = 0.1。有关GP的更多信息可以在参考文献[13]中找到。
3.模型简述
我们假设在FHR段中的第i个样本的观测值是I,函数i是同步的UA样本,其具有加性高斯白噪声,即
其中是一个二维矢量,f(xi)是一个潜变量,是高斯白噪声。我们观察了一段长度为L的FHR记录,其中有n个观测样本,我们假设它与一个没有缺失样本和伪影的UA片段同步,我们想用它来进行训练。我们的目标是在训练后我们能够估算缺失的FHR样本。为简单起见,我们也使用零均值函数,即。
如图1所示,FHR信号可以看作是慢变组分和快变组分的叠加。因此,我们将协方差函数(对于f(x))构造为平方指数协方差函数,Matern协方差函数(当nu;= 3/2时)和线性协方差函数(用于捕获线性)的总和。它被定义如下
其中,,。
由于我们假设观测值中有方差为的加性高斯白噪声存在,于是y(x)的协方差函数变为
或者它的等价矩阵形式如下式
其中y =, 和是大小为n的协方差矩阵,是克罗内克三角函数。 Kf由参考文献(7)详细说明,K的条目由参考文献(8)详细说明。
超参数theta;=可以使用最大似然从训练数据中学习。可以证明最大似然的偏导数w.r.t. theta;j具有以下形式:
其中X = [x1,x2,...,xn]。矢量theta;可以通过采用基于梯度的优化器来调整。对于位置x *处丢失的FHR样本,f(x *)的均值和协方差由下式给出:
其中是长度为n的列向量,其由参考文献(7)详细说明。我们使用作为x *处恢复的FHR值,因为高斯分布的模式也是其期望。
需要仔细选择FHR部分的长度L以便有效实施。这个长度不应该很长,因为FHR样本在很久之前或者很久之后在未观察到的样本中没有包含太多关于样本的信息。另一方面,如果分段太短,我们可能没有足够的信息来恢复丢失的样本。选择L的一种合理方法是参考相应的UA信号。UA信号中的模式具有准周期性特征,并且其收缩时间大约是1.5至2.0分钟。通常,FHR和UA以4Hz的频率采样,因此,这样的分段具有360到480个采样数据。长段FHR部分也可以被容纳。我们可以将它们缓存到重叠的短帧中,然后在帧中实现恢复。然后从样本的所有估计值中获得样本的最终恢复值
4.实验和结果
A.开放存储产时CTG数据库
在我们的实验中,我们使用了包含552次产时CTG记录(506次阴道分娩和46次剖宫产)和相应临床数据的开放存取数据库。这些数据是在2010年4月至2012年8月期间在捷克布尔诺大学医院的产科获得的。每个CTG记录包含FHR信号和UA信号,均以4 Hz采样。大部分记录是使用超声波从外部获得的。如果通过内部头皮电极记录信号,则还包含T / QRS比率和关于双相T波的信息。共有552条记录,它们是使用了许多临床和技术标准从9,164条记录中精心挑选,例如,第一阶段分娩最多60分钟,第二阶段分娩最多30分钟。在第一阶段的实验中,不允许有超过50%缺失率的信号。数据库的详细描述可以在参考文献[14]中找到。
B. 真实数据上测试
在这个例子中,我们选择了一个包含491个连续样本的CTG片段,没有丢失样本和明显的伪像,如图3所示。然后,120个样本的FHR信号被随机选择并被认为丢失(它们的值被设置为零),我们试图恢复它们。基于GP的方法和三次样条插值方法的结果如图4所示。显然,基于GP的方法提供了更好的结果。它的恢复结果更接近实际情况,特别是在地面真相快速变化的时刻。
图3. FHR片段(上部)及其相应的UA片段(底部)
图4. 基于GP的方法和三次样条插值方法的120个缺失样本的恢复结果
C. 基准测试结果
衡量恢复性能的指标是对数尺度的均方误差(MSE)和信噪比(SNR)
其中N是缺失样本的数量,s是地面实况,是重构信号。
从同一CTG片段中,我们选择了一部分被认为缺失的FHR样本(观察到它们相应的UA值)。我们统一抽取样本,然后尝试估计它们。缺失样本的百分比从1%增加到85%,步长为1%。为了获得可靠的性能基准,对于每个特定的百分比,实验重复了90次,并且这两个指标在90次实验中取平均值。基准结果如图5所示,其中包含了三次样条插值方法的性能以供参考。
图5. 当呈现不同百分比的缺失样品时,每种方法90次实验的平均MSE值(上图,对数标度)和平均SNR值(下图)
两种度量方法都证实了我们方法的性能更好。与三次样条插值方法相比,我们基于GP的方法实现了2.35 dB至14.85 dB的更好恢复性能。即使丢失样本的百分比超过50%,我们的方法的MSE仍然低于每分钟一拍。
D.利用UA的好处
为了证明UA信号在恢复中的贡献,我们重复了第一个例子,但是从输入矢量xi中排除了ui,并且应用了相同的协方差函数(我们将其从2-D简化为1-D)。然后,对于两种情况,有UA信号和没有UA信号,并且对于每个时刻(从1到491),我们绘制了潜变量f(x)和f(x)的估计值以及95%置信区间,如图6所示。使用UA的阴影面积(相当于95%置信区间)要窄得多。这表明,使用UA信号,模型可以更好地解释训练数据并更准确地进行预测。表1给出了两种情况的性能比较。从结果中,我们看到,没有UA信号,性能已经明显恶化。我们还注意到,该方法继续比三次样条插值方法有更好的性能。
全文共6894字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[10727],资料为PDF文档或Word文档,PDF文档可免费转换为Word
方法 |
MSE[BPM] |
SNR[dB] |
基于GP的方法,使用UA信号 |
0.3311 |
47.1805 |
基于GP的方法,没有使用UA信号 |
1.3572 |
41.0835 |
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。