英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料
译文:
V-Net:全卷积神经网络在体医学图像分割中的应用
摘要
卷积神经网络(CNNs)近年来被广泛应用于计算机视觉和医学图像分析领域。尽管它们很受欢迎,但大多数方法只能处理二维图像,而在临床实践中使用的大多数医疗数据由三维体组成。在这项工作中,我们提出了一种基于体积,完全卷积,神经网络的三维图像分割方法。我们的CNN在描述前列腺的MRI容积上进行端到端的训练,并学习同时预测整个容积的分割。我们引入了一个新的目标函数,我们在训练过程中优化,基于骰子系数。这样我们就可以处理前景体素和背景体素数量之间严重不平衡的情况。为了处理有限数量的可用于训练的标注卷,我们使用随机非线性变换和直方图匹配来扩充数据。实验结果表明,我们的方法在处理具有挑战性的测试数据时取得了很好的性能,而只需要其他方法所需处理时间的一小部分。
1. 介绍及相关工作
近年来,计算机视觉和模式识别的研究突出了卷积神经网络(CNNs)在解决分类、分割和目标检测等具有挑战性的任务方面的能力,实现了实时性能。这一成功归功于CNNs能够学习原始输入数据的分层表示,而不依赖手工制作的特性。当输入通过网络层处理时,产生的特征的抽象级别会增加。较浅的层掌握局部信息,而较深的层则使用接收场更宽的滤波器,从而捕捉全局信息[19]。
医学图像分割是医学图像分析中的一项重要任务。在执行诸如视觉增强[10]、计算机辅助诊断[12]、干预[20]和从图像中提取定量指标[1]等任务时,通常需要自动描绘感兴趣的器官和结构。特别是,由于诊断和介入图像通常由3D图像组成,能够通过同时考虑整个体积内容来执行体积分割,具有特殊的相关性。在这项工作中,我们的目标是分割前列腺磁共振容积。这是一项具有挑战性的任务,因为前列腺在不同的扫描中由于变形和强度分布的变化而呈现出广泛的外观。此外,由于磁场的不均匀性,磁共振成像的体积经常受到人工制品和畸变的影响。尽管如此,前列腺分割仍然是一项重要的临床任务,无论是在需要评估前列腺体积的诊断阶段[13],还是在需要精确估计解剖边界的治疗计划阶段[4,20]。
图1-磁共振成像显示前列腺的切片。该数据是《PROMISE2012》挑战数据集[7]的一部分
CNNs最近被用于医学图像分割。早期的方法是通过对图像进行分片分类,在图像或体积中获得解剖轮廓。这种分割只考虑局部情况,因此容易失败,特别是在具有挑战性的模式,如超声,其中大量错误分类的体素是预期的。后处理方法(如连接成分分析)通常不会产生任何改进,因此,最近的思路是将网络预测与马尔可夫随机场[6]、投票策略[9]或更传统的方法(如水平集[2])结合使用。基于补丁的方法也存在效率问题。当在CNN中处理密集提取的面片时,大量的计算是多余的,因此算法的总运行时间很高。在这种情况下,可以采用更有效的计算方案。全卷积网络训练的端到端仅应用于计算机视觉[11,8]和显微镜图像分析[14]中的二维图像。这些模型为我们的工作提供了灵感,它们采用了不同的网络结构,并被训练来预测整个图像的分割掩模,描绘出感兴趣的结构。在[11]中,预先训练的VGG网络体系结构[15]与其镜像的、反卷积的结合使用,相当于通过利用最内层提取的特征的描述能力来分割RGB图像。在[8]中,三个完全卷积的深神经网络,在分类任务的预先训练,被细化到产生3个分段,而在[14]中,一个全新的CNN模型,特别是为解决生物医学图像分析问题,在二维,被提出。在这项工作中,我们提出了我们的医学图像分割方法,它利用端到端训练的完全卷积神经网络的能力来处理磁共振体积。与其他最新的方法不同,我们避免按切片方式处理输入体积,而是建议使用体积卷积。提出了一种新的基于骰子系数最大化的目标函数,并在训练过程中进行了优化。我们在前列腺磁共振检查容积上显示了快速和准确的结果,并且我们提供了与在相同测试数据上评估的其他方法的直接比较4。
2. 方法
图2-网络架构的示意图。我们对Caffe[5]的自定义实现通过执行体积卷积来处理三维数据。最好以电子格式观看
在图2中,我们提供了卷积神经网络的示意图。我们进行卷积,目的是从数据中提取特征, 在每个阶段结束时,使用适当的步幅来降低分辨率。网络的左侧由一条压缩路径组成,而右侧则对信号进行解压缩,直到达到其原始大小。卷积都使用适当的填充。网络的左侧分为不同的阶段,以不同的分辨率运行。每个阶段包括一到三个卷积层。类似于文献[3]中提出的方法,我们对每个阶段进行描述,使其学习一个残差函数:每个阶段的输入(a)在卷积层中使用,并通过非线性进行处理,以及(b)添加到该阶段最后一个卷积层的输出,以便学习残差函数。正如我们的经验观察所证实的那样,这种结构确保了在不学习残差函数的类似网络所需时间的一小部分内收敛。在每个阶段进行的卷积使用大小为5times;5times;5体素的体积核。当数据沿着压缩路径经过不同阶段时,其分辨率会降低。这是通过卷积与2times;2times;2体素宽核应用步幅2(图3)。由于第二个操作只考虑不重叠的2times;2times;2体积块来提取特征,因此生成的特征映射的大小减半。这种策略的目的类似于汇集层,在[16]和其他阻止在CNN中使用max-pooling操作的工作的推动下,在我们的方法中,这些层已被卷积层所取代。此外,由于在V-Net的压缩路径的每个阶段,特征信道的数量都是原来的两倍,并且由于模型是一个残差网络,因此我们在降低特征映射的分辨率时,使用这些卷积操作使其数量加倍。预处理非线性在整个网络中应用。将池操作替换为卷积操作也会导致网络在训练期间内存占用更小,这取决于具体的实现,因为在反向传播中不需要将池层的输出映射回其输入的交换机,而且可以更好地理解和分析这些交换机[19]只应用反卷积而不是取消池操作。下采样允许我们减小作为输入呈现的信号的大小,并增加在随后的网络层中计算的特征的接收场。网络左侧的每个阶段都会计算一些特征,这些特征是前一层特征的两倍。网络的右侧部分提取特征,并扩展低分辨率特征映射的空间支持,以收集和组合必要的信息,输出双通道体分割。最后一个卷积层计算出的两个特征图,其核大小为1times;1times;1,输出与输入体积大小相同,通过软最大体素化将其转换为前景和背景区域的概率分割。在CNN的右部分的每个阶段之后,使用去卷积操作来增加输入的大小(图3),然后是1到3个卷积层,涉及前一层中使用的5times;5times;5核的一半。类似于网络的左半部分,在这种情况下,我们在卷积阶段学习残差函数。
图3-适当跨距的卷积可以用来减小数据的大小。相反,反卷积通过将每个输入体素通过核投影到更大的区域来增加数据大小
与[14]类似,我们将从CNN左侧早期提取的特征转发到右侧。这在图2中用水平连接示意性地表示。通过这种方法,我们可以收集在压缩路径中丢失的细粒度细节,并提高最终轮廓预测的质量。我们还观察到当这些连接改善了模型的收敛时间时。我们在表1中报告了每个网络层的接收字段,显示了CNN最里面的部分已经捕获了整个输入卷的内容。我们认为,在分割不明显的解剖结构时,这一特征很重要:在最深层计算出的特征一下子就能感知整个感兴趣的解剖结构,因为它们是从空间支持比我们试图描绘的解剖结构的典型尺寸大得多的数据中计算出来的,因此施加全局限制。
表1-网络3times;3times;3卷积层的理论感受野
3. 骰子丢失层
网络预测由两个与原始输入数据具有相同分辨率的体素组成,通过soft-max层进行处理,输出每个体素属于前景和背景的概率。在我们正在处理的医学卷中,感兴趣的解剖学只占扫描的一小部分并不少见。这通常会导致学习过程陷入损失函数的局部极小值,从而产生预测强烈偏向背景的网络。因此,前景区域通常丢失或仅部分检测到。已有的几种方法都采用基于样本重加权的损失函数,在学习过程中前景区域比背景区域更重要。在这项工作中,我们提出了一个新的基于骰子系数的目标函数,它是一个介于0和1之间的数量,我们的目标是最大化。两个二进制体积之间的骰子系数D可以写成
当预测的二值分割体积和地面真值二值体积的N个体素上的和运行时,根据预测的第j个体素计算。使用这种公式,我们不需要为不同类别的样本分配权重,就可以在前景体素和背景体素之间建立正确的平衡,我们得到的结果是,我们实验观察到的比通过相同的网络训练的计算结果要好得多,通过样本重加权优化多项式logistic损失(图6)。
3.1 训练
我们的CNN是在MRI前列腺扫描数据集上进行端到端训练的。这些卷的典型内容示例如图1所示。该网络处理的所有体素大小固定为128times;128times;64,空间分辨率为1times;1times;1.5毫米。由于需要一个或多个专家手动追踪可靠的地面真相注释,而且获取这些注释需要付出一定的成本,因此不容易获得注释医疗卷。在这项工作中,我们发现有必要增加原始训练数据集,以获得稳健性和提高测试数据集的精度。7在每次训练迭代中,利用2times;2times;2控制点网格和B样条插值得到的稠密变形场,将训练图像的随机变形版本作为网络输入。在每次优化迭代之前,都会“动态”地执行此增强,以减轻否则过多的存储需求。此外,我们通过使用直方图匹配,将每次迭代中使用的训练量的强度分布调整为属于该数据集的其他随机选择扫描的强度分布,从而改变数据的强度分布。
3.2 测试
以前看不见的MRI体积可以通过网络进行前馈处理来分割。最后一个卷积层的输出在soft-max之后,由背景和前景的概率图组成。具有更高概率(gt;0.5)的体素属于前景而不是背景被认为是解剖学的一部分。
4. 结果
图4-PROMISE 2012数据集的定性结果[7]
我们在50个磁共振成像体积上训练了我们的方法,并从“PROMISE2012”挑战数据集[7]获得了相关的人工地面真值注释。该数据集包含不同医院、不同设备和不同采集协议采集的医疗数据。数据集中的数据代表了临床环境中遇到的临床变异性和挑战。如前所述,我们通过在每次训练迭代中执行的随机转换,为每个输入到网络的小批量数据集进行了大量的扩充。在我们的实现中使用的小批量每个包含两个卷,这主要是由于模型在训练期间的高内存需求。我们使用的动量为0.99,初始学习率为0.0001,每25K次迭代减少一个数量级。
图5-在分割过程中,体积相对于骰子系数的分布
我们在30个描绘前列腺的磁共振容积上测试了V-Net,前列腺的基本真相注释是秘密的。本节报告的所有结果都是在提交通过我们的方法获得的分割后,直接从挑战赛组织者处获得的。该测试集代表了前列腺扫描在实际临床环境中遇到的临床变异性[7]。我们根据骰子系数、预测轮廓到地面真值注释的Hausdorff距离以及根据“PROMISE 2012”组织者计算的挑战数据获得的分数来评估方法性能[7]。结果如表2和图5所示。
表2-在PROMISE 2012 challenge数据集上,对拟议方法和当前最佳结果进行了定量比较
图6-使用基于骰子系数的损失(绿色)和带损失的重新加权软最大值(黄色)得到的结果之间的定性比较
我们的实现5是在python中实现的,使用了Caffe6[5]框架的自定义版本,该框架能够通过CuDNN v3执行体积卷积。所有的训练和实验都是在一个标准工作站上进行的,该工作站配备了64GB内存、一个工作在3.30GHz的Intel(R)Core(TM)i7-5820K CPU和一个8GB视频内存的NVidia GTX 1080。我们让我们的模型训练了48个小时,或者大约30K次迭代,我们能够在大约1秒内分割出一个以前看不见的体积。数据集首先使用ANTs框架的N4偏移场校正函数进行正规化[17],然后重新采样到1times;1times;1.5mm的公共分辨率。我们将随机变形应用到训练扫描中,通过改变控制点的位置,使其具有从零均值和15个体素标准差的高斯分布中获得的随机量。定性结果见图4。
5. 结论
提出了一种基于体积卷积神经网络的前列腺体积分割方法。我们提出了一种新的目标函数,在训练过程中根据预测分割和地面真值标注之间的骰子重叠系数进行优化。当背景和前景像素的数量严重不平衡时,我们的骰子丢失层不需要样本重新加权,并且用于二进制分割任务。尽管我们将我们的架构启发到了[14]中提出的架构,但我们将其划分为学习残差的阶段,并根据经验观察,改进结果和收敛时间。未来的工作将致力于通过在多个GPU上分割网络,以超声等其他方式分割包含多个区域的体积,并获得更高的分辨率。
6. 鸣谢
我们要感谢英伟达公司,它捐赠了一台特斯拉K40 GPU给我们的小组,使这项研究成为可能,Geert Litjens博士,他花了一些时间根据PROMISE2012数据集的基本事实评估我们的结果,并感谢Iro Laina女士对该项目的支持。
原文:
V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation
Abstract. Convolutional Neural Networks (CNNs) have been recently employed to solve problems from both the computer vision and medical image analysis fields. Despite their popularity, most approaches are only able to process 2D image
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[235802],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。