基于深度神经网络的解剖脑部分割外文翻译资料

 2022-04-18 22:52:28

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


基于深度神经网络的解剖脑部分割

摘要

我们提出了一种将人脑的磁共振(MR)图像自动分割成解剖区域的新方法。我们的方法基于深度人工神经网络,该网络将大脑的MR图像中的每个体素分配给其对应的解剖区域。围绕感兴趣体素的不同尺度的网络捕获信息的输入:3D和正交2D强度补丁捕获局部空间,而缩减大量2D正交片和距区域质心的距离从而强化全局空间一致性。与常用的分割方法相反,我们的技术不需要MR图像的任何非线性配准。为了对我们的模型进行基准测试,我们使用了MICCAI 2012针对多图册标签提供的数据集,该数据集由35个手动分割的脑部MR图像组成。我们获得了有竞争力的结果(平均相似性系数0.725,错误率0.163),显示了我们的方法的潜力。就我们所知,我们的技术是第一个使用深度神经网络解决整个大脑解剖分割的技术。

1.介绍

在神经影像学中的定量研究通常需要使用磁共振图像(MRI)对人脑进行解剖分割。例如,大脑某些解剖学区域的异常体积或形状已被发现与脑部疾病相关,包括阿尔茨海默氏病和帕金森病[10,18]。因此,MR影像分析对于检测这些疾病,监测其发展和评估可能的治疗方法至关重要。大脑的解剖分割需要分割协议定义了每个区域应该如何划分,以便所得到的分割在大脑之间具有可比性。然而,手动分割大脑是一个耗时且昂贵的过程,不适用于大规模应用。它的全自动化将使图像被采集后立即对MRI进行系统分割,这些潜在的好处促成了一个活跃的研究领域,这个领域现在主要分为基于多图和基于区块分割这两种方法。机器学习方法在于训练分类器以基于描述它的各种输入特征(例如其邻域)将每个体素(3D像素)分配给其解剖区域的强度或位置。

最近,深度神经网络,尤其是卷积神经网络已被证明是许多计算机视觉应用的最新技术(最著名的是2012年以来的ImageNet竞赛[12])。与注重特征提取的浅层分类器不同的是,深度学习方法直接从原始输入自动学习相关特征的层次结构[1]。受这些发展的启发,我们提出了一个深度人工神经网络,用于整个大脑的自动分割。本文组织如下:在第2节中,我们简要回顾了现有的分割方法和深度神经网络; 在第3节中,我们描述了我们提出的架构和算法; 第4部分介绍了MICCAI 2012数据集的应用;最后我们在第5节中进行讨论。

2.背景

给定特定的分割协议,自动分割大脑的3D MR图像包括将其所有体素分类到其对应的区域。在这项工作中,我们考虑将整个大脑(皮层和皮质下区域)分割成大量N个解剖区域,其中N由分割协议(通常大约100)定义。分割协议的知识通过一组手动标记的3D脑部MRI隐式给出。 图像集包含一幅MR图像及其相应的手动分割。

基于多图谱的方法(如[9,11])是广泛使用的方法。对于要分割的新查询图像,此类方法通常包含以下步骤:首先,选择与查询图像最相似的n个图集,并将其注册到查询图像;其次,将相同的注册转换应用于n个地图集的标签,并且这些标签被传播以产生查询图像的n个分段;最后使用融合策略合并分割。这些方法在很大程度上依赖于注册步骤,其中地图集非线性地注册到查询图像。全球仿射或严格的注册通常首先执行,然后进行局部非刚性注册。后面的注册步骤依赖于大脑足够相似以便从一个到另一个精确映射的关键假设。然而,这和脑序列与地图集中的局部区域十分不同的情况不一样(例如,如果受试者具有引起剧烈结构变化的神经退行性疾病)。此外,区域的边界可以通过强度对比清晰地识别,但是由分割协议任意定义的区域可能不太准确,这些错误将不可避免地对最终分割产生影响。注册通常是密集计算型的,这也是基于图谱的方法缓慢的原因。

在本文中,我们采用一种机器学习方法,其中,给定由多个地图集组成的训练集,训练模型以将每个体素分类到其对应的解剖区域。在本文中,我们采用一种机器学习方法,其中,给定由多个地图集组成的训练集,训练模型以将每个体素分类到其对应的解剖区域。特别是,我们调查表示学习(机器学习领域旨在自动提取数据的有用表示)的最新进展是否对分割问题有益。深度学习是表示学习的子领域,涉及学习数据的多级或分层表示,每个级别都基于前一个[1]。最近深度学习应用在很多医学图像分割问题的项目中,特别是卷积神经网络。其中包括了分割肺的方法[16],线虫胚胎[17],生物神经元膜[5],胫骨软骨细胞[19],骨组织[4]和细胞有丝分裂[6]等等。所有这些应用大多使用以卷积强度作为输入的二维卷积网络;偶尔空间一致性在第二阶段通过后处理计算,例如概率图形模型。尽管人们对医学成像的兴趣日益增加,但深层神经网络还没有考虑到整个大脑分割成解剖区域的问题。初始的工作是使用局部2D补丁作为输入来分割大脑的单个(中央)2D切片[14]。相比之下,我们的方法解决了整个3D大脑的分割问题并引入多尺度输入特征来强化分割的空间一致性。

3.网络结构

在本节中,我们将描述所采用的网络的输入和架构。

3.1输入特征

我们的目标是设计一种算法,将每个体素分为相应的解剖区域。 因此每个体素必须由一个输入向量来描述,这个输入向量是我们神经网络的输入。 输入的选择尤其重要,因为它应该尽可能简洁地捕捉足够的信息,主要是出于计算原因并避免过度拟合。 为了确保局部精度和整体空间一致性,采用了两种输入类型。

3.1.1保证局部精度的特征

对于每个体素,分割的局部精度由以下两个特征确保。 首先,以体素为中心的尺寸为atimes;atimes;a的3D片以高度细节捕捉局部信息。 其次,三维二维正交添加大小为btimes;b(分别从矢状面,冠状面和横向平面分别提取)的补丁,也集中在体素上,目的是捕获围绕感兴趣的体素稍微更宽但仍然局部的背景。这些正交补丁的使用可以被看作是单个2D补丁和3D补丁之间的折衷:它们捕获3D信息,但与密集的3D补丁相比,需要的存储器的存储量要小得多,从而允许使用更大的区块大小。

图1: MICCAI 2012数据集优化的SegNet架构。有8个路径,每路有一个输入特征。 底层(左侧)学习其输入特征的具体表达,然后将其合并为联合表达。 每个2DconvPool块表示一个卷积层,后面跟着一个池化层。颜色表示图层块共享相同的参数。距离质心的距离按照3.3节的解释进行估算。 此处显示的参数值(区块大小,尺寸,神经元数量)是为MICCAI应用选择的参数值,其中卷积层具有5times;5内核和2times;2最大共用窗口。 噪音层仅在训练期间被激活,并且该模型总共有30565555个参数

3.1.2保持整体一致性的特征

第二组输入旨在保持整体空间一致性。与非结构化分割任务不同,其中不同区域可以任意定位在图像中,解剖区域在所有主体中始终保持相同的相对位置。包括整体信息因此可能会产生额外的改进。一个明显的策略是简单地增加前面介绍的2D和/或3D补丁的大小,以跨越图像的较大部分并覆盖更远的解剖结构。但是,这会产生非常高维的输入,需要大容量的存储空间,并增加计算复杂度。相反,我们提取大尺寸的2D正交补丁,我们按照因子s缩小比例。如图2所示,缩尺运算通过平均尺寸为stimes;s的小方形窗口内的体素强度来简单地降低补丁的分辨率。更确切地说,如果sctimes;sc是原始全分辨率片的大小,则缩小的片具有尺寸ctimes;c。在神经网络术语中,这个操作相当于用步幅stimes; s均值池。结果,缩小的区块仍然像原始补丁一样捕获大部分的MRI,但分辨率较低。

图2:缩小后的区块包含了与原始补丁相同的MRI区域,但分辨率较低

除了体素强度之外,三维空间中每个体素的坐标也为解剖分割目的提供非常有用的信息。 然而,绝对坐标的使用是基于在共同参考空间中表示的个体脑部扫描来进行的,这反过来又需要对所有图片执行初始的通常非常耗时的配准。作为一种选择,我们试用从每个体素到N个质心的每一个的相对距离作为网络的附加输入。 图像I的区域l的质心c1 =(x1,y1,z1)被定义为该区域的所有均匀加权体素的质心:

其中表示属于区域l的所有体素的集合。 单个像素的距离d简单地取为欧几里得表示所有区域质心的体素给出了体素在图像中的位置以及它属于的区域的指示。与绝对坐标不同,这些距离对旋转和平移不变。到质心的距离对于通过两个质心之间的平均距离D定义质心和图像坐标时的脑部缩放也是不变的,定义为:

这强制两个质心之间的平均距离对于所有大脑都是相同的。 实际上,从体素到质心只有少量正确的距离足以精确地定位当前体素,但通过增加所有距离,我们增加了噪声的最终分割的鲁棒性,这由我们的实验结果证实。 虽然可以使用训练数据集精确计算这些距离,对于这些数据集,所有质心都是已知的,但在进行任何分割之前,它们在新大脑上是未知的。 为了解决这个问题,我们提出了一种两阶段算法,其中第一阶段提供大脑的分割而不使用这些距离,然后增加第二阶段的细化阶段以进一步改善分割; 更多细节参见3.3节。

3.2深度神经网络

我们提出的网络体系结构称为SegNet,如图1所示。它是一个通过堆叠K层人造神经元形成的前馈网络。 每个层都建立一个新的数据表示,其中神经元充当特征检测器。 递归地,更深的神经元学习检测由前一层检测到的新特征。 结果是更高层次的特征检测器。 这对于图像来说很自然,因为它们可以分解为边缘,图案,区域和区域本身。 我们让表示将l层的输入映射到其输出的函数。 然后,我们的体系结构正在表达一个定义为SegNettheta;(或更简单的SegNet)的函数:

这里代表了神经网络的参数,比如权值和阈值。

我们的网络体系结构有8种类型的输入功能和8种相应的路径,这些路径稍后在网络中合并。 最底层是特定于每种输入特征的,并且旨在学习专门的表示。 除了与质心的距离外,这些表示还分别由2D和3D卷积[13]和汇聚层[20]学习,分别表示为2DconvPool和3DconvPool。 在此体系结构的更高层,各个表示被合并为所有输入的共同表示。 进一步的层次学习更高层次的表示,从而捕捉不同输入要素之间的复杂关联。 这些表示是通过完全连接的层来学习的,表示为FullyCon。

3.2.1卷积层

二维和三维区块用卷积层[13]进行处理,目的是检测图像中不同位置的局部特征。卷积层的神经元仅基于输入的一个子集计算它们的输出,称为神经元的感受域。更确切地说,给定卷积层中的神经元仅依赖于空间上连续的层输入集合,在我们的情况下,体素强度的ttimes;t窗口。因此,每个神经元学习特定于其感受域的特定局部特征。这种局部连通性大大减少了参数的数量,从而大大减少了图层的过度拟合。除了本地连通性之外,卷积层还会强加称为特征映射的神经元组共享完全相同的权重值。更确切地说,卷积层可以被分解成几个特征映射,它们的神经元具有相同的权重并且仅仅因其感受域而不同。这意味着具有相同特征图的神经元从图像的不同接受区域检测相同的特征。局部连通性和权重共享约束可以简单地用卷积运算的和来建模。然后给出层1的特征映射k中的神经元的输出

其中*是卷积运算,是层l的特征映射k和层l- 1(卷积的核)的特征映射m的权重矩阵。 分别是2D或3D图像的2D或3D矩阵。 它的大小是特征映射中每个神经元的感受域的大小。 这里是图层l -1的特征映射m,是图层l的特征映射k的标量偏移。

3.2.2 最大池化层

我们的体系结构的卷积层之后是最大合并层[20],通过合并神经元组来减少特征映射的大小。 更确切地说,对于每个数据点,最大共层将特征映射上的方形窗口(在我们的情况下为ptimes;p)移动到窗口的每个位置上,选择最响应的神经元,其他神经元被丢弃。 最响应的神经元的输出指示特征图是否已经在合并窗口的接受区域中检测到其对应特征,该特征的精确感受野被丢失。 由于本地信息对我们的问题特别重要,我们只考虑小窗口。 合并图层的好处是它们显着减少了参数数量,使训练变得更简单并减少过度拟合。

.3.2.3全连接层

我们的神经网络结构的最后端是完全连接层,表示为FullyCon。 完全连接层l的输出向量由下式给出

这里是l层的输入,是这一层的激活函数。

3.2.4激活函数

除了最顶层以外,我们对每一个神经元用了相同的激活函数,它被定义为

具有整流功能的神经元叫做整流线性单元(RELU)。和大多数传统的sigmoid或者tanh函数不同,它不太容易出现消失的梯度问题,而这个问题已经阻止了几十年来深度网络的训练。

神经网络的顶层是一个softmax函数。如果是神经元r的输入,则神经元的输出为

Softmax函数把权值输入映射到0到1之间,输出可以表示为概率。在实际中,为了标注一个体素,我们会选择概率最大的那个结果。

共享最低层中的层块之间的权重(对应于三个正交2D块)和(对应于三个正交2D缩减块)的原因是我们相信网络学习的最低级特征的区块之间的操作应该相同。 这也将第一层中的参数数量除以二,这降低了过度拟合的风险。 在实验中,我们发现这个约束略微提高了性能。

3.3训练算法

我们首先设定训练集为,其中i,是已知的期望输出,向量中只有一个1,其余都是0,这个1代表了标注的位置。使用负对数似然误差函数来评估网络的性能,该函数被定义为

这里·是点乘的意思,是网络中所有的权值。将训练融入最小化中,该算法是通过随机梯度下降(SGD)算法实现的,梯度下降算法是常用于在大型数据集上训练大型网络的梯度下降算法的变体[3]。 在每次更新SGD算法中的权重时,不用考虑所有训练数据点来计算误差函数的梯度,而只使用一个数据点或一小批训练数据点。 我们还增加了一个动量项[21,22],因为它对梯度的方向进行平均,所以它在误差函数的长窄谷中特别有利。 如果表示在迭代t时更新权重,那么动量更新规则由下式给出:

这里和是学习速率和动量的衡量标准。

3.4质心的估计

由于分割是可行的,因此可以使用到质心的距离训练SegNet。但是,当我们考虑分割新的大脑时,我们不能直

全文共14418字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[13661],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。