第 1 章 绪论 1
1.1研究背景与研究意义 1
1.2国内外研究现状 2
1.2.1基于二维卷积神经网络的肺结节检测方法 3
1.2.2基于三维卷积神经网络的肺结节检测方法 4
1.2.3注意力机制在医学影像处理领域的应用 6
1.3本文的主要研究工作 8
1.4本文章节安排 9
第 2 章 相关理论基础 11
2.1卷积神经网络 11
2.1.1基本概念 11
2.1.2二维卷积神经网络 13
2.1.3三维卷积神经网络 14
2.2基于肺部 CT 影像的肺结节检测 15
2.2.1CT 影像成像原理 15
2.2.2数据集 17
2.2.3坐标系转换 18
2.2.4评价标准 19
2.3注意力机制 19
2.4本章小结 21
第 3 章 基于三维卷积的双分支肺结节检测方法 22
3.1引言 22
3.2本章方法 23
3.2.1双分支的网络结构 23
3.2.2加权注意力融合模块 24
3.2.3假阳性降低策略 25
3.3模型训练 26
3.3.1损失函数 26
3.3.2实验细节 26
3.4实验结果分析 26
3.4.1对比实验 27
3.4.2消融实验 28
3.4.3局限性 29
3.5本章小结 29
第 4 章 基于 CT 的多重注意力三维肺结节检测方法 30
4.1引言 30
4.2本章方法 30
4.2.1网络模型 31
4.2.2多重注意力模块 33
4.2.3假阳性降低模块 36
4.3模型训练 37
4.3.1损失函数 37
4.3.2实验细节 37
4.4实验结果分析 38
4.4.1对比实验 38
4.4.2消融实验 39
4.4.3局限性 41
4.5本章小结 41
第 5 章 总结与展望 42
参考文献 44
第 1 章 绪论
1.1研究背景与研究意义
癌症是全球公认的主要公共卫生问题之一[1]。在我国,肺癌是导致癌症患者死 亡的主要原因,在男性和女性间发病率和死亡率均居首位[2][3]。由于 70%的晚期癌症 患者未能及时获得有效的治疗,使得患癌病人五年生存率一直处于 10-16%的范围内。 然而,如果癌症在早期阶段被诊断出来,五年生存率可以提高到 52%[4]。近年来, 基于低剂量 CT 的肺癌早期检测已引起越来越多的关注,因为它有可能改善治疗效 果,提高生存率。研究表明,肺结节是大多数肺癌早期的主要特征之一[5]。
与此同时,2023年以来,世界各国进入了新冠(COVID-19)疫情的常态化阶 段。核酸检测虽然作为阳性诊断首选,但是需要投入大量人力,这一定程度增加了 因人群密度引起交叉感染的风险。而且核酸检测相比 CT 诊断,其获取诊断时间较 长,成本较高。此外,核酸检测的准确性有待提高,特别是对于无症状感染者,时 常出现假阴性或假阳性的情况。研究表明,在临床上, COVID-19 患者除了发热或 呼吸道症状外,在CT上还会表现为磨玻璃结节,因此将医学影像技术引入COVID- 19 的筛查中在很大程度上推动了患者以及疑似患者的确诊筛查和及时诊疗。
图 1-1 肺结节在 CT 中的示意图
放射科医生推荐了不同的成像方式来检测肺部结节,如计算机断层扫描
(Computed Tomography,简称 CT)、磁共振成像(Magnetic Resonance Imaging,简 称 MRI)和正电子发射断层扫描(Positron Emission Computed Tomography,简称 PET)。作为最敏感的成像方式之一,CT成像自身有很大的优势,如快速获取、成 本效益高且广泛使用。在医学上,肺结节被定义为不透明的圆形病灶,其直径至多 能够达到约 3 厘米[6]。此外,肺结节可根据其大小(大或小)、位置(边界是否清晰、 近胸膜或近血管)、形状(球状或不规则)、内部质地(固体、部分固体或非固体) 等进行分。患者在临床上接受CT扫描后,放射科医生应从众多图像中提取可疑的肺 部结节,并根据结节的信息(形态、形状和纹理特征等)提出恶性肿瘤的可能性。 这项任务是严谨且严格的,许多不稳定因素,如分心和疲劳以及专业经验的限制, 都可能导致对现有数据的误诊。因此,作为临床计算机辅助工具,需要自动的肺结 节检测和分类系统来克服这些困难,并协助放射科医生做出更为精确的判断。
然而,现有的肺结节自动检测方法虽然取得了一定的精度,但在多个方面仍存 在不足之处。首先,现有研究对于多任务的肺结节医学影像智能分析,多采用单一 任务的形式,少部分多任务的网络框架并没有做到任务间的相互促进机制。其次, CT 影像作为三维数据,其自身具有丰富的立体背景信息,大多数相关研究未实现对 这种空间上下文信息的充分挖掘。这些因素都导致了现有的网络框架精度不足,假 阳性较高的实验结果。因此,当前需要设计新型的网络结构,旨在深入挖掘CT序列 的空间上下文信息,并尽可能实现多任务之间的促进机制。
1.2国内外研究现状
计算机辅助诊断(Computer Aided Diagnosis,简称CAD)的概念最早由 Lodwick医生在20世纪60年代的工作中首次提出。得益于该领域的发展,20世纪 80年代开始,许多CAD方案被开发用于CT扫描[7]的检测和鉴别诊断,这些系统主 要包括诊断放射学和医学成像分析[8]-[11]等主要研究课题。很快,基于肺部医学影像 的CAD被美国食品和药物管理局(FDA)批准用于肺部CT研究中以检测实性肺结 节。早期的肺结节检测方法多使用手动提取特征,一定程度上还需要依赖于医生大 量的工作,而且经常受限于结节的大小形状的多样性。 Messay 等人[12]提出了一种完 全自动的算法,通过使用形态学操作和强度阈值来完成肺结节的检测和分割。在文 献【I3】中,Duggan等人利用基于全集分割的模块对肺部结节进行候选检测。Jacobs等 人[14]设计了一个框架,通过探索纹理表示和一组上下文特征来获得区域建议。
在引入医学图像处理的深度神经网络的推动下,众多适用于医学影像的代表性 功能网络被提出,如UNet++[i5]、V-Net[i6]、Attention UNet[17]和Dense-UNet[18],都衍 生出了大量的后续工作[19]-[28]。伴随着深度学习的飞速发展,大量学者开始使用卷积 神经网络进行肺结节检测研究,肺结节的检测也在效率和准确性上都得到了提高。 现有的检测架构由于使用数据的方式不同,进行卷积操作的方式也不相同,主要分 为两种,一种是基于二维卷积神经网络的肺结节检测方法,另一种是基于三维卷积 神经网络的肺结节检测方法。同时。随着计算机视觉领域发展的突飞猛进,注意力 机制在其中扮演着越来越重要的角色,不少学者将注意力机制引入到了医学影像处 理领域。作为本文的研究基础,本节也会对注意力机制在医学影像处理领域的研究 现状进行简要的阐述。
1.2.1基于二维卷积神经网络的肺结节检测方法
基于二维卷积神经网络的肺结节方法,其原理是将单个的二维 CT 切片作为输 入,使用二维卷积核在二维医学影像上滑动以进行卷积操作。因此这些方法一般针 对单一的切片或病例实例。朱辉等人[29]在传统的Unet基础上,在编码器中引入了扩 张卷积和密集连接块,为特征提取提供了多个尺度上的结节信息。马巧梅等人[30]在 提出了一种名为 RUnet 的网络。分别在跳跃连接中和上采样与下采样的卷积层中添 加残差块,对 Unet 进行改进,丰富结节特征的同时减弱了特征拼接造成的语义鸿沟。 Li等人[31 ]提出了一种以感兴趣区域(Region of Interest,简称ROI)为输入的肺结节 检测深度卷积网络,该方法放弃了传统的特征提取与选择的过程,利用了 ROI 的内 部区域和外部区域之间的关系,从而学习更多的鉴别知识来减少假阳性个数。同时, 系统基于ROI的中心而不是整个ROI区域来执行,所以没有必要获得CAD系统第 一步检测到的结节的确切边缘。Su等人[32]提出一个优化和加强的Faster-RCNN模型, 该模型通过参数优化和网络模型结构的改进,可以有效地提升模型的性能,并且通 过对框架和参数的分析,证明了这一优化方法的可行性,然后通过对网络的分析验 证了优化的有效性。最后,该研究对几种常见的目标检测方法进行了比较,并分析 了提出方法优势。Xu等人[33]将深度学习目标检测算法应用于肺部CT图像,并提出 了一种改进的 Faster R-CNN 算法来解决肺部结节检测过程中出现的一些问题。首先, 对图像进行诸如肺实质提取和图像增强的预处理。第二,使用可变形卷积来增强肺 结节对象的特征提取能力。第三,使用路径增强特征金字塔来提高小对象特征信息 的利用率。第四,对难以检测的样本使用硬样本挖掘进行重复训练,以增强模型检 测的稳定性。第五,使用 GIOU 损失来提高目标定位精度。经过多次实验,证明改 进后的模型在肺结节检测领域与原始模型和其他对象检测模型更具竞争力,实现了 90.7%的准确率和56.8%的召回率。Ahmed等人[34]整合了最先进的深度学习技术,包 括 VGG-16[35] 、 Resnet-50[36] 、 Mobilenetv3[37] 、 Faster-RCNN[38] 、 YOLOv3[39] 和
SSD[40],设计了多个自动CAD系统来检测和分类肺部结节。
二维框架的固有缺陷容易导致医学图像序列中结节的时空信息的丢失。一些方 法试图通过不同的结构来保留时空信息。 Setio 等人[41]提出了一种使用多视图卷积网 络的构建策略,从三维候选位置上以间距为 45°的九个不同方向的视图中提取二维 特征,每个方向上的特征提取后会送独立的二维卷积神经网络中,并在特征融合阶 段设计了三种方式分别进行实验。在文献[42]中, Xie 等人调整了 Faster-RCNN 的结 构,使用了不同尺寸的特征输入两个区域候选网络来获得候选结节。随后将相邻的 CT 扫描图输入到三个相同结构的检测模型中,然后合并输出结果以增强鲁棒性。赵 鹏飞等人[43 ]在候选结节提出阶段引入高斯分布和边缘检测技术,然后以10x10像素 大小的一倍、二倍和三倍的候选图作为输入图像,再将图像级联后进入一个多输入 的深度卷积框架进行结节检测和分类。 Yang 等人[44]提出了一种新的因果肺结节检测 算法Tau-CSFS,并结合秩相关方法。该算法能够有效挖掘服从非线性非高斯分布、 连续变量和离散变量混合的癌症数据之间的因果关系,具有良好的预测性能。首先, 该文献证明了不需要数据分布的Kendall秩相关系数可以作为独立性测试的标准。其 次,将Kendall秩相关应用于贝叶斯结构学习,并提出了一种新的因果发现算法:基 于假设检验的 Tau-CS 算法。此外,该方法将 Tau-CS 算法与特征选择方法相结合, 并进一步提出了 Tau-CSFS算法,解决了肺结节数据的因果关系挖掘和诊断检测问题。 在实验中,将Tau-CS算法与现有技术在7个贝叶斯网络上的加性噪声结构模型上进 行了比较,证明了该算法具有更好的因果结构学习精度。最后,在肺结节检测阶段, 使用处理后的 LIDC 数据集对七个语义类别进行两种分类和多分类实验, Tau-CSFS 算法的平均准确率达到85.84%和83.32%。
1.2.2基于三维卷积神经网络的肺结节检测方法
然而,由于CT影像实际上是一个具有时空线索的三维数据序列,基于二维卷积 神经网络的肺结节检测系统只能在一定程度上表示三维时空信息,而不能充分有效 地利用连续切片之间的三维背景信息。因此,近年来,研究人员对三维卷积神经网 络越来越关注[45]。基于三维卷积神经网络的模型是利用三维数据序列来学习三维卷 积核的时空特征,这有助于学习立体结节检测和并提高分类性能。在文献[46]中, Zhu等人以Faster-RCNN为基础网络,开发了一个结合了三维双路径网络(Dual Path Network,简称DPN)方法的U型结构。首先,该方法将三维肺部CT数据以 96x96x96的大小输入到三维DPN网络中,在编码器的每次下采样中嵌入三维DPN 块以学习高级特征。之后,所有的检测结果被结合起来以加强保真度。 Liao 等人[47] 探索了一种改良的三维 U-Net 骨干网络用于结核检测。其创新性地在编码阶段增加 了结节候选的裁剪位置信息(Crop Location Information),大小为32x32x3。在分类 阶段遵循这一结构,并与泄漏噪声或门机制(the Noisy-or Gate)合并,以更精确地 确定患者结节的恶性概率。文献[48]中,Zhu等人提出了一种弱监督学习(Weakly Supervised Learning,简称WSL)的结节检测框架,命名为DeepEM,旨在将电子医 疗记录(Electronic Medical Records,简称EMR)中的WSL标签应用在肺结节提出 中。 该方法基于三维卷积神经网络框架, 结合了期望最大化( Expectation Maximization,简称EM)算法。EM算法的基本原理包括三个步骤:首先根据已知 的数据和模型,估计出相关的参数;其次利用该参数计算出似然函数的预期值;最 终根据预测结果确定最优的参数,以实现最优的拟合效果。由于算法会保证在每次 迭代之后似然函数都会增加,所以函数最终会收敛。电子医疗记录中容纳了每张医 学影像携带的大量辅助诊断的部分信息,这篇文献结合了深度学习的诸多策略,研 究如何充分利用这一巨大的、尚待开发的数据库,以提高肺结节的诊断准确性和可 靠性。大量的实验结果表明, DeepEM 可以通过利用现成的弱监督检测数据来改善 现有的结节检测系统的有效性。虽然该方法是建立在肺结节检测的具体应用之上的, 但该框架本身是相对通用的,可以很容易地应用于其他医学影像深度学习应用,以 利用弱标记数据提升系统效果。 Hamidian 等人[49]使用从 LIDC 数据集提取的感兴趣 体积来训练三维卷积神经网络以自动检测胸部CT图像中的肺结节。然后,该方法将 具有固定视野的三维卷积神经网络(CNN )转换为三维全卷积网络(Fully Convolutional Networks,简称FCN),FCN可以大幅提升处理速度,使得它能够在一 次迭代中有效地生成整个体积的分类得分,这比传统的三维深度卷积操作的滑动窗 口方式快了近800倍,从而大大提高了病例分类的效率。该筛选FCN用于生成困难 的否定实例,同时训练新的判别 CNN。
最近, Mei 等人[50]在原始非局部模型的基础上在通道维度上进行了优化,设计 了一种切片分组的非局部(Slice-Grouped Non-Local,简称SGNL)模型,可以学习 跨切片的任何元素之间的显式相关性。SGNL模块与三维区域提议网络(Region Proposal Network)相结合,旨在获得不同维度之间的长距离依赖关系(Long-range Dependency)o此外,文中还提出了一个大型肺结节分类数据集PN9,对肺部结节进 行了九个类别的划分,其包括八千多个 CT 扫描数据,四万多个肺结节。在文献[51] 中, Song 等人探讨了一个基于三维球体表示的中心点匹配网络。其创新点包括两个 组成部分:球体表示和中心点匹配。首先,为了与临床实践中的结节注释相匹配, 该文提出的边界球体取代了常用的边界盒,用三维空间中的质心、半径和局部偏移 来表示结节。引入了一个基于兼容球体的相交过度联合损失函数来稳定有效地训练 肺部结节检测网络。其次,该方法通过设计一个积极的中心点选择和匹配中心点 (Center-Points Matching,简称CPM)过程,使网络无锚点,从而自然地抛弃了预 先确定的锚点盒(anchor box)。随后,在线难样本挖掘和再聚焦损失使CPM过程更 加稳健,导致更准确的点分配和缓解类不平衡。此外,为了更好地捕捉检测的空间 信息和三维背景,将多级空间坐标图与特征提取器融合,并与三维压缩和激发
(Squeeze-and-Excitation)注意力模块相结合。在文献[52]中,Farhangi等人利用深度 学习策略,通过减少假阳性任务来指定训练计划,将训练样本以有意义的顺序提交 给网络以进一步提高性能,缓解了肺结节检测过程中筛查阶段获得样本的难度。此 外,该方法从感兴趣体积(Volume of Interest)内的二维切片中提取多尺度背景信息。 随后,通过对各切片进行一维卷积,以切片级(Slice-wise)的方式聚集平面内的特 征,并对整个体积内的信息进行编码。Zhao等人[53]从3D-CNN中间层和上采样提取 的高分辨率特征,用于结核锚定预测,因为它包含更详细的几何信息。高分辨率特 征与深层语义特征的融合可以有效地提高检测结果。该文章提出了一个注意力 3D- CNN 模块,包含频道注意力和空间注意力两部分,旨在抓取全局信息和空间信息
(位置和空间约束)。该模块有效地提高了候选结节检测的灵敏度,特别是对于小结 节检测。在假阳性减少阶段,提出了一种自适应Res类3D CNN框架来提取判别特 征,该框架使用三种大小的数据作为输入来编码多级上下文信息。此外,小尺度之 外的更多上下文信息通过尺度之间的定向连接被整合。
1.2.3注意力机制在医学影像处理领域的应用
医学图像,如 CT、 MRI、 X 射线等,为医生进行医学辅助诊断提供了关键信息。 作为对人类视觉注意力的模拟,在医学图像处理中,注意力机制已经得到了普遍的 应用,并获得了明显的改善性实验结果[54]-[60]。Jo等人I"]提出了一种用于医学影像分 析的注意力门(Attention Gate,简称AG)模型,AG可以自动学习并跟踪不同尺寸 和形态的目标。而通过 AG 训练的模块可以隐式的抑制目标输入信号中的不相关部 分,并突出对某些目标有用的显著特性。这也使得神经网络可以在应用于卷积型神经 网络之后,减少了应用显式的组织/器官定位功能的需求。AGs训练能够非常方便地 整合在标准的 U-Net 框架上,从而产生最少的系统开销,并增强了系统的敏感度和 预测准确性。在文献[62]中, Li 等人为了利用各种特征图的相互依赖信息提取,设计 了一个具有编码器-解码器结构的三维卷积框架来学习有效的图像特征,并在卷积阶 段嵌入了几个压缩和激发(squeeze-and-excitation)残差块。特别是,该框架利用动 态缩放的交叉熵损失函数来降低假阳性率,并解决与结节检测相关的样本不平衡问 题。
最近,Gu等人[63]针对器官分割目标的位置、形状和规模有很大的变化和现有的 神经网络的解释性很差等问题,广泛引入了多种常用的基于深度卷积的注意力,并 设计了一个基于综合注意力的深度卷积架构,命名为CA Net,以进行更加精确和可 理解的医学图像分割,并行关注了关键的空间信息、尺度信息和通道信息。具体而 言,该框架设计了一个联合空间注意力模型,使得前景信息被突出提取。然后,该 文献提出了一种全新的通道注意模块,它能够自动调整校正通道特征,并将其中最 重要的特征集中。此外,还提出了一个尺度注意模块,隐式地强调多个尺度中最显 著的特征图,以便卷积层适应对象的大小。Cheng等人[64]创建了一个类似ResNet的 网络,称之为ResGANet。该方法将特征图分为若干组,并强调组内任何两通道图之 间的通道依赖性。同时,分组提取特征之间的关联信息,得到空间注意图。更具体 地说,首先,在输入数据时把每组沿着特征图的通道方向分成四个子组。然后,将 特征转换后的特征图发送到通道注意模块,以获得具有相同组数的通道注意图,并 对所有分组的注意图进行加权求和。最后,利用特征的空间关系对每个位置的特征 进行聚合,以保证相似的特征在空间大小上相互促进。这个单元被称为分组注意块, 具有高度的模块化和功能化。因此,ResGANet可以处理不同的医学图像数据,而且 ResNet 的参数数量更少,它不仅在医学图像分类任务中表现良好,而且也很容易作 为医学图像分割任务的基础。由于不规则的形状和模糊的边界,从CT切片分割感染 区域仍然是一个挑战。为了解决这些问题,Wang等人[65]提出了一种新的新冠肺炎病 灶分割网络,称为空间自注意力网络(SSA-Net),用于从胸部CT图像中自动识别 感染区域。在设计的 SSA-Net 中,通过从深层提取有用的上下文信息而无需额外的 训练时间,利用自我注意机制来扩展接受域并增强表征学习,并且引入空间卷积来 增强网络并加速训练收敛。此外,为了缓解标记的多类数据的不足和训练数据的长 尾分布,该文献还提出了一种基于重新加权损失和高置信度选择预测值的半监督少 镜头迭代分割框架,该框架可以用少量标记的图像数据准确地分类不同类型的感染。 实验结果表明, SSA-Net 优于最先进的医学图像分割网络,并提供了临床可解释的 显著性图,这对新冠肺炎的诊断和患者分诊非常有用。Georgescu等人[66]提出了一种 用于超分辨率 CT 和 MRI 扫描的新型多模态多头卷积注意模块。这种注意力模块使 用卷积运算对多个级联输入张量执行联合空间信道注意力,其中卷积核(感受野) 大小分别控制空间注意力的减少率,卷积滤波器的数量分别控制信道注意力的减少 速率。该方法引入了多个注意力头部,每个头部具有不同的感受野大小,对应于空 间注意力的特定减少率。文献中作者将多模态多头卷积注意力(MMHCA)集成到 两个用于超分辨率的深度神经架构中,并在三个数据集上进行实验。这些研究充分 证明了注意力机制在医学图像分析领域的有效性。
1.3本文的主要研究工作
在临床上,肺结节的自动检测仍然是一个难以解决的问题,因为那些存在于肺 实质或胸壁上的结节很难从阴影、背景噪音、血管和骨骼中视觉上区分出来。本文 在三维的CT图像上进行了肺结节检测的方法研究,结合临床先验知识和CT数据特 性,旨在提高肺结节检测的敏感度和稳健性。本文的研究内容和创新点总结如下: (1)临床医生在进行医学诊断时,会首先关注肺部结节的强度线索和轮廓特征, 从而定位结节的具体空间位置。根据这一临床先验知识,本章提出了一种高效的多 任务和双分支三维卷积神经网络结构,称为DBPNDNet,用于肺部结节的检测和分 割。在双分支结构中,一个分支被设计用于肺结节检测的候选区域提取,而另一个 纳入的分支被用于肺结节的病变区域语义分割。同时,根据医生的诊断观点,开发 了一个三维注意力加权特征融合模块,使设计的分割分支获得的捕获信息能够进一 步促进所采用的检测分支的效果。同时提出了假阳性降低策略,开发了一个三维显 著区域汇集层,用于改善产生狭窄感受野的特征图。该策略分享了几个特征提取模 块,旨在确保网络拥有一个狭窄的感受野,用于捕捉细致的特征表示。其从本质上 区别于区域候选,促进了肺结节检测的稳健性。在常用的医学图像分析数据集上进 行了实验和评估,实验对比表明,所设计的框架优于其他典型的主流方法。
(2)在传统的临床实践中,由于 CT 扫描的丰富时空背景信息,医生总是寻求 CT 图像的多个连续切片之间的相关性,以确定肺部结节的具体位置,从而进行疾病 诊断。为了在CT扫描中通过自动肺结节检测实现智能辅助诊断,充分利用临床经验 的这一独特时空特征,在这项工作中开发了一个3D多重注意力卷积神经网络,命名 为3DMNet。并设计了一个3D多重注意力模块来模拟医生的临床诊断过程,该模块 利用CT切片的时空视图在多维方向上的注意力增强,旨在从多个方向上整合时空上 下文信息。设计了新的损失计算方法,同时应用了假阳性降低策略。通过OHEM损 失计算方法,可以有效地调节阳性和阴性样本的权重,改善了正负样本数据分布不 均衡的问题,并且可以有效地学习到正样本和难分类样本的特征,进而大大提高网 络模型的泛化能力和分类准确率。
1.4本文章节安排
本文设置六个章节对论文内容进行介绍,详细安排如下:
第一章 绪论。主要介绍了肺结节检测诊断技术的研究背景,结合国内外研究现 状,详细介绍了基于二维卷积神经网络的肺结节检测方法、基于三维卷积神经网络 的肺结节检测方法和注意力机制在医学影像处理领域的应用,深入分析了现有方法 的优势与存在的问题。基于这些问题提出了本文的主要研究工作。最后介绍了本文 具体的章节安排。
第二章 相关技术介绍。本章首先简述了卷积神经网络的发展,介绍了二维和三 维的卷积神经网络,并对多通道的二维卷积神经网络和三维卷积神经网络进行了区 分。其次介绍了 CT 的基础知识和成像原理,随后展示了本文选用的公开数据集 LUNA16 的组成、官方提供的评价标准及使用数据时应进行的坐标转换问题。最后, 本章对注意力机制的技术进行了初步的解释,为本文后续提出的方法与结果讨论奠 定了基础。
第三章 基于三维卷积的双分支肺结节检测方法。提出了一种高效的多任务双分 支3D卷积神经网络结构,用于肺结节检测和分割。在双分支结构中,一个分支被设 计用于肺结节检测的候选区域提取,而另一个合并分支被用于肺结节的病变区域语 义分割。同时,本章根据医生的诊断视角开发了一个3D注意力加权特征融合模块, 从而使所设计的分割分支获得的捕获信息能够进一步相互促进所采用的检测分支的 效果。并提出了一种假阳性降低策略,目的是最小化结节检测网络中的损失函数。 随后,阐述了实验的细节和训练中使用的损失函数。此外,本章详细列举并分析了 对比实验和消融实验的结果,展示了所提出方法的优越性和有效性。最后进行了设 计局限性的讨论,为后续的工作指明了工作方向。
第四章 基于 CT 的多重注意力三维肺结节检测方法。开发了一个 3D 多注意力 卷积神经网络,并设计了一个3D多注意力模块来模拟医生的临床诊断过程,该模块 利用CT切片的时空视图在多维方向上的注意力增强,旨在从多个方向上整合时空上 下文信息,将注意力机制和肺结节检测融合,发挥了不错的效果。其中,重点介绍 了提出的网络框架与多个维度上的注意力模块,并探究了注意力融合方式和损失函 数的设计。通过大量的对比实验和消融实验结果,分析了本方法的优越性和有效性。 最后,进行了网络设计不足的讨论,找到了后续工作的改进方式和研究方向。
第五章 总结与展望。总结全文研究工作,并对论文的创新点总结说明。最后展 望肺结节计算机辅助检测技术的发展。
第2 章 相关理论基础
本文主要探究基于卷积神经网络的肺结节检测方法,为方便后续讨论,本章简 要阐述了卷积神经网络的基本概念、肺部医学影像的基础知识以及注意力机制的技 术理论。
2.1卷积神经网络
2.1.1基本概念
卷积神经网络(Convolutional Neural Networks,简称 CNN 或 ConvNets)是一种 人工智能模型,通常由卷积层、激活函数、池化层等结构组成,在计算机视觉中得 到了广泛的应用。有别于其他神经网络模型,其最主要的特点是卷积运算操作。与 传统手工设计的图像处理方法相比, CNN 通过反向传播可以自动地训练并优化滤波 器(卷积核)。CNN的基础架构包括输入层(Input Layers)、卷积层(Convolutional Layers)、池化层(Pooling Layers )、全连接层(Full-connection Layers)及输出层 (Output Layers),共同组成了 CNN的复杂系统。为了提高模型的准确性,可以使 用多个池化层和卷积层来处理复杂的问题。这些深度卷积层可以是单独的,也可以 是由多种层组合的。通过将这些卷积层相互连接,最后把输出结果转换成模型的输 出。下图举例说明了一个用于图像分类任务的卷积神经网络基本结构示意图。
卷积层1 池化层1 卷积层2 池化层2 全连接层1全连接层2
基础的CNN包含以下基本概念:
( 1)输入层
CNN在图像处理技术的输入层通常由一系列的像素矩阵组成。例如,RGB成像 模式下,输入层为三维矩阵,其长度和宽度反映了图像的尺寸,而深度则表明了图 像的颜色信息。黑白成像的深度等于1, RGB成像下等于3。
(2)卷积层 卷积层是一种特殊的神经网络结构,它能够从输入数据中提取出有用的特征, 其中包含多个卷积核,每个卷积核内含多个权重(Weight)系数和偏差量(Bias), 这些卷积核如图一个神经元(Neuron),可以帮助我们理解和处理输入数据。每个卷 积层神经元都与前一层中相邻的神经元相连,这些神经元的大小取决于卷积核的大 小,这种感受野(Receptive Field)可以被比作视觉皮层细胞的感受野[67]。当进行卷 积时,卷积核会根据预先设定的条件对输入数据进行扫描,将这些信息转换成矩阵 元素,然后通过乘法运算来计算出最终的结果,并且可以通过添加偏移量来进一步 优化模型。通常,卷积层的基本构成要素包括:卷积核的大小、步长和填充,它们 共同决定了最终输出结果的尺寸,也是网络的超参数[68]。卷积核的大小可以设定为 不超过输入图像的尺寸,这样就能够依照数据大小和实际任务,更有效地提取出更 多的输入特征[68]。此外,步长对卷积的性能有着至关重要的影响,当将其设定为一 时,卷积核将从每个特征图的元素开始,依次进行卷积操作;而当步长设定为 n 时, 它将从每个特征图的元素之间跳转n-1个像素[69]。根据卷积核的交叉相关计算,随 着卷积层数的增加,特征图的尺寸会将不断变小,因此,采用填充技术来弥补这种 客观尺寸变化带来的不利影响,通用的一般有两种:0填充与重复边界值填充
( replication padding)。
( 3)池化层
卷积层进行特征提取后,所得到的特征图通常将输入到池化层进行池化操作。 具体而言,它可以根据特征图中某一位置的相邻区域的总体统计特征,以及预先设 定的池化函数,对特征进行选择和信息过滤,从而实现对特征的有效处理。常用的 池化操作包括平均池化(Average Pooling)>最大池化(Max Pooling)等。简单而言, 就是在该区域上指定一个值来代表整个区域。在池化层中,其超参数与卷积层的设 定基本一致,主要包含池化大小、池化步长和填充。因此,池化操作常被看作是一 种特殊的卷积操作。
( 4 )全连接层
在卷积神经网络中,全连接层与传统的隐藏层相似,其作用也基本相同。卷积 神经网络中的全连接层位于隐藏层的最后一个部分,仅能够将输入的信息转换后输 出到其他全连接层。全连接层将特征图的空间拓扑结构转换成向量,然后再利用激
活函数[68]来处理。根据表征学习的理论,卷积神经网络的卷积层和池化层可以从输 入信息中抽取出相关的特征,而全连接层的功能在于将这些特征通过非线性的方式 结合起来,从而实现最终的学习结果。因此,全连接层未被认为拥有特征提取的潜 力,只是在尝试利用已有的高级特征来实现预定的学习目标。
( 5 )输出层
在卷积神经网络中,输出层通常位于整个网络的底部,全连接层的下游。因此, 其结构和工作原理与传统的前馈神经网络输出层非常相似。当需要进行图像分类时, 输出层可以使用逻辑函数或归一化函数(如So仕max)来生成分类标签。在目标检测 (Object Detection)任务中,输出层可以用来提供物体中心的精确位置、目标尺寸 以及对应的分类信息。此外,在图像语义分割过程中,输出层还可以根据每个像素 的值,生成对应的分类结果。
1998 年, Yann LeCuu等人[70]设计了一个基于梯度学习的卷积神经网络,命名为 LeNet,这一算法在手写数字字符识别领域取得了优异的效果。海量的学者在此基础 上,将卷积神经网络改进并主要应用于二维图像上。随着数据存储技术的快速发展, 产生的复杂数据如视频、彩色图像和医学影像,难以简单地使用交替的二维卷积操 作进行深入研究。而三维卷积神经网络的出现解决了这一问题,它不仅具有独特的 三维卷积和三维池化操作,而且能够更加准确地建模时空信息,使其成为时空特征 学习的理想选择。因此,三维卷积神经网络在时空特征学习中发挥着重要作用,它 可以有效地提高学习效率,并且可以更好地满足实际应用的需求。下面对二维卷积 神经网络和三维卷积神经网络进行简单阐述,并讨论二者区别。
2.1.2二维卷积神经网络
二维卷积神经网络(2D CNN)是卷积神经网络的重要分支,其在图像分类、图 像去噪、机器翻译、语音识别等领域被广泛采用。顾名思义, 2D CNN 在卷积层上 进行二维卷积操作,并添加一个加性偏置项,随后将结果输入到已拟定的激活函数
中。以特征图(Feature Map )中的位置(x, y)为例,上述传递过程可表示为:
其中,以,y表示特征图在位置(X, y)的值,S(.)表示激活函数,k表示卷积核的大小, wmn和b分别为可训练的参数矩阵和偏置项。
2.1.3三维卷积神经网络
二维卷积网络中,由于其在二维的特征图上进行卷积操作,因此仅能在两个维 度上计算特征。在视频分析中,为了捕捉多个连续帧中的运动信息, 2D CNN 需要 进行卷积操作,但这会导致输入信号的时间信息丢失,从而影响最终的分析结果[71]。 同样地,在医学影像的应用中,对于立体的数据如CT序列,进行二维卷积也会丢失 大部分空间维度的信息,导致预测精度的失准。因此,三维卷积神经网络(3D CNN)
应运而生,以更好地提取时空维度的信息,随后便广泛应用在医学影像处理、视频 分析以及三维点云等领域。 3D CNN 使用三维卷积核,通过将数据视为立方体来实 现三维卷积。为进一步阐述,以特征图中的位置(x, y, z)为例,上述传递过程可表
示为: 以,y,z = ^(Sp=0 Sm=0 Sn=0 ^mnp^x+m,y+n,z+p + b), (2.2)
其中,以,y,z表示特征图在位置(X, y, z)的值,S(.)表示激活函数,k表示三维卷积核 的大小,wmnp和b分别为可训练的三维参数矩阵和偏置项。
针对三维数据进行二维卷积时的信息丢失问题,部分学者提出了一种多通道的 二维卷积[72],以达到三维卷积的效果,这种方法也被称作“伪 3D 卷积”。多通道二 维卷积本质上仍是二维卷积,其操作是将二维卷积核按照输入的三维数据深度,采 用相同数量的卷积核进行级联,神经网络的输出仍为二维的特征图。而 3D CNN 的 三维卷积核不必局限于输入的数据深度,且输出为三维的特征图,便于后续的任务 实现。图 2-2 依次形象地描述了二维卷积、多通道二维卷积和三维卷积,使得三者 的区别更加容易理解。
图 2-2 多种卷积结构对比图
如图2-2所示,对于深度为L的三维数据,三维卷积操作可使用小于L的d作 为卷积核的深度,且输出仍为三维特征图。而多通道二维卷积则必须级联 L 深度的 二维卷积核,而输出为二维特征图。因此, 3D CNN 对于三维数据的处理具有先天 的优越性。
2.2基于肺部 CT 影像的肺结节检测
2.2.1CT影像成像原理
计算机断层扫描(CT)显示的是人体某个断面的组织密度分布图[73]。CT扫描 通过 X 线的照射来获取信息, X 线的强度会随着受检层的细胞、器官及病理状态的 密度(原子序数)增加而逐渐降低,从而使X线的衰减更加明显。通过使用X射线 探测器,我们可以获取人体不同部位 X 射线的衰减数据。这些数据经过计算机处理, 生成数字矩阵,并使用数模变换将其转换为灰色图像。CT扫描技术拥有出色的分辨 率,并且不受断层和其他组织结构的影响[73]。为便于理解,下面介绍 CT 影像的几 个基本要素:
(1) 体素(voxel)和像素(pixel): CT扫描技术可以将人体的某个特定部位 的结构和功能进行准确的检测。每次扫描将结构划分为若干个小的基础单元,每个 单元内的物质密度用一个数值来表示,这些小单元就是体素。扫描后得到的CT图像 也可以通过这样的小单元来表示,也就是像素。影像面积固定时,像素的大小决定 了图像的分辨率,同时可以用来描述整个结构的细节和功能。二者的关系为,像素 是体素在成像时的表现[73]。
(2) CT 值: X 线衰减度是指某组织对 X 线的吸收程度,它可以通过 CT 值来 衡量,单位为亨氏单位(Hounsfield unit,简称Hu)。通常情况下,水的CT值默认 是OHu,而骨皮质的CT值则可能达到1 OOOHu。CT值的范围可以划分为二千个等 级,其中,最大的等级是骨骼的CT值(lOOOHu),而最小的等级则是空气的CT值
(-lOOOHu)。这些等级涵盖了从最高密度(骨皮质)到最低密度(器官内含有气体) 的 CT 值。
CT值C的计算公式如下:
C= ^2^x 1000, (2.3)
“W
其中,咖表示该物质的吸收系数,皿表示水的吸收系数(规定为1),空气的吸收系 数为 0,骨的吸收系数约为 1.9~2.0。表 2-1 展示了由此公式计算的一部分常见物质 及人体组织的 CT 值。
表 2-1 常见物质的 CT 值对照表
物质 CT 值(Hu)
空气(真空) -1000
脂肪 -100
肺 -700〜+500
水 0
肌肉 +35〜+55
血液及血块 +13〜+75
骨骼 +400~+3000
(3) 窗宽和窗位:窗宽是指荧屏图像上包含的16个灰阶的CT值范围[73]。人体 组织的 CT 值涵盖 2000 个分度(-1000~+1000),这些分度之间的差异很微弱,以至 于人类的视觉无法完全感知到这些细微的变化。因此,窗宽可以被定义为一个特定 的CT值范围。使用十六个灰阶可以清晰地表现二千个分度,但当CT值的差异低于 125Hu 时,将无法准确地区分两种组织。为了更好地展现出组织的细微变化,需要 使用不同的窗口大小,以便更加清晰地观察荧幕上的图像。例如用窗宽 100,可分 辨的CT值为6.25Hu( 100/16),即组织的CT值差别只要大于6.25Hu就能分辨。窗 宽对图像的对比度有直接影响。如果窗口宽度增大,图像层次会变得更多,组织对 比度会降低;相反,如果窗口宽度缩小,图像层次会减少,对比度会增加[73]。
窗位,也称为窗中心,是指在观察某一组织结构的细节时,以CT值作为中心观 察。例如,脑CT值通常为35Hu,而窗宽通常为100Hu,在图像上十六个灰阶CT 值的范围就是-15〜85Hu。当CT值低于-15Hu时,图像的灰度与-15Hu相同;当CT 值高于85Hu时,图像的灰度与85Hu相同,而当CT值介于-15Hu到85Hu之间时, 组织则以十六个不同级别清楚地显示出来。当窗宽被提升时,荧幕上的图像将变得 更加暗淡,反之,则会变得更加明亮。
(4) 矩阵:矩阵是一种数学概念,它可以将受检断面分割成若干个小立方体, 这些小立方体就是体素[73]。当图像面积保持不变时,像素越小,矩阵就越大,从而 使对应 CT 图像的清晰度和分辨率得到提升。
(5) 空间分辨率:当确保足够的密度差时,显示待分辨组织几何形态的能力反 之亦然。通常会使用单位长度(cm)内的线对数或者使用可以识别的最小物体的直 径(mm)来表示。当确保足够的密度差时,系统就可以清晰地展现出待检测的结构 的几何形状。
(6) 密度分辨率:指能够准确地识别出两类组织之间最低密度的差异。
了解到基本概念后,CT影像的基本成像原理[73]如下所示:
(1)当X线扫描线穿过人体时,由于被人体吸收,X线的强度会随着原子序数 的增加而逐渐降低,这种衰减的程度取决于受检者的身体结构、器官以及疾病的严 重性。当X线探测器组合接收到衰减的X线信号(X线光子)时,它们会利用闪烁 晶体、光电管以及光电倍增管的原理,将无法直接观察到的 X 线转化成可以直接观 察到的X线,并且通过光导管的聚焦,使X线能够在特定的区域内传播,从而达到 更准确的诊断效果。通过使用光电倍增管,我们可以将光能量转换成电能,从而实 现放大。最后通过模—数转换器,将输入的电信号转换为可以被检测到的数字信号, 送入计算机。
(2)扫描数据处理和重建图像 通过计算机处理,重建输入的原始图像并进行校正。
(3)图像的显示及存储 通过计算机的处理,可以将图像中的数据转化为不同颜色的光点,并通过荧光
屏显示或拍摄成照片。此外,还可以使用打印机将这些数据打印出来,并将其存储 在磁带、光盘和软盘上。
2.2.2数据集
在2016年的Lung Nodule Analysis比赛上,LUNA16[74]数据集被提出,它收录 了八百八十八张 mhd 格式的低剂量肺部 CT 影像,这些影像由一系列的胸腔轴向切 片组成。由于扫描技术、扫描层厚度以及受检者的特征,所产生的三维影像中所包 含的切片数量存在差异。这些三维影像中,每张图像都由多个胸部的轴向切片组成。 LUNA16 取自最大公开肺结节数据集 LIDC-IDRI[75] ( The Lung Image Database Consortium ,它包括1018个低剂量的肺部CT影像。简述二者关系,即LIDC-IDRI 删除了切片厚度大于3mm和肺结节小于3mm的CT影像后,剩下的就是LUNA16 数据集。该数据集由Kaggle在LUNA16挑战的方网站上公布,文件内容包括:
(1)subset.zip:包含所有CT图像的10个压缩文件,数据格式分别为“ .mhd” 和“.raw”。其中,raw文件为采集的原始CT图像的像素数值信息。mhd文件主要 交代了 raw 文 件 的 详 细 头 部 信 息 , 如 原 点 坐 标 ( Offset )、 像 素 间 隔 (ElementSpacing)、数据的大小(DimSize)、对应的raw文件索引(ElementDataFile) 等,可用于后续进一步的图像转换和分析。
(2) annotations.csv:包含1186个肺结节的信息,内有字段:患者ID信息 (seriesuid)、医生标记的结节位置坐标(coordX,coordY, coordZ)、结节的直径数
据( diameter_mm)。
(3) candidates.csv:包含551065条数据,用于结节分类。其中,1351条为正 例(class=1),其它均为负例(class=0)。
(4) sampleSubmission.csv:提交到挑战赛的正确文件格式示例。
ObjectType 二 Image
NDims = 3
BinaryData = True
BinaryDataByteOrderMSB = False
CompressedData - False
TransformMatrix =100010001
Offset = -163.199997 -145.5 -380
CenterOfRotation = 000
AnatomicalOrie ntati on = RAI
ElementSpacing = 0.73242199420928955 0.73242199420928955 1.25
DimSize = 512 512 305
ElementType = METSHORT
Eleme ntDataFile =
1.3.6.1.4.1.14519.5.2.1.6279.6001.153985109349433321657655488650.raw
图 2-3 mhd 文件示例图
2.2.3坐标系转换
CT影像主要建立在世界坐标系上,即经典的笛卡尔坐标系,每张CT具有唯一 的世界坐标体系来定义位置和方向,如上文提及的 mhd 文件中就存储了每张 CT 影 像的原点坐标(Ofset)和像素间隔(ElementSpacing)。当对医学影像进行图像处理 操作时,为了便于后续的工作开展,通常会将它的世界坐标转换为图像坐标,即规 定原点位于左上角且为零,分别以此原点建立横、竖、纵三个坐标轴。需要注意的 是,基于世界坐标的原始医学影像建立于体素之上,而图像则建立在像素之上。因 此,在坐标转换的过程中,需要通过像素间隔同时完成对像素的转换。某点的转换 过程可以由以下公式给出:
worldCoord-origin
voxelCoord = , (2.4)
Spacing
其中voxelCoord表示图像坐标,wo代dCoord表示世界坐标,origin和Spacing分别 表示原点坐标与像素间隔。
2.2.4评价标准
为了更加直观地与现有相关工作的效果进行比较,本文使用了由 LUNA 挑战赛 官方给出的CPM分数和FROC曲线来进行指标的衡量。其主要有以下的基本概念组 成:
(1)真正例(True Positive,简称TP):分类器预测结果为正样本,实际也为正 样本,即正样本被正确识别的数量。
(2) 假正例(False Positive,简称FP):分类器预测结果为正样本,实际为负 样本,即误报的负样本数量。
(3) 真反例(True Negative,简称TN):分类器预测结果为负样本,实际为负 样本,即负样本被正确识别的数量。
(4) 假反例(False Negative,简称FN):分类器预测结果为负样本,实际为正 样本,即漏报的正样本数量。
(5) 灵敏度(Sensitivity):分类器预测的灵敏度代表着分类的准确性,如公式 2.5 所示。
TP
Se曲旳呵=济, (2.5)
(6) 假阳性率(False Positive Rate,简称FPR):分类器预测的每个样本中假阳
性的个数,如公式2.6所示。
基于上述基础,CPM分数的计算公式如下:
Y 料 G{o,o.i2 5,o.2 5,o.5,i,2,4,8} SwnsitiuityF=n
M ,
其中M等于7,即7个预定义的假阳性个数的阈值:0、0.125、0.25、0.5、1、2、4 和8,单位为(FPs/scan,即每张CT上的平均假阳性数量)。Sensitivity和F分别表 示灵敏度与假阳性率。因此, CPM 分数被定义为在规定的假阳性阈值上,每次扫描 的平均灵敏度。
同样的, FROC 曲线更直观地展示了肺结节检测系统的效果。其横轴为预定义 的七个FPs/scan,纵轴为灵敏度。
2.3注意力机制
注意力机制(Attention mechanism )是指人眼在开阔的范围内,由于视野的限制, 通常会更加关注重要的区域或感兴趣的区域。随着卷积神经网络的兴起,注意力机 制已经被广泛应用于计算机视觉领域中的各个方面。这一发现随后被应用于自然语 言处理(Natural Language Processing)领域,在文献[76]中,Bahdanau等人通过分配 再计算词语的相关性以提升翻译能力。其最主要的思想是键值对(Key-Value)注意 力,提出了三要素:查询(Query,简称Q)、键(Key,简称K)和值(Value,简 称V)。通过Query与Key的相关性,实现对Value的注意力权重分配,生成最终的 输出结果。这一过程可简述为以下步骤:
( 1)输入 Q、 K、 V 三要素;
(2)通过 Q 和 K 的比较,可以计算出它们之间的相关性/相似度,这种方法通 常采用点乘法来衡量,获取注意力得分;
(3)通过 softmax 函数对数据进行归一化,从而获得权重系数;
(4)根据权重系数对V进行加权求和,得到注意力的最终值。
图 2-4 键值对注意力机制示意图
基于传统的注意力机制,Vaswani等人[77]提出了一种自注意力(Self-attention) 机制,通过将Q、K、V限制为同源输入,使得权重以参数矩阵形式进行共享,矩阵 计算很好地解决了并行计算的问题,并引入了长距离依赖(Long-range Dependency ) 的概念。由于所需计算均为矩阵运算,自注意力的计算可以通过以下公式简化表示:
Attetion(Q, K, V) = Softmax (^=) V. (2.8)
2.4本章小结
本章首先简述了卷积神经网络的发展,介绍了二维和三维的卷积神经网络,并 对多通道的二维卷积神经网络和三维卷积神经网络进行了区分。其次介绍了 CT的基 础知识和成像原理,随后展示了本文选用的公开数据集 LUNA16 的组成、官方提供 的评价标准及使用数据时应进行的坐标转换问题。最后,本章对注意力机制的技术 进行了初步的解释,为本文后续提出的方法与结果讨论奠定了基础。
第 3 章 基于三维卷积的双分支肺结节检测方法
常见的肺结节检测网络即便进行多任务学习,也多为单分支的结构。本章将详 细介绍一种基于三维卷积的双分支肺结节检测方法,组织结构如下:第一节为引言, 将介绍本章的研究背景和贡献;第二节将详细介绍本章的网络框架和研究方法;第 三节将阐述实验的细节和使用的损失函数;第四节为对比实验和消融实验;第五节 为本章小结,将简要总结本章内容。
3.1引言
医院产生的医疗图像通常需要专业医生的人工诊断。然而,大量的医疗图像
(如CT、X射线、MRI),使得医生面临着令人难以置信的工作量和压力,以避免 因疲劳和其他因素造成的任何主观判断错误。为了减少由医生的主观原因引起的诊 断错误,计算机辅助诊断(CAD)系统被开发出来,以降低医生的工作量,同时提 高医学影像分析的工作效率和可靠性。在人工智能时代到来之前,传统的工作通常 是探索手工提取特征来检测肺部结节。由于结节的大小、形状和位置各不相同,这 些方法的检测结果往往不能达到预期效果。随着人工智能的兴起,各种基于深度神 经网络的模型被应用于理解和分析医学图像。许多科研工作者利用二维卷积神经网 络(CNN)在每个二维CT切片中生成结节候选,然后整合二维候选,构建肺结节 的三维候选,取得了比传统方法更优越的效果。但这些方法不能高效地利用CT数据 的三维空间信息,发挥其最大潜力。与2D CNN相关的代表性模型相比,3D CNN通 过三维卷积层以及三维卷积核来处理三维数据,学习时空特征,有利于提升肺结节 检测和分类的性能。特别是,现有的 3D CNN 肺结节检测模型大多采用单任务单分 支或多任务单分支的结构。典型的单任务方法,如文献[62]中, Li 等人在肺结节的检 测中取得了良好的效果,但仍容易产生低灵敏度和较高的假阳性率。基于多任务的 方法,如文献[78]中, Tang 等人采用单一网络分支的方法,将结节检测的输出作为结 节分割的输入。同时,目前的肺结节检测模型也面临着在边界回归中定义结节的清 晰边缘或轮廓的挑战。其客观原因是肺结节可能出现在肺壁或肺实质上,难以在噪 声、血管以及其他有干扰的图像背景中对其进行区分和分离。
为了解决上述问题,通过研究发现在进行临床诊断时,医学工作人员会优先关 注肺结节的纹理和灰度变化区域。根据医生的诊断方式,本章利用多任务和双分支 三维卷积神经网络与注意力加权特征融合模块进行肺结节检测和分割,实现了分割 任务对检测任务的指导。在常见的肺结节检测检测数据集上进行了大量的实验,验 证了所设计的模型与其他主流方法相比取得了可观的结果。总的来说,本章的主要 贡献概括如下:
(1)结合临床先验知识,基于 3DCNN 提出了一个双分支肺结节检测网络
(Dual-Branch Networks toward Pulmonary Nodule Detection,称为 DBPNDNet),用 于同时整合肺部结节检测和分割。
(2)开发了一个三维加权注意力特征融合模块( Attention Weighted feature Fusion Module,简称AWFM),纳入了分割分支所掌握的视觉注意力信息,以加强 检测分支的细化。
(3)提出了一种假阳性降低策略,开发了一个三维显著区域汇集层,用于改善 产生狭窄感受野的特征图。
3.2本章方法
本节将从技术层面详细介绍本章提出的双分支肺结节检测网络,下图给出了总
体网络结构的示意图。
图3-1双分支肺结节检测网络总体示意图,(a)肺结节检测分支,(b)肺结节分割分支,(c)
假阳性降低模块。
3.2.1双分支的网络结构
研究发现,在进行临床诊断时,医学工作人员会优先关注肺结节的纹理和灰度
变化区域。根据这一临床先验知识,本节提出了一个双分支肺结节检测网络,如图 3-1 所示。上层分支网络代表肺结节检测分支,下层分支网络表达肺结节分割分支。 在肺结节检测分支中,本章以三维区域选取网络(Region Proposal Network,简称 RPN)作为主干,这主要因为其在检测任务中表现突出。具体而言,肺结节检测模 型设计了一个U型的编码器一解码器结构,如图3-l(a)所示。在编码器中,本方法 应用3D Resnet实现了的特征提取,而解码器则使用了三层带有跳跃连接的残差块。 检测的输入是一个128x128x128大小的三维CT图像。为了产生结节候选,该方法 对合并的特征图进行了一次3x3x3的卷积。然后采用两个单独的1x1x1卷积来产生 分类概率以及边界回归。
在结节分割分支,本方法也提出了一个U形网络,如图3-1(b)所示。分片分支 是在与上层检测分支输入的原始切片相同的分辨率上进行的。此外,还独立设计了 一个深度为5的U型编码器一解码器结构。编码器每层由双3x3x3卷积层组成,步 长分别为 1 和 2。之后,每层后面都有一个 LeakyReLu 层。在这两个 3x3x3 的卷积 层之间,应用了一个 Dropout 操作以避免过度拟合。在解码器中,每个层包括一个 上采样的 2x2x2 卷积层,每个维度的步长为 2,随后应用一个带有 LeakyReLu 的 3x3x3 卷积。在特征提取过程中,具有相同规模的对应层建立跳跃连接,为解码器 提供重要的高分辨率特征。此外,在每个LeakyReLU之前都会应用实例归一化。
3.2.2加权注意力融合模块
为了纳入分割分支所掌握的视觉注意力信息,以加强检测分支的细化,本节开 发了一个三维加权注意力特征融合模块,很好地实现了分割任务对检测任务的指导, 其结构如图 3-2所示。
图 3-2 加权注意力融合模块详细示意图
设计的主要思想是将分割后的特征图转化为空间权重,然后与检测到的特征图 相连接。首先,通过1X1X1卷积将分割的特征图转化为空间权重图,利用sigmoid函 数确保特征信息在[0, 1]之间的数值收敛。然后,空间权重图和结节检测分支的特征 图以逐个像素的方式进行相乘。最后,将结果与原始结节检测分支的特征图相连接。 该过程可归纳为以下公式:
Ma = M'a + M'a® Sigmoid(f(Mp)), (3.1)
其中£(■)表示1X1X1卷积,+和g为像素级的加法和乘法运算,Ma表示检测分支的 特征图,呦表示分割分支的特征图。
该模块的具体实施如图3-1中的模块AWFM所示,在两个分支之间进行了注意 力融合,通过提取结节分割获得的注意力信息,进一步促进结节检测分支的效果, 目的是取得比基于单一分支的策略更全面和出色的肺结节检测结果。
3.2.3 假阳性降低策略
肺结节检测中的假阳性会显著影响诊断结果。检测到的结节经常受到类似的阳 性条件的影响,如结节结构和疤痕,这可能导致诊断结果的误判。因此,降低假阳 性率具有特别重要的意义。第二章中简要分析了假阳性率(FPR)的基本原理,基 于该原理本节设计了一种降低 FPR 的策略,目的是减少误报结节输出的数量,并对 最终结果进行最大程度的优化。如图3-1(c)所示,本章对检测网络产生的输出之后的 回归结果应用非极大值抑制。然后将候选结节的信息作为细化结果输入3D ROI池模 块。同时,所选图像下采样的特征图被输入到 3D ROI 池模块中(图 3-1 中虚线操 作),以获取更多的辨别信息并避免检测网络的干扰。此外,为了向候选节点提供较 小的感受野,本节利用裁剪方法基于候选结节特征生成大小为 7X7X7 的小特征图, 同时允许从检测网络学习各种特征信息。
综上所述,假阳性降低策略开发了一个三维显著区域汇集层,用于改善产生狭 窄感受野的特征图。该策略分享了几个特征提取模块,旨在确保网络拥有一个狭窄 的感受野,用于捕捉细致的特征表示。其从本质上区别于区域候选,促进了肺结节 检测的稳健性。总之,假阳性抑制策略的目的是最小化结节检测网络中的损失函数。
3.3模型训练
3.3.1损失函数
本章所提出的双分支肺结节检测方法中,检测任务分支以 RPN 为主干,其损失
函数定义如下:
其中,Nels和Weg分别表示用于计算分类和回归损失的候选结节数,久是为了平衡不 同的损失而采用的参数,以便在计算总损失的过程中,使分类损失和回归损失Lcls和
Lreg均衡。pt表示锚点(Anchor)是肺结节的概率,概率为正时,它等于1,否则设 为 0 。
在分割任务分支中,本章采用公式3.3中描述的二分类交叉熵损失(Binary Cross Entropy Loss,简称BCE)。该方法在图像处理领域的语义分割任务被广泛沿用, 本章中用BCE来计算结节分割损失。给定p(x)代表预测的输出,y表示真值标签, 分割任务的损失函数定义如下:
Lseg = -{ylog(p(x)) + (1- y)log (1 - P(x))}. (3.3)
3.3.2实验细节
本章设计的DBPNDNet在LUNA16数据集上进行训练,通过应用随机梯度下降 (Stochastic Gradient Descent,简称SGD )优化器来训练模块,初始化学习率 (Learning Rate)设置为 0.01,动量(Momentum)和 L2 正则化(Regularization)设 置为0.9和0.0001。在两个拥有24GB内存的NVIDIA RTX 3090 GPU上训练200次 迭代(Epoch)。此外,本方法是使用深度学习工具包PyTorch实现的,设置批处理 量(Batch Size)为4。模型的训练和测试阶段采用六倍交叉验证,数据集被分成六 部分,其中五部分被轮流训练,剩下的一部分用于验证,六个结果的平均值被作为 最终的算法精度。
3.4实验结果分析
在本节中,为评估本章所提出的基于三维卷积的双分支肺结节检测方法的实验 效果,使用了由LUNA挑战赛官方给出的CPM分数(单位为%)和FROC曲线来进 行指标的衡量。同时,可视化结果更为直观地展示了本方法在结节检测上的提升,
也证明了模型的科学性与可解释性。
3.4.1对比实验
表3-1在LUNA16数据集上,本章方法DBPNDNet与对比方法的CPM分数表
Method Year 0.125 0.25 0.5 1 2 4 8 Average
DeepLung 2018 69.20 76.90 82.40 86.50 89.30 91.70 93.30 84.20
NoduleNet 2019 72.00 78.34 85.68 90.01 94.25 95.49 96.29 87.27
DeepSeed 2020 73.90 80.30 85.80 8&80 90.70 91.60 92.00 86.20
EMU_3D_CNN 2020 63.00 75.30 81.90 86.90 90.30 91.50 92.00 83.00
SANet 2021 71.17 80.18 86.49 90.09 93.69 94.59 95.50 87.39
2D+3D_CNN 2021 77.80 84.00 8&60 91.00 93.00 95.10 96.80 89.50
3-DCGAM 2021 78.90 83.20 87.00 90.30 93.10 95.00 9&00 89.10
SCPM-Net 2022 74.30 82.90 88.90 92.20 93.90 95.80 96.40 89.20
DBPNDNet 2022 80.00 86.43 90.00 93.57 95.71 96.43 97.14 91.33
本节在 LUNA16 数据集上将开发的 DBPNDNet 的检测表示与两种经典方法
DeepLung[46] , NoduleNet[78] 和 六 种 典 型 的 先 进 检 测 模 型 DeepSeed[62] 、
EMU_3D_CNN[79]、SANet[50]、2D+3D_CNN[52]、SCPM-Net[80],以及 3DCGAM (单
任务)[87]进行比较,这些最先进的模型都是基于 3DCNN 的网络,大多数网络在结 节检测的任务中采用了与本章类似的RPN结构。表3-1对上述网络的性能与本章方 法进行比较。可以看出,所提出的DBPNDNet在LUNA16数据库中获得了最高的平
图3-3在LUNA16数据集上,本章方法DBPNDNet与对比方法的FROC曲线图
根据表3-1展示的CPM分数,本节绘制了提出方法与各种比较方法的FROC曲 线。如图 3-3 所示,设计的网络和其他8个对比网络的实验表现被显示为 FROC 曲 线,可以直观地看出各种方法之间的差距,证明了所提出的 DBPNDNet 模型的优越 性。
此外,肺结节中心部分的可视化显示如图 3-4。通过对肺结节检测候选者和地面 实况的直观比较,可以明显看出本章的 DBPNDNet 的表示方法在预测结节中心方面 接近于标签的真值,在预测直径方面也取得了上佳效果。
特别地,一些结节检测网络在嵌入数据预处理或后处理模块后取得了很好的效 果。这些网络大多进行数据增强、条件随机场(CRF)、图像重建、优化操作以及其 他方法。例如,参考文献[81呻,Ozdemir等人应用了多个深度CNN来减少假阳性候 选结节, 并提高最终的预测结果。 本节选用了近年来的文献[81][82]中的方法 CMBsystem和CADe,与设计的DBPNDNet进行比较,实验结果如表3-2所示。 DBPNDNet在每次CT扫描中分别以2、4和8个假阳性的CPM分数优于其他两个 有影响力的方法。实验表明,本章提出的模型对肺结节检测具有更高的灵敏度。
表3-2在LUNA16数据集上,本章方法DBPNDNet与对比方法的CPM分数表
Method 0.125 0.25 0.5 1 2 4 8 Average
CMBsystem 87.60 89.90 91.20 92.70 94.20 94.80 95.30 92.20
CADe 83.20 87.90 92.00 95.40 95.10 95.90 96.40 92.10
DBPNDNet 80.00 86.43 90.00 93.57 95.71 96.43 97.14 91.33
3.4.2消融实验
为了更好地评估这不同模块的性能,本节在 LUNA16 数据库上应用了 CPM 指 数来评估所设计架构的有效性。实验结果见表 3-3。在应用了所提出的 AWFM 模块 和双分支结构后,输出结果平均提高了 4.06%,并在每个CT扫描的假阳性平均得分 上获得了明显的改善。
表 3-3 在 LUNA16 数据集上,本章方法 DBPNDNet 对比单一检测分支的 CPM 分数表
Method 0.125 0.25 0.5 1 2 4 8 Average
Baseline 72.00 78.34 85.68 90.01 94.25 95.49 96.29 87.27
DBPNDNet 80.00 86.43 90.00 93.57 95.71 96.43 97.14 91.33
为进一步探究AWFM模块的连接方式与实验效果的联系,本节继续进行了大量 的消融实验,结果见表 3-4。消融实验的结果表明,采用如图 3-1 所示的 AWFM 融 合模块连接数量为一次的网络设计结构,获得了最佳的肺部结节检测性能,同时抑 制了假阳性的检测效果。需要注意的是,由于连接次数相同的情况下,存在多种连 接方式,本节均进行了实验。因此表3-4中的部分平均CPM分数具有上下限。
表 3-4 在 LUNA16 数据集上,本章方法 DBPNDNet 在不同设计下的平均 CPM 分数表
AWFM 模块的连接数量 Average CPM (%)
0 87.27
1 90.41〜91.33
2 89.59〜90.20
3 89.38〜91.22
4 90.10
3.4.3 局限性
本章提出的DBPNDNet,虽然在很多方面与经典的和当前先进的方法相比,具 有相当的优势,但自身仍存在一些不足。比如在多任务损失函数的设计方面,本章 方法计算总损失时,仅仅使用了简单的线性相加。如果考虑对每个独立的损失赋予 可学习的权值或规定的权值,那么在训练过程中可以对某一个或几个任务有所侧重, 可能会取得更好的结节检测效果。
3.5本章小结
本章从多个角度介绍了一种基于三维卷积的双分支肺结节检测方法。首先介绍 了本章的研究背景和贡献。其次重点介绍了所提出方法的双分支结构框架和加权注 意力融合模块,并提出了一种假阳性降低策略。随后,阐述了实验的细节和训练中 使用的损失函数。此外,本章详细列举并分析了对比实验和消融实验的结果,展示 了所提出方法的优越性和有效性。最后进行了设计局限性的讨论,为后续的工作指 明了工作方向。
第 4 章 基于 CT 的多重注意力三维肺结节检测方法
第三章的方法引入了一种双分支的网络结构,但对于CT序列丰富的空间上下文 信息,没有进行充分的挖掘。本章将详细介绍一种基于CT的多重注意力三维肺结节 检测方法,结构组织如下:第一节将简述本章的背景知识和贡献;第二节将在技术 实现层面详细介绍本章的研究方法;第三节将阐述实验训练的相关部署;第四节将 从对比实验和消融实验两方面进行结果分析;第五节为本章小结。
4.1引言
在传统的临床实践中,由于CT影像扫描具有丰富的时空上下文信息,医生总是 在多个连续的CT图像中寻找相关性,以确定肺部结节的具体位置进行疾病诊断。为 了实现CT扫描中肺结节自动检测的智能辅助诊断,充分利用临床经验中这一显著的 时空特征,本章设计了一种带有多维度、多方向注意力增强模块的三维卷积神经网 络,以模拟医生的临床诊断方式。在一个通用数据库中进行了大量的肺结节检测实 验。实验结果表明,所设计的模型比其他典型的主流方法更有效。综上所述,本文 的主要贡献归纳为以下几点:
(1) 提出了一个三维多注意卷积神经网络(3D Multi-attention Network,命名 为3DMNet),用于进行自动肺结节检测,它整合了深度卷积和自注意机制。
(2) 设计了一种三维多重注意力模块,来模拟医生诊断过程的模式。它从 CT 连续图像的时空角度考虑了多维方向的注意力增强,其中包括前后方向的时空一致 性分析。
(3) 提出了新的损失计算方法,通过 OHEM 损失计算方法,可以有效地调节 阳性和阴性样本的权重,从而改善正负样本分布不均衡的问题。
4.2本章方法
本章提出的方法将注意力方法应用于医学图像处理。为了模拟医生的诊断行为, 提出了一个肺结节检测的模型3DMNet,由两个关键部分组成。(1)设计了一个包 含三维多重注意力机制结构的三维区域建议网络,用于特征提取和生成潜在的候选 人。(2)引入了一个降低假阳性的策略,以抑制在检测阶段由误报引起的干扰和影
响。与以往的工作相比,本节利用来自多个方向上的注意力来模拟医生的诊断过程。
以下各小节对本章设计的方法进行了详细解释。
4.2.1网络模型
图4-1多重注意力肺结节检测网络总体示意图,(A)图像压缩路径,(B)三维多重注意模 块:①三维SA模块;②三维GA模块;③三维CA模块,(C)图像扩展路径,(D)假阳性降
低模块
如图4-1所示,本方法以三维ResNet-18为主干结构,采用经典的U型结构来实 现生成候选结点的目的。其中,在解码部分采用两个带有跳过连接的上采样块,将 图像扩展到一个合适的尺寸。然后,在图像扩展的过程中,图像压缩损失的信息被 恢复了,这可以理解为图像的高层次特征和细节的增强,而扩展又是对损失的全局 信息的补偿。同时,网络利用残差连接作用于压缩和扩展路径,弥补了图像收缩可 能造成的全局信息损失,而在上采样过程中,通过图像下采样得到的局部特征信息 可以很好地加入到特征图中。具体结构细节的输入输出尺寸详细展示在表4-1中。
表 4-1 多重注意力肺结节检测网络具体结构示意表
Layer Composition element Output size
Input - 128x128x128
PreBlock 卩 x 3 x 3 conv s s = 2\ \3x3x3 conv^ s = 1) 64x64x64
Forward1 i3x3x3 conv \ \3x3x3 convl X 64x64x64
Down1 1x1x1 conv 64x64x64
Down1 2x2x2 3D max pooling 32x32x32
Forward2 3x3x3 conv
\3x3x3 conv/ x 32x32x32
Down2 1x1x1 conv 32x32x32
2x2x2 3D max pooling 16x16x16
Forward3 3x3x3 conv
\3x3x3 convl x 4 16x16x16
Down3 1x1x1 conv 16x16x16
2x2x2 3D max pooling 8x8x8
表 4-1 多重注意力肺结节检测网络具体结构示意表(续表)
Layer Composition element Output size
Forward4 i3x3x3 conv \ \3x3x3 convl X 3 8x8x8
Multi-attention - 8x8x8
2x2x2 deconv +[Forward3] 16x16x16
Back1 3X3X3 conv
\3x3x3 convl X 3 16x16x16
2x2x2 deconv +[Forward2] 32x32x32
Back2 3x3x3 conv
\3x3x3 convl X 3 32x32x32
在本文模型中,对于检测网络,设置Mi = F(x) , x为输入的图像,Mi e
RDXHXW则是经过各个卷积层后输出的特征图。为了得到高级的特征信息,对输入特 征图使用3D最大池化对图像进行下采样。下采样输出结果为:
Wi = P(Mi), Wi e Rd*h*w. (4.1)
进入多维度注意力模块中,可表示为公式4.2
D H W
z = Fma(W), Z e R'16X^6X^6, (4.2)
其中,fma()的详细结构在下一小节展开。
然后对图像进行扩展恢复全局信息:
Yt = a0(Trans(Z))), Yt e RDxH*w, (4.3)
其中旷表示批量归一化层,0表示激活函数ReLU()。
同时为了防止因为图像收缩造成的信息损失,在这里采用残差连接的方式,对 丢失信息进行补充:
场=Fblock(ca^(^4, ^1)), (4.4)
其中cat(.)表示将两组特征图在通道维度相加,Fbioc认)表示将融合后的特征图通过 三层3x3x3的卷积层、归一化层和激活层,使特征图得到更好地信息融合。
E结果输出后,跟大多数经典模型图像一样经过由线性层组成的RPN网络(在 第三章提到),得到分类结果和回归结果RPNds和尺卩弘旳。分类结果RPNds用来计算 损失,而回归结果RPNreg不仅需要计算损失,还要通过非极大值抑制策略得到推荐 的预选框,通过得到的预选框和特征图进行裁剪操作,输入到假阳性降低网络中。 下面小节将详细介绍本章设计的多重注意力模块。
4.2.2多重注意力模块
与传统的注意力量机制不同,本章开发了一种新型的注意力模块,更有针对性 地对三维CT图像进行注意增强。具体而言,该模块设计了五个分支来并行输入特征 图,然后在不同维度和多分辨率下进行注意力增强。虽然每个分支进行不同维度的 运算,但中间结果与特征图的大小相同,因此可以进行求和与上采样,便于进行后 续的图像扩展。其设计思想和具体结构如图4-l(B)所示。完整的多重注意力模块由 三种基本模块构成,分别为三维空间注意力模块(3D Spatial Attention Module,简称 3D SA)、三维全局注意力模块(3D Global Attention Module,简称3D GA)和三维 通道注意力模块(3D Channel Attention Module,简称3D CA)。下面将依次介绍三种 注意力模块。
(1)3D SA 模块
医生在借助 CT 图像做出诊断的时候,总会通过多个相邻切片探寻其中的相关 性,以确定肺结节的位置,这充分说明了三维的 CT 数据具有极强的空间上下文信 息。因此本章提出了一个三维空间注意力模块,旨在整合多个方向上的空间上下文 信息。首先设置给定的多维度注意力模块的输入为X G RCxdxhxw,第一个过程就是 要得到注意力机制需要的三要素Q、K、V。这里使用了三个卷积层:
Dq =血化。n”(X)) G RCxdxhx”, (4.5)
Dk =血化。“(X)) G RCxdxhxw, (4.6)
Dv = ^(Fconv(X)) G rcxdxhxw, (4.7)
其中,这里Fconv(■)表示为lxlxl的步长为1的卷积层,X■)代表的是批量归一化和 激活函数 ReLU(.)。
本文考虑到CT图像是三维图像的特性,不仅仅从常规的二维方向H X 0考虑空 间上下文信息,也从DX0和DXH方向进行空间注意力增强。具体而言,对空间方 向D X H上的查询要素张量Dq G RCxdxhe进行变形,变成G RCxdhxw乘以相对 应的关键要素张量的Ac的变形的转置Dm G rcxwxdh,生成d x H方向上的空间注意 力分数Datt G REHxdh,再将空间注意力分数与D x H方向上的对应的像素值相乘 得到注意力增强后的结果Dans G RCXDHXW,最后扩展回原形状D】G RCxDxHxW。具 体输出的计算公式如下:
DdA = x + R(DV X 6((R(Dq) X R(Dk)))), (4.8)
其中,R(.)代表Reshape操作,0(.)代表Softmax(.),最后D的输出形状是De RCXDXHXW。
同理,多重注意力模块分别从DXH、DXW. HXW三个不同的方向进行了空 间注意力的增强分别记作DdA. Ddw. DAw,角度的变换通过reshape操作实现。3D SA模块在每个方向的具体实现如图4-2、图4-3、图4-4所示,其中g为像素级的乘 法运算。
图4-2 DxH方向上3D SA模块的网络结构示意图
图4-3 DxW方向上3D SA模块的网络结构示意图
图4-4 HxW方向上3D SA模块的网络结构示意图
2) 3D GA 模块
正如上一节所描述,为了更好的利用多维度信息,提出了 3D SA模块。但是在 注意力的计算过程中,总有一个维度会被忽略,这样的计算方式在一定程度上必然 会损失一部分全局信息。因此,多重注意力又引入了一种三维全局注意力模块,网 络结构如图 4-5 所示。
图 4-5 3D GA 模块的网络结构示意图
其中,GA采用了与SA相同的输入。但与SA不同,其直接将DHW三个维度相乘。 具体而言,对查询要素张量Dq G RCXDXHXW进行变形,变成Dq2 e RDHWxC乘以相对 应的关键要素张量的Dk的变形的转置久2 e RcxDHW,生成全局注意力分数Datt e RDHWxDHW,再将全局注意力分数与每个像素值相乘得到注意力增强后的结果0曲$ G RCxDHW,最后扩展回原形状°? e “心讪。具体输出的计算公式如下:
DdAw = Y + R(DV x 6((R(Dq) x R(Dk)))), (4.9)
其中,R(.)代表Reshape操作,6(.)代表Softmax(.),最后D的输出形状是DdAw e rCxDxHxW。
(3 )3D CA 模块 每个特征的通道都可以被视为一个独特的检测器。因此,它们可以聚焦于哪些 特征具有重要的意义,以便更好地识别和分析这些特征,同时蕴含着丰富的类别信 息,但在医学图像处理领域却容易被忽略。所以,本节提出了一种三维通道注意力 模块,网络结构如图4-6所示。
图4-6 3D CA模块的网络结构示意图
其中,3D CA采用与前文相同的输入,但与其他模块不同,它直接将DHW三个维度 忽略,只保留通道维度C上的信息。具体而言,对查询要素张量Dq e RCxdxhxw进行 变形,变成Dq3 e RCxDHW乘以相对应的关键要素张量的Dk的变形的转置Dk3 e RDHWXC,生成通道注意力分数Datt e RCXC,再将通道注意力分数与每个像素值相乘 得到注意力增强后的结果Dans e RCXDHW,最后扩展回原形状D3 e R^XDXHXW。具体 输出的计算公式如下:
DCC=Z + R(DV X 0((R(Dq) X R(Dk)))), (4.10)
其中,R(.)代表Reshape操作,0(.)代表Softmax(.),最后D的输出形状是Dcc e RCXDXHXW。
(4)各注意力模块的融合 为了整合上述多个维度上的注意力模型,本方法对不同的输出进行了深度融合 操作。具体而言,每个维度上的注意力增强后的输出特征图由3x3x3卷积层、批处 理归一化层和激活层组成,然后通过求和运算进行融合,具体实现如以下公式:
D = ConvD(f(DdA) + f(Ddw) + f(DAw) + f(Ddiw) + f(Dcc)), (4.11)
其中,f{.)是由3x3x3的卷积层、批量归一化层和激活层组成的卷积块,ConvD{.) 是由Dropout(.)和1x1x1的卷积层组成的卷积块,目的是让各维度上注意力加强的特 征图更好的融合。总而言之,本节根据CT图像的3D数据特性,设计了一个多注意 力模块,使其能更好的利用三维上下文的信息,最终输出结果以D e RCxdxhxw进入 图像扩展路径。
4.2.3假阳性降低模块
本章的假阳性降低方法与第三章提出的方法基本一致,故不再进行详细介绍。
4.3模型训练
4.3.1 损失函数
对比第三章的训练设置,本章方法也使用了 BCE损失函数对结节分类模型进行 训练。与之不同的是,因为考虑到正负样本对预测结果的影响,本章对负样本计算 损失时使用了 OHEM 算法[83],让模型着重关注高损失性的负样本,以达到更好的学 习肺结节目标的目的。具体公式如下:
Leis = ^*^bce[pos] + (1 - ^) * Lbce[(p(neg)], (4.12)
其中,“是一个平衡因子,g是OHEM算法处理的负样本张量。
同时,对预测的回归结果进行损失计算,回归模型采用的是平滑 L1 损失
(Smoothed L1 Loss)[84],通过计算得到回归损失Lreg = ^NS(pd,gt)o
此外,作为模型中的一个主要的组成,假阳性降低网络产生的损失也是同样重 要的,对于假阳性检测的分类结果,本节采用了交叉熵损失函数,设训练样本中为 正样本的概率为p,预测的正样本的概率为q,那么交叉熵损失函数的公式可以表示 为:
Lcross = -'Li=i(Pil°g(Qi) + (1 — Pi)l°9(1 - Qi)), (4.13)
同上所示,对于假阳性抑制网络的预测回归结果进行计算,同样运用了平滑 L1 损失,记为Lsmooth。最后,使用线性相加的方式获得一个总的损失如公式4.14所示, 梯度回传进行训练。
LOSS = Leis + Seg + Lcross + ^smooth • (4.14)
4.3.2实验细节
对于训练的细节部署,本方法将图像裁剪成128x128x128的尺寸输入到检测网 络进行学习,在结节分类部分,对于得到的候选结节信息,采用7x7x7的尺寸裁剪 后输入。学习率方面,为了实现更好的拟合学习,本方法使用了随机梯度下降的方 式,初始学习率被设置为0.01,进行两百个epoch的学习,Batch大小设为16。整个 模型在1块24G内存的NVIDIA RTX 3090 GPU上进行训练。模型使用了 K-fold交 叉验证,将数据集划分为 K 个等份,其中 K-1 份用于训练,剩余的一份用于测试, 以便进行验证。这里K=6,最终K个结果的平均值用作最终的指标精度。
4.4实验结果分析
4.4.1 对比实验
基于表 4-2 所示的 CPM 分数, 3DMNet 与八个经典的和最先进的检测模型进行 了比较。 其 中 包括 三 种经 典的 检 测方 法 DeepLung[46] 、 3D ConvNets[85] 、 NoduleNet[78],以及最新的六种复杂检测模型 SANet[50]、PNDA Platform[86]、SCPM- Net[80]、3DCGAM (单任务)[87]和 OSAF-YOLOv3[88]。此外,如图 4-7 所示,通过 FROC曲线可以直观地看到,3DMNet比其他代表方法表现得更好,这说明了所设计
的方法的优越性。
表4-2在LUNA16数据集上,本章方法3DMNet与对比方法的CPM分数表
Method Year 0.125 0.25 0.5 1 2 4 8 Average
3D ConvNets 2017 65.90 74.50 81.90 86.50 90.60 93.30 94.60 83.90
DeepLung 2018 69.20 76.90 82.40 86.50 89.30 91.70 93.30 84.20
NoduleNet 2019 72.00 78.34 85.68 90.01 94.25 95.49 96.29 87.27
PNDAPlatform 2022 72.97 80.18 84.43 89.15 92.13 94.00 94.70 86.79
SANet 2021 71.17 80.18 86.49 90.09 93.69 94.59 95.50 87.39
SCPM-Net 2022 74.30 82.90 88.90 92.22 93.93 95.84 96.43 89.20
3DCGAM 2021 78.90 83.20 87.00 90.30 93.10 95.00 9&00 89.10
OSAF-YOLO 2022 7&84 85.23 89.07 92.81 95.44 96.10 96.23 90.53
3DMNet 2022 82.86 87.86 90.00 92.86 94.29 95.71 95.71 91.33
FROC Performemce
0・6 i i i i i i i
0.125 025 0.5 1 2 4 8
Average number of false positives per scan
图4-7在LUNA16数据集上,本章方法DBPNDNet与对比方法的FROC曲线图
此外,本章方法 3DMNet 对比真值和 3D RPN 网络的可视化结果,如图 4-8 所 示。测试结果的可视化使得能够直接观察到结果与真实值之间的差异。具体而言, 本节的模型可以直观地实现精确的预测结果,十分接近于真值标签,并将直径预测
的误差减少到较低的水平。并且对比检测网络的原始框架3D RPN,可以看出本方法 给结节检测效果带来了显著的提升。
图4-8在LUNA16数据集上,本章方法3DMNet对比真值和3D RPN网络的可视化图
其中,参数Diameter表示肺部结节的直径(单位为mm)。每个圆圈描述了一个结节, 其空间位置与圆圈的中心决定。第一列表示肺部结节的候选框的真值标签。第二列 展示了 3DMNet在假阳性降低后产生的可视化结果。第三列是原始的三维RPN网络 产生的可视化结果,它同时也是本章方法的基础主干。
4.4.2消融实验
在这项工作中,通过设计一个与图像压缩和扩展相结合的多注意力模块,实现
了准确的肺结节检测。为了测试各个维度上的注意力模块对整个网络的影响,本节 用CPM分数和FROC曲线共同评估了所设计模块的有效性。如表4-3所示,所设计 的 3DMNet 比原始框架有了明显的改善。而且每个维度上的注意力模块都在一定程 度上促进了网络的提升。
表 4-3 在 LUNA16 数据集上,本章方法 3DMNet 添加不同注意力模块的 CPM 分数表
Attention Module 0.125 0.25 0.5 1 2 4 8 Average
Baseline 72.00 78.34 85.68 90.01 94.25 95.49 96.29 87.27
3D SA 80.00 86.43 89.29 91.43 93.57 94.29 94.29 89.90
3D SA + CA 77.86 87.14 90.00 90.71 93.57 95.28 95.71 90.04
3D SA + CA + GA 82.86 87.86 90.00 92.86 94.29 95.71 95.71 91.33
此外,本节还从损失函数的角度出发设计了消融实验,以说明本工作中采用的 损失函数的性能。本节比较了结合焦点损失(Focal Loss)函数[89 ]和采用了本章提出 损失函数的3DMNet。与Focal损失函数相比,本章提出的损失函数表现相对更好,
CPM分数平均提高了 1.43%,详见表4-4及图4-9。
表 4-4 在 LUNA16 数据集上,本章方法 3DMNet 添加不同损失函数的 CPM 分数表
Loss Function 0.125 0.25 0.5 1 2 4 8 Average
With Focal Loss 81.43 84.29 86.43 92.86 94.29 94.78 95.20 89.90
Ours 82.86 87.86 90.00 92.86 94.29 95.71 95.71 91.33
FROC Performemce
-Q- With Focal -Q- Ours
07
0.6 j 1 1 1 1 1 1
0.125 0.25 0.5 1 2 4 8
Average number of false positives per scan
图 4-9 在 LUNA16 数据集上,本章方法 3DMNet 添加不同损失函数的 FROC 曲线图
经过对整个消融实验的分析,可以看出本章设计的包括多个维度上的注意模块 和组合损失函数在内的整个检测模型可以获得优秀的肺结节检测。它还提高了灵敏 度和抑制假阳性的程度。综上所述,实验验证了所设计的网络结构的有效性。
4.4.3局限性
本章提出的3DMNet,虽然在多个维度上进行了注意力增强,进一步利用了 CT 数据的三维信息,但是在设计上仍有局限。例如,对于多重注意力模块中的各个子 模块间,没有做到更好的共享机制。近来有些学者提出了在注意力模块内部融合特 征提取时的信息,也取得了不错的效果,可以作为本方法未来的研究方向。
4.5本章小结
本章了介绍一种基于CT的多重注意力三维肺结节检测方法,将注意力机制和 肺结节检测融合,发挥了不错的效果。其中,重点介绍了提出的网络框架与多个维 度上的注意力模块,并探究了注意力融合方式和损失函数的设计。随后,通过大量 的对比实验和消融实验结果,分析了本方法的优越性和有效性。最后,进行了网络 设计不足的讨论,找到了后续工作的改进方式和研究方向。
第 5 章 总结与展望
癌症已成为全球性的公共卫生挑战,而在中国,肺癌的发病率和死亡率均处于 最高水平,是导致癌症死亡的主要原因。肺结节是大多数肺癌早期的主要特征之一。 研究表明,肺癌早期的肺结节筛查可以有效地改善治疗效果,提高生存率。与此同 时,2023年以来,世界各国进入了新冠(COVID-19)疫情的常态化阶段。在临床 上, COVID-19患者除了发热或呼吸道症状外,在CT上还会表现为磨玻璃结节,因 此将医学影像技术引入 COVID-19 的筛查中在很大程度上推动了患者以及疑似患者 的确诊筛查和及时诊疗。
通过对三维 CT 影像的深入分析,本文结合临床经验和 CT 数据特性,提出了 两种新的肺结节检测技术,以提高其灵敏度与稳健性。本文的研究内容和创新点总 结如下:
在第三章提出的工作中:
(1)结合临床先验知识,基于 3DCNN 提出了一个双分支肺结节检测网络 (Dual-Branch Networks toward Pulmonary Nodule Detection,称为 DBPNDNet),用
于同时整合肺部结节检测和分割。
(2)开发了一个三维加权注意力特征融合模块( Attention Weighted feature Fusion Module,简称AWFM),纳入了分割分支所掌握的视觉注意力信息,以加强 检测分支的细化。
(3)提出了一种假阳性降低策略,开发了一个三维显著区域汇集层,用于改善 产生狭窄感受野的特征图。
在第四章提出的工作中:
(1)提出了一个三维多注意卷积神经网络(3D Multi-attention Network,命名 为3DMNet),用于进行自动肺结节检测,它整合了深度卷积和自注意机制。
(2)设计了一种三维多重注意力模块,来模拟医生诊断过程的模式。它从 CT 连续图像的时空角度考虑了多维方向的注意力增强,其中包括前后方向的时空一致 性分析。
(3)设计了新的损失计算方法,同时应用假阳性降低策略。通过 OHEM 损失 计算方法,可以有效地调节阳性和阴性样本的权重,改善了正负样本分布不均衡的 问题。
从实验结果分析,两种肺结节检测技术均取得了 91.33%的平均 CPM 分数,与 现有的多个先进方法相比具有一定的优势。具体而言,两种方法在不同阈值(平均 每张CT上的假阳性数量)下的CPM分数对比显示:DBPNDNet方法更加提升了网 络的灵敏度,取得了最高97.14%的CPM分数;3DMNet方法获得了更好的假阳性降 低效果,在阈值小于1的情况下取得了更高的CPM分数。
虽然本文的肺结节检测技术已经在提升结节分类的灵活性和稳健性方面取得了 一定的进展,但仍有许多潜力有待开发,具体改进方案可归纳如下:
(1)本文提出的 DBPNDNet 方法,虽然在很多方面与经典的和当前先进的方 法相比,具有相当的优势,但自身仍存在一些不足。比如在多任务损失函数的设计 方面,本章方法计算总损失时,仅仅使用了简单的线性相加。如果考虑对每个独立 的损失赋予可学习的权值或规定的权值,那么在训练过程中可以对某一个或几个任 务有所侧重,可能会取得更好的结节检测效果。
(2)本文提出的3DMNet方法,虽然在多个维度上进行了注意力增强,进一步 利用了 CT数据的三维信息,但是在设计上仍有局限。例如,对于多重注意力模块中 的各个子模块间,没有做到更好的共享机制。近来有些学者提出了在注意力模块内 部融合特征提取时的信息,也取得了不错的效果,可以作为本方法未来的研究方向。
参考文献
[1]Siegel R. L., Miller K. D. and Jemal A. Cancer statistics[J]. CA: a cancer journal for clinicians, 2018, 68(1): 7-30
[2]Torre L. A., Siegel R. L., Jemal A. Lung cancer statistics[J]. Lung cancer and personalized medicine: current knowledge and therapies, 2016: 1-19
[3]Chen W., Zheng R., Baade P. D., etc. Cancer statistics in China, 2015[J]. CA: a cancer journal for clinicians, 2016, 66(2): 115-132
[4]Henschke C. I., McCauley D. I., Yankelevitz D. F., etc. Early Lung Cancer Action Project: overall design and findings from baseline screening[J]. The Lancet, 1999, 354(9173): 99-105
[5]Henschke C. I. Early lung cancer action project: overall design and findings from baseline screening[J]. Cancer, 2000, 89(S11): 2474-2482
[6]Hansell D. M., Bankier A. A., MacMahon H., etc. Fleischner Society: glossary of terms for thoracic imaging[J]. Radiology, 2008, 246(3): 697-722
[7]Doi K. Computer-aided diagnosis in medical imaging: historical review, current status and future potential[J]. Computerized medical imaging and graphics, 2007, 31(4-5): 198-211
[8]Gongalves V. M., Delamaro M. E., Nunes F. L. S. A systematic review on the evaluation and characteristics of computer-aided diagnosis systems[J]. Revista Brasileira de Engenharia Biomedica, 2014, 30: 355-383
[9]Shiraishi J., Li Q., Appelbaum D., etc. Computer-aided diagnosis and artificial intelligence in clinical imaging[C]//Seminars in nuclear medicine. WB Saunders, 2011, 41(6): 449-462
[10]Li Q., Li F., Suzuki K., etc. Computer-aided diagnosis in thoracic CT[C]//Seminars in Ultrasound, CT and MRI. WB Saunders, 2005, 26(5): 357-363
[11]Doi K. Diagnostic imaging over the last 50 years: research and development in medical imaging science and technology[J]. Physics in Medicine & Biology, 2006, 51(13): R5
[12]Messay T., Hardie R. C., Rogers S. K. A new computationally efficient CAD system for pulmonary nodule detection in CT imagery[J]. Medical image analysis, 2010, 14(3): 390-406
[13]Duggan N., Bae E., Shen S., etc. A technique for lung nodule candidate detection in CT using global minimization methods[C]//Energy Minimization Methods in Computer Vision and Pattern Recognition: 10th International Conference, EMMCVPR 2015, Hong Kong, China, January 13-16, 2015. Proceedings 10. Springer International Publishing, 2015: 478-491
[14]Jacobs C., Van Rikxoort E. M., Twellmann T., etc. Automatic detection of subsolid pulmonary nodules in thoracic computed tomography images[J]. Medical image analysis, 2014, 18(2): 374-384
[15]Zhou Z., Siddiquee M. M. R., Tajbakhsh N., etc. Unet++: Redesigning skip connections to exploit multiscale features in image segmentation[J]. IEEE transactions on medical imaging, 2019, 39(6): 1856-1867
[16]Milletari F., Navab N., Ahmadi S. A. V-net: Fully convolutional neural networks for volumetric medical image segmentation[C]//2016 fourth international conference on 3D vision (3DV). Ieee, 2016: 565-571
[17]Oktay O., Schlemper J., Folgoc L. L., etc. Attention u-net: Learning where to look for the pancreas[J]. arXiv preprint arXiv:1804.03999, 2018
[18]Kamal U., Rafi A. M., Hoque R., etc. Lung cancer tumor region segmentation using recurrent 3d-denseunet[C]//Thoracic Image Analysis: Second International Workshop, TIA 2020, Held in Conjunction with MICCAI 2020, Lima, Peru, October 8, 2020, Proceedings 2. Springer International Publishing, 2020: 36-47
[19]Wu W., Gao L., Duan H., etc. Segmentation of pulmonary nodules in CT images based on 3D - UNET combined with three - dimensional conditional random field optimization[J]. Medical Physics, 2020, 47(9): 4054-4063
[20]Li W., Qin S., Li F., etc. MAD-UNet: A deep U-shaped network combined with an attention mechanism for pancreas segmentation in CT images[J]. Medical Physics, 2021, 48(1): 329-341
[21]Mentzel F., Kroninger K., Lerch M., etc. Fast and accurate dose predictions for novel radiotherapy treatments in heterogeneous phantoms using conditional 3D- UNet generative adversarial networks[J]. Medical Physics, 2022, 49(5): 3389-3404
[22]Kushnure D. T., Talbar S. N. MS-UNet: A multi-scale UNet with feature recalibration approach for automatic liver and tumor segmentation in CT images[J]. Computerized Medical Imaging and Graphics, 2021, 89: 101885
[23]Lou A., Guan S., Loew M. DC-UNet: rethinking the U-Net architecture with dual channel efficient CNN for medical image segmentation[C]//Medical Imaging 2021: Image Processing. SPIE, 2021, 11596: 758-768
[24]Ma D., Lu D., Chen S., etc. LF-UNet-A novel anatomical-aware dual-branch cascaded deep neural network for segmentation of retinal layers and fluid from optical coherence tomography images[J]. Computerized Medical Imaging and Graphics, 2021, 94: 101988
[25]Yang J., Wu B., Li L., etc. MSDS-UNet: A multi-scale deeply supervised 3D U-Net for automatic segmentation of lung tumor in CT[J]. Computerized Medical Imaging and Graphics, 2021, 92: 101957
[26]Arbelle A., Cohen S., Raviv T. R. Dual-task ConvLSTM-UNet for instance segmentation of weakly annotated microscopy videos[J]. IEEE Transactions on Medical Imaging, 2022, 41(8): 1948-1960
[27]Luo S., Jiang H., Wang M. C2BA-UNet: A context-coordination multi-atlas boundary- aware UNet-like method for PET/CT images based tumor segmentation[J]. Computerized Medical Imaging and Graphics, 2023, 103: 102159
[28]Zhang Y., Lai H., Yang W. Cascade UNet and CH-UNet for thyroid nodule segmentation and benign and malignant classification[C]//Segmentation, Classification, and Registration of Multi-modality Medical Imaging Data: MICCAI 2020 Challenges, ABCs 2020, L2R 2020, TN-SCUI 2020, Held in Conjunction with MICCAI 2020, Lima, Peru, October 4-8, 2020, Proceedings 23. Springer International Publishing, 2021: 129134.
[29]朱辉,秦品乐.基于多尺度特征结构的U-Net肺结节检测算法[J].计算机工程, 2019, 45(4): 254-261
[30]马巧梅,梁昊然,郎雅琨.融合残差模块的U-Net肺结节检测算法[J].计算机工 程与设计, 2021
[31]Li W., Cao P., Zhao D., etc. Pulmonary nodule classification with deep convolutional neural networks on computed tomography images[J]. Computational and mathematical methods in medicine, 2016: 6215085
[32]Su Y., Li D., Chen X. Lung nodule detection based on faster R-CNN framework[J]. Computer Methods and Programs in Biomedicine, 2021, 200: 105866
[33]Xu J., Ren H., Cai S., etc. An improved faster R-CNN algorithm for assisted detection of lung nodules[J]. Computers in Biology and Medicine, 2023, 153: 106470
[34]Ahmed I., Chehri A., Jeon G., etc. Automated pulmonary nodule classification and detection using deep learning architectures[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2022
[35]Simonyan K., Zisserman A. Very deep convolutional networks for large-scale image
recognition[J]. arXiv preprint arXiv:1409.1556, 2014
[36]He K., Zhang X., Ren S., etc. Deep residual learning for image recognition[C]// Proceedings of the IEEE conference on computer vision and pattern recognition.
2016: 770-778
[37]Howard A., Sandler M., Chu G., etc. Searching for mobilenetv3[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2019: 1314-1324
[38]Ren S., He K., Girshick R., etc. Faster r-cnn: Towards real-time object detection with region proposal networks[J]. Advances in neural information processing systems, 2015, 28
[39]Redmon J., Farhadi A. Yolov3: An incremental improvement[J]. arXiv preprint arXiv:1804.02767, 2018
[40]Liu W., Anguelov D., Erhan D., etc. Ssd: Single shot multibox detector[C]//Computer Vision-ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11-14, 2016, Proceedings, Part I 14. Springer International Publishing, 2016: 21-37
[41]Setio A. A. A., Ciompi F., Litjens G., etc. Pulmonary nodule detection in CT images: false positive reduction using multi-view convolutional networks[J]. IEEE transactions on medical imaging, 2016, 35(5): 1160-1169
[42]Xie H., Yang D., Sun N., etc. Automated pulmonary nodule detection in CT images using deep convolutional neural networks[J]. Pattern Recognition, 2019, 85: 109-119
[43]赵鹏飞,赵涓涓,强彦,等.多输入卷积神经网络肺结节检测方法研究[J].计算机 科学, 2018, 45(1): 162-166
[44]Yang J., Jiang L., Xie K., etc. Lung nodule detection algorithm based on rank correlation causal structure learning[J]. Expert Systems with Applications, 2023, 216: 119381
[45]张福玲,张少敏.应用于CT图像肺结节检测的深度学习方法综述[J].计算机工 程与应用, 2020, 56(13): 20-32
[46]Zhu W., Liu C., Fan W., etc. Deeplung: Deep 3d dual path nets for automated pulmonary nodule detection and classification[C]//2018 IEEE winter conference on applications of computer vision (WACV). IEEE, 2018: 673-681
[47]Liao F., Liang M., Li Z., etc. Evaluate the malignancy of pulmonary nodules using the 3-d deep leaky noisy-or network[J]. IEEE transactions on neural networks and learning systems, 2019, 30(11): 3484-3495
[48]Zhu W., Vang Y. S., Huang Y., etc. Deepem: Deep 3d convnets with em for weakly supervised pulmonary nodule detection[C]//Medical Image Computing and Computer Assisted Intervention-MICCAI 2018: 21st International Conference, Granada, Spain, September 16-20, 2018, Proceedings, Part II 11. Springer International Publishing, 2018: 812-820
[49]Hamidian S., Sahiner B., Petrick N., etc. 3D convolutional neural network for automatic detection of lung nodules in chest CT[C]//Medical Imaging 2017: Computer-Aided Diagnosis. SPIE, 2017, 10134: 54-59
[50]Mei J., Cheng M. M., Xu G., etc. SANet: A slice-aware network for pulmonary nodule detection[J]. IEEE transactions on pattern analysis and machine intelligence, 2021, 44(8): 4374-4387
[51]Song T., Chen J., Luo X., etc. CPM-Net: A 3D center-points matching network for pulmonary nodule detection in CT scans[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Springer, Cham, 2020: 550-559
[52]Farhangi M. M., Sahiner B., Petrick N., etc. Automatic lung nodule detection in thoracic
CT scans using dilated slice - wise convolutions]」]. Medical Physics, 2021, 48(7): 3741-3751
[53]Zhao D, Liu Y, Yin H, et al. An attentive and adaptive 3D CNN for automatic pulmonary nodule detection in CT image[J]. Expert Systems with Applications, 2023, 211: 118672.
[54]Ouyang X., Huo J., Xia L., etc. Dual-sampling attention network for diagnosis of
COVID-19 from community acquired pneumonia[J]. IEEE Transactions on Medical Imaging, 2020, 39(8): 2595-2605
[55]Han Z., Wei B., Hong Y., etc. Accurate screening of COVID-19 using attention-based deep 3D multiple instance learning[J]. IEEE transactions on medical imaging, 2020, 39(8): 2584-2594
[56]Li X., Hu X., Yu L., etc. CANet: cross-disease attention network for joint diabetic retinopathy and diabetic macular edema grading[J]. IEEE transactions on medical imaging, 2019, 39(5): 1483-1493
[57]Li M., Hsu W., Xie X., etc. SACNN: Self-attention convolutional neural network for low-dose CT denoising with self-supervised perceptual loss network[J]. IEEE transactions on medical imaging, 2020, 39(7): 2289-2301
[58]Dan T., Huang Z., Cai H., etc. Learning brain dynamics of evolving manifold functional MRI data using geometric-attention neural network[J]. IEEE Transactions on Medical Imaging, 2022, 41(10): 2752-2763
[59]Chen Y., Jin D., Guo B., etc. Attention-Assisted Adversarial Model for Cerebrovascular Segmentation in 3D TOF-MRA Volumes[J]. IEEE Transactions on Medical Imaging, 2022, 41(12): 3520-3532
[60]Zhao X., Zhang P., Song F., etc. Prior Attention Network for Multi-Lesion Segmentation in Medical Images[J]. IEEE Transactions on Medical Imaging, 2022, 41(12): 3812-3823
[61]Schlemper J., Oktay O., Schaap M., etc. Attention gated networks: Learning to leverage salient regions in medical images[J]. Medical image analysis, 2019, 53: 197-207
[62]Li Y., Fan Y. DeepSEED: 3D squeeze-and-excitation encoder-decoder convolutional neural networks for pulmonary nodule detection[C]//2020 IEEE 17th International Symposium on Biomedical Imaging (ISBI). IEEE, 2020: 1866-1869
[63]Gu R., Wang G., Song T., etc. CA-Net: Comprehensive attention convolutional neural networks for explainable medical image segmentation[J]. IEEE transactions on medical imaging, 2020, 40(2): 699-711
[64]Cheng J., Tian S., Yu L., etc. ResGANet: Residual group attention network for medical image classification and segmentation[J]. Medical Image Analysis, 2022, 76: 102313
[65]Wang X., Yuan Y., Guo D., etc. SSA-Net: Spatial self-attention network for COVID-19 pneumonia infection segmentation with semi-supervised few-shot learning[J]. Medical Image Analysis, 2022, 79: 102459
[66]Georgescu M. I., Ionescu R. T., Miron A. I., etc. Multimodal multi-head convolutional attention with various kernel sizes for medical image super-resolution[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 2023: 21952205
[67]Gu J., Wang Z., Kuen J., etc. Recent advances in convolutional neural networks[J]. Pattern recognition, 2018, 77: 354-377
[68]Goodfellow I., Bengio Y., Courville, A., etc. Deep learning[M]. Cambridge: MIT press, 2016: 340-366
[69]Dumoulin V., Visin F. A guide to convolution arithmetic for deep learning[J]. arXiv preprint arXiv:1603.07285, 2016
[70]LeCun Y., Bottou L., Bengio Y., etc. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324
[71]Ji S., Xu W., Yang M., etc. 3D convolutional neural networks for human action recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2012, 35(1): 221-231
[72]Tran D., Bourdev L., Fergus R., etc. Learning spatiotemporal features with 3d convolutional networks[C]//Proceedings of the IEEE international conference on computer vision. 2015: 4489-4497
[73]刘惠,郭冬梅,邱天爽等,医学图像处理[M],北京:电子工业出版社,2020: 28-29
[74]Setio A. A. A., Traverso A., De Bel T., etc. Validation, comparison, and combination of algorithms for automatic detection of pulmonary nodules in computed tomography images: the LUNA16 challenge[J]. Medical image analysis, 2017, 42: 1-13
[75]Armato III S. G., McLennan G., Bidaut L., etc. The lung image database consortium (LIDC) and image database resource initiative (IDRI): a completed reference database of lung nodules on CT scans[J]. Medical physics, 2011, 38(2): 915-931
[76]Bahdanau D., Cho K., Bengio Y. Neural machine translation by jointly learning to align and translate[J]. arXiv preprint arXiv:1409.0473, 2014
[77]Vaswani A., Shazeer N., Parmar N., etc. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30
[78]Tang H., Zhang C., Xie X.. Nodulenet: Decoupled false positive reduction for pulmonary nodule detection and segmentation[C]//Medical Image Computing and Computer Assisted Intervention-MICCAI 2019: 22nd International Conference, Shenzhen, China, October 13-17, 2019, Proceedings, Part VI 22. Springer International Publishing, 2019: 266-274
[79]Zuo W., Zhou F., He Y. An embedded multi-branch 3D convolution neural network for false positive reduction in lung nodule detection[J]. Journal of digital imaging, 2020, 33: 846-857
[80]Luo X., Song T., Wang G., etc. SCPM-Net: An anchor-free 3D lung nodule detection network using sphere representation and center points matching[J]. Medical Image Analysis, 2022, 75: 102287
[81]Ozdemir O., Russell R. L., Berlin A. A. A 3D probabilistic deep learning system for detection and diagnosis of lung cancer using low-dose CT scans[J]. IEEE transactions on medical imaging, 2019, 39(5): 1419-1429
[82]Zheng S., Guo J., Cui X., etc. Automatic pulmonary nodule detection in CT scans using convolutional neural networks based on maximum intensity projection[J]. IEEE transactions on medical imaging, 2019, 39(3): 797-805
[83]Shrivastava A., Gupta A., Girshick R. Training region-based object detectors with online hard example mining[C]//Proceedings of the IEEE conference on computer vision and
pattern recognition. 2016: 761-769
[84]Girshick R. Fast r-cnn[C]//Proceedings of the IEEE international conference on computer vision. 2015: 1440-1448
[85]Dou Q., Chen H., Jin Y., etc. Automated pulmonary nodule detection via 3d convnets with online sample filtering and hybrid-loss residual learning[C]//Medical Image Computing and Computer Assisted Intervention- MICCAI 2017: 20th International Conference, Quebec City, QC, Canada, September 11-13, 2017, Proceedings, Part III 20. Springer International Publishing, 2017: 630-638
[86]Han Y., Qi H., Wang L., etc. Pulmonary nodules detection assistant platform: An effective computer aided system for early pulmonary nodules detection in physical examination[J]. Computer Methods and Programs in Biomedicine, 2022, 217: 106680
[87]Xiao Y., Wang X., Li Q., etc. A cascade and heterogeneous neural network for CT pulmonary nodule detection and its evaluation on both phantom and patient data[J]. Computerized Medical Imaging and Graphics, 2021, 90: 101889
[88]Huang Y. S., Chou P. R., Chen H. M., etc. One-stage pulmonary nodule detection using 3-D DCNN with feature fusion and attention mechanism in CT image[J]. Computer Methods and Programs in Biomedicine, 2022, 220: 106786
[89]Lin T. Y., Goyal P., Girshick R., etc. Focal loss for dense object detection[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2980-2988