1. 网站地图
  2. 设为首页
  3. 关于我们


基于机器学习的小目标检测算法研究 及其在医学影像中的应用

发布时间:2023-03-21 10:57
目 录
摘要 I
Abstract III
目 录 V
第一章 绪论 1
1.1课题研究背景及意义 1
1.2国内外研究现状 2
1.3本文研究内容 5
1.4本文结构安排 6
第二章 相关理论知识介绍 7
2.1卷积神经网络 7
2.1.1卷积神经网络基本介绍 7
2.1.2卷积神经网络的结构模型 7
2.1.3前馈神经网络与反向传递 9
2.2基于深度学习的目标检测方法 12
2.3图像矩理论 13
2.4医学成像介绍 13
2.5肺结节及计算机辅助诊断系统 15
2.6数据集简介 16
2.7统计方法标准 17
2.8本章小结 17
第三章 高斯多阶导函数检测方法 19
3.1图像的矩 19
3.1.1图像的几何矩 19
3.1.2图像的Hu矩 20
3.2高斯导函数的图像应用 21
3.3基于卷积运算的连续求导 23
3.4高斯矩提取图像特征 25
3.5肺实质分割 26
3.6有无监督点分类对比 27
3.6.1无监督分类 27
3.6.2监督分类 29
3.7基于分布特征分类 29
3.5 结果及分析 30
3.6 本章小结 33
第四章 基于卷积神经网络的肺结节检测 35
4.1算法分析及比较 35
4.1.1Faster-RCNN 理论 35
4.1.2YOLO 基本理论 37
4.1.3算法分析比较 40
4.2基于YOLO算法改进 41
4.2.1结构改进 41
4.3实验与分析 42
4.3.1数据集分析及实验环境 42
4.3.2实验细节处理 43
4.3.3评价标准 44
4.3.4实验结果及分析 45
4.4本章小结 47
第五章 总结及展望 49
5.1本文工作总结 49
5.2未来工作展望 50
致 谢 53
参考文献 55
个人简历、在学期间发表的学术论文及取得的研究成果 61
第一章 绪论
1.1课题研究背景及意义
目标检测、分类、分割都是计算机视觉领域研究的热门方向,其中目标检测技术 应用极为广泛,主流应用方向包括辅助驾驶、人脸识别、行人检测、指纹识别、医疗 图像辅助分析等方面。
随着科技的日趋发达,在计算机计算能力飞速提升的背景下,深度学习得到了前 所未有的发展和应用。深度学习[1]是2006年Hinton等人提出的一种方法,让计算机 在海量的数据实例中学习,将经验以层次化的结构进行迭代优化,定义了层次化结构 中以不同的运算方式来传递信息,通过这种结构来描述事物。这种关系是模拟了人类 的思维方式工作,将复杂的问题和特征转化为许多的简单结构模型进行拟合。这种结 构化方案可以让计算机自主从海量知识中学习到规律并以量化的方式记录,不再需要 手工设计计算机学习的具体特征内容,事实证明计算机的特征提取能力大多会比人手 工设计的特征更好的逼近我们想要的结果,但这需要冗长学习时间,还会给模型带来 不可解释性。
传统的目标检测算法包括:生成目标建议框,提取每个建议框中的特征,根据特 征进行分类三个阶段,对于目标检测分类效果影响最大的往往是提取到的特征信息和 分类器的拟合程度,因此对于局部特征提取的研究对于传统目标检测有及其重要的意 义。
ImageNet[3]数据集挑战中,AlexNet[2]算法在2012年以远超第二名的成绩夺冠, 迅速的将深度学习的方法引入了目标分类的研究领域。经过模型结构的不断研究改进 和新思路运算方式的引入,目前基于深度学习的目标检测方法主要分为单阶段检测和 双阶段检测两类。单阶段检测主要以R-CNN[4],Fast R-CNN[5]和Faster R-CNN[6啲不 断发展为代表,双阶段检测的代表则是YOLO[7],SSD[8]为主要发展轨迹。
小目标定义主要分为两种,一种是相对于整幅图像的尺寸而言,如目标尺寸的长 宽小于等于输入图像尺寸的 10%,即可认为是小目标,另外一种是绝对尺寸的定义, 即待检测目标尺寸小于32*32像素的目标即可认为是小目标。在医学影像中,小目标 体现最为明显,往往病变区域多为面积较小的局部,如早期肺癌就以较小的肺结节形 式体现。肺癌是发病率和死亡率最高的肿瘤疾病, 2018 年最新的全球癌症统计[9],研 究表明,肺癌占整体癌症的 11.6%,占癌症总死亡数的 18.4%。肺癌的诊断尤其是对 早期肺癌患者有极其重大的临床意义,可以大幅度提高五年生存率,这是由于在肺癌 早期诊断中由于存在较高的临床的漏诊比例,因此许多患者要到中晚期才得到确诊, 使得肺癌的死亡率在缺少早期的有效诊断的情况下居高不下。毛刺征、钙化状态和弥 散状态通常是早期肺癌(肺结节)的典型特征,并且结节通常出现的区域主要为肺实 质部分。与自然图像相比较,医学影像主要以灰度图像为主,其中肺部肿瘤影像的特 点是大多目标主要以小尺寸不规则的几何形式存在,相对而言早期的小结节主要存在 包含的像素值更少、体积也更小、细节特征缺失等特点。
目前主要的结节影像筛查手段为计算机断层扫描和 X 射线成像。一方面,相较 于X线诊断,CT在成像方面包含了更多的细节特征和成像方向,更有助于肺癌的早 期筛查,但也大大的提高了的影像数据待筛查的数量;另一方面, CT 的更多影像细 节也使得结节判断更依赖于医生的主观性,提供了影像解释的多义性;此外大量的 CT 影像数据,给医生的诊断带来了巨大的工作量,使得医生容易因阅片疲劳和主观判断 等多方面原因影像判断。对该问题引入计算机辅助诊断会有良好的改善,通过对疑似 区域的标注可以很大程度减少医生的主观性和阅片疲劳等因素的影响,可以有助于提 高肺癌早期诊断的准确率和召回率,同时提升检测效率。
1.2国内外研究现状
传统目标检测中的特征提取方法是影响检测效果的主要因素,主要包括:尺度不 变特征转换(Scale-invariant feature transform SIFT)[10],加速版的具有鲁棒特性的特征 算法(Speed Up Robust Features SURF)[11],加速段测试的特征(Features from accelerated segment test FAST)[12]等。SIFT 算法由 David Lowe 在 1999 年所发表【⑼,2004 年完 善总结,主要提出了先用二维高斯函数构建高斯金字塔或高斯差分金字塔,在空间尺 度检测极值点中对关键点进行定位,进行关键点特征匹配和方向描述。主要思想是通 过位置、尺度以及方向三个信息,对每个关键点建立一个向量来描述局部信息,使该 项量不随各种周边环境变化而改变,比如光照变化、视角变化,尺度变化等等。为了 特征点匹配的特征概率,必须要使得特征点有足够的独特性容易分辨,该描述向量包 含当前位置关键的信息描述和局部贡献邻域的信息描述使其不仅具备了向量独特性 也大大的提高了信息正确匹配概率。从物体上一部分的局部外观兴趣点中用算法提取 点特征信息,这些提取到的信息仅与物体本身特征有关并不会受到尺寸旋转等操作的 影响,因此在小目标检测中也会体现出相当的优势,此外该算法具有在检测时提供了 旋转不变性、尺度缩放不变性、亮度变化保持不变性,以及对视角变化、仿射变换、 噪声的都具有很好的稳定性。
2006年Edward Rosten和Tom Drummond提出了全新的特征点检测算法FAST[12], 文章于 2010 年修改后重新发表。该算法高计算效率、高可重复性特征提取算子,在 三维目标识别、图像匹配、图像配准、场景重构、目标跟踪等领域得到了广泛的应用。 算法在实现思路上主动放弃了对于特征的描述,只通过突出对特征点本身的检测,在 特征描述和选取阶段必须结合其他特征提取算法实现oFAST算法主要包括5个步骤:
1.一个以像素p为中心,r为半径3圆上,有n个像素点(p[n], k=l,2,3...16)。2.定 义一个阈值k,计算pl、p9与中心p的像素差是否大于阈值,若是则当作候选节点 进入下一步选择,否则忽略。3.将选出的p点,则计算pl、p9、p5、p13与中心p的 像素差,当其中有 3 个超过阈值,则继续送入下一步筛选,否则忽略。4.对筛选后的 点p计算p1到p16所有点与中心p的像素差,若它们有至少9个超过阈值,则将其 判断为特征点进行最后判断 5. 计算特征点出得分值,判断以特征点 p 为中心的一个 邻域内,若邻域内只有一个特征点保留;若有多个特征点,只保留其中得分最高的点。
深度学习在很多领域内各种任务已经有了广泛的研究和使用,目标检测同样也是 其中的一个热点方向,并在自然图像数据集上取得了优异的成绩。但对于小目标检测 任务大多数针对自然图像数据集的算法都无法很好地实现,准确率和召回率都难以达 到较高的水平。其中主要原因是目标本身尺度很小,缺乏局部特征信息,局部细节分 辨率较差以及其他光照视角等变化。目前很多目标检测方法都是基于多尺度的方法来 处理小目标问题,但是在检测中 4*4的像素区域和 40*40的像素区域在问题本质上还 是有较大区别的。
在 2017 年 Peiyun Hu 和 Deva Ramanan 提出了一种针对小人脸检测的方法[13],首 先基于多尺度目标检测,在文章中作者使用了不同的尺度和比例上对多个目标检测框。 对于训练中可能出现的部分尺度欠拟合现象,多模型尺度检测效率低等问题,文章使 用了一种multi-task的模式,使得单个模型的不同层级特征得到充分利用。在不同尺 度中进行特征融合,这一技术在较大目标检测中的影响不是很明显,但是小目标检测 的关键,该方法还用到了凹视觉描述符,本质上是一种语义特征和纹理特征相结合的 处理方式,并对尺度设置了 0.5丄2三种比例尺寸。2019年在Nature Medicine上的一 项由谷歌AI部门的Daniel Tse与斯坦福大学的Joshua Reicher、西北大学的Mozziyar Etemadi、纽约大学的David Naidich的新研究[14],开发了一个深度学习模型。他们在 42290 个 CT 扫描图像上对模型进行训练,使其能够在没有人为参与的情况下,预测 肺结节的恶性程度。与六位放射科医生相比, AI 的准确度更高,敏感性增加了 5%, 特异性提高了 11%,AUC达到94.4%,这项研究中的模型检测水平已经超过了医生, 其技术模型尚未开源。
Hongtao Xie 等[15]使用深层卷积神经网络并用 L1, L2 正则化定义锚框的大小和 损失函数,并获得了<30 mm的结节。准确率为90.3%,但是对于那些<10mm的结节, 检出率仅为44.4%。Arnaud Arindra Adiyoso Setio等[16]。使用具有三个检测器的多视 图卷积网络方法,优化了二维卷积网络架构的视图数量和融合方法,以及两个最关键 的调整参数。卷积融合减少了误报率,结果,候选检测算法检测到 94.0%的结节,在
性能最佳的 CAD ANODE09 上优于系统。
传统的结节检测涉及需要领域专业知识的手工设计特征或描述符[21]。最近,已经 提出了几项使用深层卷积网络进行结节检测以自动学习特征的工作,事实证明,这比 手工设计的特征更有效。 Setio 等提出多视图卷积网络减少假阳性结节[24]。由于 CT 扫描的 3D 性质,一些工作提出了三维卷积网络来应对挑战。提出了 3D 完全卷积网 络(FCN)来生成候选区域,并使用带有加权采样的深层卷积网络进行假阳性减少[18]。
Ding et al. and Liao et al 使用 Faster R-CNN 生成候选结节,然后使用三维卷积网络筛 除假阳性结节[17][20]。多篇相关文章表明Faster R-CNN网络在检测时的有效性能[19][22], Zhu, Wentao等提出了一种具有3D双路径块的3D Faster R-CNN网络[25],用于结节检 测。此外,针对3D Faster R-CNN采用了类似于U-net的编码器/解码器方案,以有效 地学习特征[23]。
以3D CNN[26][29][32]为例,它被更频繁地用于分割和定位肺结节。和Dou等。已 经使用 3D CNN 进行分割[26][27]。但是 Anirudh 等人在论文中的最新工作。有研究表 明,使用弱标记数据的方法通过训练3D网络已成功完成了肺结节的分类[28]。在该方 法中,确定了那些标记为结节的点周围的一些固定大小的矩形区域,然后将其用作训 练四层3D CNN来完成分类任务的输入。这种方法更有效地利用CT切片之间的空间 相关信息。但是计算成本和存储容量的浪费使它不适合在 3D CNN 的网络结构中设 计得过于复杂[30][31],这影响了提取特征的准确性。
为了避免上述情况,在结节分类任务中经常使用二维CNN方法。在这些2DCNN 方法中, Lietal Kumar 等人[33]提出了一种基于 AlexNet 结构的 7 层卷积神经网络来对 肺结节进行分类。 [34]提出了一种五层自动编码器,以提取肺结节分类的深层特征。 更重要的是,Hua等[35]提出了一个深度信念网络和一个卷积神经网络来完成相同的肺 结节分类任务。
尽管在这些 2D CNN 方法中,有些情况在形式上与我们相似,都致力于解决上述 肺结节分类的难题。例如,Shen等。提出了两种不同的多尺度CNN模型[36]和多作物 CNN [37]模型来描述不同级别结节的特征。多尺度 CNN 方法将三种不同大小的图像 作为输入来分别训练三个CNN。然后,将这三个CNN的输出特征连接在一起,以进 行分类训练。这种处理在一定程度上提高了分类性能。从上述研究可知虽然目标检测 技术已经取得了足够的理论研究基础,但难以很好地满足小目标检测任务,部分效果 较好的检测模型通常以超高计算量为代价,因此无论是从理论,算法还是应用层面, 还有很多针对该问题的挑战。
1.3本文研究内容
综上所述,目前在小目标检测在一些领域已经取得较好的成果,但在实际应用中 仍有很多不足,如对上下文信息理解的不充分,过深卷积使得细节丢失甚至目标淹没 在过深的卷积层中,语义信息被忽略等众多问题。针对以上问题本文主要研究了多阶 高斯导函数对图像小尺度目标的特提取效果和改进版YOLO V3对小目标端对端检测 效果,并使得特征更多聚焦于语义信息,上下文信息,局部特征等小目标检测主要问 题。本文研究内容如下:
(1)针对神经网络在面对图像中目标提取特征训练时收敛速度慢,小目标检测 效果不佳等问题,提出了一种基于多阶高斯导函数的图像特征提取方法,而且该方法 根据理论推导和实验验证均保证了平移、旋转和尺度不变性的图像特征,但由于奇次 阶导数和偶次阶导数各自为非正交基,因此不具备重建性。根据该算法提取的特征具 有可解释性,算法通过对图像像素点的局部特征直接求解,可以完全跳过神经网络中 冗长的训练时间。
(2)传统的卷积神经网络模型缺乏上下文信息,对局部信息理解不够并且由于 过深的卷积会使小目标淹没在信息提取的过程中。因此本文对于 YOLO 算法进行优 化,使得该算法兼顾了用一种结合局部特征信息、特征融合的网络架构,并且对小目 标做出有效检测。在整个检测网络过程中由于是单机阶段目标检测,在实时性方面相 较于双阶段目标检测网络得到极大的改善,先将通过特征提取网络提取到的特征直接 送入上采样层和检测层,将位置信息和类别信息进行一次性统一处理,在保证结果的 基础上极大的提升了检测速度,可以实现在GPU上完成整个过程的实时检测(>25fps)o
(3)在医学影像检测中病灶大都以小目标的形式出现,本文以肺结节为例。由 于数据量大计算复杂度较高,检测时的假阳性率高两大问题普遍存在于肺部肿瘤早期 检测中,分别应用上述小目标检测的解决方案提取相应尺度下的高斯特征做分类检测, 提升模型的可解释性和特征提取速度;并用单阶段端对端的神经网络做直接检测,提 升检测性能和检测速度。
本文创新点如下:
(1)为了提高小目标检测效果,提出了针对像素点检测的特征提取方法,同时 降低深度学习冗长的训练提取特征时间,提出了基于多阶高斯导函数的图像离散非正 交矩阵,并建立检测过程。
(2)在目标区域直接检测中,本文引入了具有局部特征信息和多层特征融合的 YOLO 网络,并通过优化 YOLO 模型提升在保留更多底层信息的同时提高深度学习 的检测效率,降低漏检率和误检率。
1.4本文结构安排
本文分为五章第二至第五章分别介绍了基于图像矩和深度学习的两种方法分别 在肺结节数据集上的检测效果架构安排为:
第二章主要介绍了卷积神经网络的基本知识和处理目标检测问题的基本思路,基 于图像矩特征提取检测方法的处理流程以及各自的研究现状,肺结节图像分析和处理 的背景知识与相关研究。首先介绍卷积神经网络的发展和前沿技术、原理及优缺点和 几种被广泛应用的经典CNN目标分类和检测架构;其次介绍了关于图像局部矩的研 究思路,包括对连续函数的逼近思想和对二维离散函数的迁移。最后还对各种医学图 像数据成像类型、原理和各自的优缺点进行了简述。以上均为本文的研究工作提供基 础支撑。
第三章是基于图像局部矩的方法研究,在泰勒级数下多阶高斯导函数逼近的图像 处理思路对图像进行二维离散的函数逼近,通过离散非正交基函数将每个点在卷积下 的局部信息理解和多维映射进行分类,利用卷积和导函数之间的运算关系,给出一种 可迭代的高斯函数求导方法,并将通过此方法提取到的特征进行降维处理,通过聚类 分别选取其在前景和背景中有代表性的点向量分布。在检测时用目标区域的向量分布 来估计区域内所有点的正负样本概率从而给出判断。
第四章是对于卷积神经网络方法研究的描述,主要包括了单双阶段网络结构详细 比较, YOLO V3 本身的实现原理,公式推导,模型及参数改进方法以及相关改进的 原理思路,并就该算法用于肺结节训练和检测,验证其有效性和效果提升,为理论提 供实验支撑,并就目前现存的各种肺结节检测工作进行了对比试验,由于研究工作大 都基于不同的目标检测网络类型,并都进行了不同思路的提升性改造,将会在准确率 (precision),召回率(recall),曲线下面积(Area Under Curve ,AUC),检测时间 等指标进行评估,围绕肺部结节点检测中存在的计算复杂度高、假阳率高等问题展进 行研究。
第五章就本文的已完成工作做出了归纳总结,并提出对该领域相关研究工作对未 来的展望。
第二章 相关理论知识介绍
本章将介绍了卷积神经网络、图像局部矩理论、肺结节图像分析方法、研究背景 和相关工作。首先主要阐释了卷积神经网络的基本原理、网络层级结构、映射关系等, 并介绍了目前主流目标检测网络的基本机制;其次,通过提供高斯函数的卷积多阶求 导和图像局部矩研究的理论基础;最后,介绍了医学图像的成像原理和各种医学影像 公开数据库。以上为本文后续的研究提供理论基础。
2.1卷积神经网络
2.1.1 卷积神经网络基本介绍
卷积神经网络(Convolutional Neural Network, CNN) [39]是机器学习的一个重要 方向,在深度学习中卷积神经网络是一类优秀的深度神经网络,常用于图像和自然语 言处理。最早可以追溯到1958年Hubei和Wiesel[38]两位脑神经科学家的研究工作, 首先提出了视觉感受野这一概念,他们发现猫的视觉系统由多个层级组成,视觉信息 传递中存在抽象过程,对于环境中特定空间位置上的简单特征,初级视觉皮层中的神 经元会对其进行响应,并根据此得到神经网络的基础理论和感受野的基本概念。到了 1980年,Fukushima[39]提出并实现了首个实现神经网络的将其成功应用于手写字符 书别工作。纽约大学的Yann Lecun在1998年基于Hubei、Wiesel和Fukushima等人 的结论和模型提出了卷积神经网络并给出了类似的模型设计[40]。
近年来卷积神经网络发展迅速,在图像处理和自然语言处理等众多领域都有重要 发展,在面向自然数据及的分类,检测,分割方面也在不断刷新自己的成绩。卷积神 经网络的优点可以不借助手工提取特征,对于输入训练集数据进行迭代优化从而自动 提取特征,而且在经过较好迭代控制情况下提取到的特征往往在检测时优于手工提取 的特征,有更好的抽象表达能力和泛化能力。
2.1.2卷积神经网络的结构模型
卷积神经网络能够自动提取大量特征,通过局部连接、权值共享等方法避免传统 网络巨大的参数量和耗时的模型训练等问题,且泛化能力强。卷积层、池化层和全连 接层是目前神经网络的主要层级结构,下文对此进行介绍:
(1)卷积层
卷积层的主要功能是提取输入图像特征,实现通过局部连接对输入图像局部信息 的提取,并通过权值共享大大的降低了网络参数量,二者保证了网络的稀疏性。在具 体实现上对输入进来的图像或是上级传入的映射结果分别进行 k 个卷积核的滑窗运 算。图 2-1 以单通道 3*3 卷积核实现对输入进行卷积运算,计算过程见式 2-1,用尺 寸为m *m* 1的卷积核g(x )对f(x)进行卷积,f(x)尺寸为M * M(M >> m),经过卷积图 像会缩小为N *N, N = (M-m + 2p)/s + 1,其中为s步长,p为填充数。卷积核可以 看作一个局部的权值矩阵,对每个位置赋予不同权重,由于图像有局部相关性所以可 以实现权值共享。
 
图 2.1 卷积运算
 
yij = f(x) 0g(x) = lu=il^=ixi-u+ij-v+i*g(u,v) (2.1)
(2)池化层 最常用的池化操作有两种分别是最大池化和平均池化,池化层可以对输入进行降 采样,对输入的数据进行保留主要特征的降维,控制模型过拟合,增加在尺度上增加 稳定性。池化的运算也是采用滑窗法设定步长对输入进行遍历如图 2-2。
 
 
( 3)全连接层
全连接层结构相对简单,在全连接层的前层所有神经元数据都需要与本层的神经 元相直接连接,与卷积层中的局部区域连接和共享参数不同。全连接层参数量巨大通 常占到神经网络的百分之八十左右,可以通过忽略输入的空间信息来增加模型的鲁棒 性,通常采用全连接层两层以上的设计,全连接层中每一个神经元可以看作一个多项 式,效果类似泰勒公式用多项式去拟合一个光滑的函数,单层全连接层难以很好地解
决非线性问题,因此多用为两层以上。
2.1.3前馈神经网络与反向传递
常见的神经网络结构主要有三种:前馈神经网络、反馈神经网络和图网络,卷积 神经网络是一种典型的前馈神经网络(Feedforward Neural Network, FNN ),将每个 神经元按接收信息的先后分组,每一组看作一个神经层,后层神经元将前层神经元的 输出作为输入,对其进行运算传入下一层,如图 2-4。第一层为输入层,最后一层为 输出层,其余的均为隐藏层。整个网络中无反向信息传递(不同于误差的反向传递)。 将类似非线性函数的多级复合结构视为一个复杂函数结构,前馈神经网络的原理与此 类似,通过这种方法完成从输入到输出的映射关系建立,进而不断优化其中的参数设 置,网络传递公式为式2-2,/为层数,3,b分别为系数偏置参数,a为神经元输出, z为神经元输入。
输入层 隐藏层 隐藏层 输出层
y
兀(3)
卫)
图 2.3 前馈网络
a1 = f(zB = f(o)⑴ a1-1 + b) (2.2)
在网络结构之外还需要设置损失函数用来度量预测和真实值之间的差异,用优化 算法迭代逼近计算目标的最优解。提出使用优化算法求解的原因在于待求解问题是否 是凸优化问题和数据体量、维度等限制难以直接求解:如果是凸优化问题,如果数据 量特别大,那可能直接超出计算机内存或者梯度计算非常耗时,因此会选择使用迭代 的方法求解,迭代每一步计算量小,且比较容易实现。对于非凸问题,只能通过迭代 的方法求解,使每次迭代求解到的目标函数值不断变小,不断逼近最优解。
常用的损失函数有:交叉熵损失函数,平方损失函数,指数损失函数,KL散度 等。深度学习优化算法在梯度下降(Gradient Descent)的基础上经历了 SGD -> SGD-
M -> NAG ->AdaGrad -> AdaDelta -> Adam -> Nadam 的不断发展。
梯度下降是指,在给定待优化的模型参数0 e欣°和目标函数j(d)后,算法通过沿 梯度^eJ(0)的相反方向更新0来最小化〃(0)。学习率乃决定了每一时刻的更新步长。 梯度下降法的流程比较简单都是比较直接的导函数运算求解具体求解过程如下: 目标函数关于某项参数的梯度计算
9t = V 力(0) (2.3)
根据历史梯度计算一阶和二阶动量
叫=0(01,02, ■…■ -,9t) (2.4)
Vt = ^(dl,d2,•…… ■,9t) (2.5)
更新模型参数
1
%+】 = %—济mt (2.6)
其中,&为平滑项,防止分母为零,通常取1e-8。
根据以上框架,下面分析和比较梯度下降的各变种算法:
朴素 SGD (Vanilla Stochastic Gradient Descent, SGD) [41]最为简单,没有动量的概 念,即叫=^gt,vt = I2, e = 0。这时更新步骤就是Qi+1 = - ^gt,SGD的缺点在 于收敛速度慢,可能在鞍点处震荡。并且,如何合理的选择学习率是 SGD 的一大难 点。
SGD-M 在原步长之上,引入了过去计算的累计梯度下降方向信息,添加了上一 部的步长相关项ymt-i,Y的取值通为0.9左右,这将对当前的梯度下降方向产生影响, 使其不仅仅关注与当前步长下的下降方向,也借鉴过去的梯度变化方向。
mt = ymt-i + ^gt (2.7)
当累计梯度与当前梯度方向一致性较高时,可以加速计算梯度在该方向下的更新 速度,增加幅度,而在两个方向差异较大或接近正交的方向上更新幅度会很小,并且 速度缓慢。该参数的引入提高了计算的收敛效率,降低因为局部噪点引发的震荡效果。
NAG(Nesterov Accelerated Gradient) [42]更进一步的,人们希望下降的过程更加 智能:算法能够在目标函数有增高趋势之前,减缓更新速率。其在 SGD-M 的基础上 进一步改进了步骤 1 中的梯度计算公式:
9t = ^e3(G - ymt-i) (2.7)
SGD-M 的步长计算了当前梯度和动量项,然而,既然已经利用了动量项来更新, 那不妨先计算出下一时刻0的近似位置,并根据该未来位置计算梯度,然后使用和 SGD-M 中相同的方式计算步长。这种计算梯度的方式可以使算法更好的预估将来, 提前调整更新速率。
Adagrad[43]不同于SGD、SGD-M和NAG,由于在深度学习中模型的参数数量和 计算量非常巨大,不同参数的更新频率往往有所区别,所以不再用相同的学习率去更 新0的各个分量。很少更新的参数如果更新步长太小,则收敛过程太慢需要更多的迭 代次数,因此更大步长可以加速学习,而频繁更新的参数需要更好的稳定性降低震荡 带来的影响,因此更适合较小的更新步长,使得学习到的参数更稳定,不至于被单个 样本影响太多。Adagrad[4]通过引入了二阶动量算法以到此效果:
% = diag^ZUidh,Si=idt,2 > - ^i=i 9i,d) (2.8)
其中,叹d*d是对角矩阵,其元素Vt..为参数第i维从初始时刻到时刻t的梯度平 方和。可以理解为学习率等效为彷阿+7。学习率的高低取决于二阶动量分量,而 当参数更新频率很高,其对应的二阶动量分量会更大,从而降低学习率,这一方法在 稀疏数据的场景下表现很好。
Adam[44]可以认为是RMSprop和 Momentum 的结合。和RMSprop对二阶动量 使用指数移动平均类似, Adam 中对一阶动量也是用指数移动平均计算。
叫=押1叫-1 + (1 -屁)加 (2.9)
vt = ^2vt-i + (1 - Pi)diag(g2) (2.10)
其中,初值m0 = 0,% = 0。
注意到,在迭代初始阶段,mt和vt有一个向初值的偏移(过多的偏向了 0)。因 此,可以对一阶和二阶动量做偏置校正(bias correction),再进行更新:可以保证迭代 较为平稳。
mt
叫=1-P1 (2.11)
(2.12)
1
%+】 = % —乔呢 (2.13)
gt = v力(d — ?叫_1) (2.14)
mt = ymt-i + ^gt (2.15)
d+i = d —叫 (2.16)
NAdam 在 Adam 之上融合了 NAG 的思想。 NAG 的公式如(2.14-2.16) , NAG 的核心在于,计算梯度时使用了「未来位置」色―/叫-1。NAdam中提出了一种公式 变形的思路,大意可以这样理解:只要能在梯度计算中考虑到「未来因素」,即能达 到Nesterov的效果;既然如此,那么在计算梯度时,可以仍然使用原始公式gt = ^eJ(O),但在前一次迭代计算时,就使用了未来时刻的动量,即et = et-i-mt, 那么理论上所达到的效果是类似的。这时公式修改为:
gt =勺閔(肌) (2.17)
 
mt = ymt-i + ijgt (2.18)
= ymt + ^gt (2.19)
0t+i = d—两 (2.20)
理论上,下一刻的动量为mt+1 = ymt + ijgt+1,在假定连续两次的梯度变化不大 的情况下,即gt+1 - gt,有叫+1 -Y叫+乃骯=两。此时,即可用两近似表示未来 动量加入到0的迭代式中。类似的,在Adam可以加入两=凤,mt展开:
 
 
呢=丙
I (1-Pi)9t-\
1-01 ]
2.19)
 
 
 
引入:
再进行更新,
1
弘+1 =弘—肩花两
2.20)
 
 
 
反向传播算法是将给定的样本(x,y),将其输入到神经网络模型中,得到损失函 数为:L(y,刃,当采用梯度下降法对神经网络的参数进行学习,就要对每个参数进 行损失函数求导运算。
以第k层中的参数3“和护为例,计算损失函数对参数的一阶偏导数。求导的计 算涉及到矩阵微分,运算过程繁琐,以第k层单一元素为例:
8L(y,50 _ 8L(y,刃一旳
83仃 dzl 83$:
l,J I,J
8L(y,50 _ 8L(y,刃一 dzl
dbl dzl dbl
只需要计算警磐,篇三个部分。警2是前层误差项记为/: I,丿
沪=^2 = diag(f{(z(l^)) O ((^l+1)T8l+1)
畔=& • (a(-))T
az(y,刃一川
dbl = °
2.2基于深度学习的目标检测方法
目前主流基于深度学习的目标检测网络主要分为双阶段检测(two-stage)和单阶 段检测(one-stage)两类,二者的区别在于双阶段的方法是用相应的Region Proposal 算法(可以是传统算法,也可以是神经网络)从输入图片中生成建议目标候选区域, 然后将所有的候选区域送入分类器进行分类;而单阶段是直接将输入图片分割成九* 九的图像块,然后对每个图像块使用M个固定尺寸的检测锚框,输出锚框的位置和分 类标签。
作为计算机视觉领域研究的重要方向目标检测的发展十分迅速,当前基于深度学 习的目标检测主流框架有R-CNN系列、YOLO、SSD等。本文中基于深度学习主要 使用了基于单阶段的 YOLO 检测算法并在其基础上进行针对性改进后对肺结节进行 检测,故在下面部分将介绍YOLO系列算法。
双阶段的目标检测网络主要以 R-CNN, SPP-Net, Fast-RCNN, Faster-RCNN, FPN 为代表发展,通过特征金字塔,权重共享,简化特征提取,建议区域,softmax[53]预测 多分类等多种方法不断进行改进。由于本文主要基于 YOLO 理论,所以主要介绍单 阶段目标检测方法和 YOLO 的原理。
2.3图像矩理论
图像的矩理论是基于数学中矩提出的,矩是一种针对图像特征描述的算子,可以 表达图像的特征信息,图像矩技术已经广泛用于图像检测、图像识别、图像匹配、图 像压缩、图像水印以及图像序列分析等众多领域。几何矩、正交矩、复数矩和旋转矩 是目前图像矩研究中主要的矩描述算子。其中几何矩的研究最为深入和充分,主要因 为几何矩的提出时间最早且形式并不复杂。几何矩主要优势在于描述简单的图像,复 杂图像描述能力不强,在区分度效果上其他三种矩表现更加优秀,但几何矩表达形式 非常简单,一般只需用一个数字就可以单独表达。当基函数为非正交形式时,对应的 矩为非正交矩,如几何矩[45],径向矩[46]。当基函数为连续正交形式时,对应的矩为连 续正交矩,其中的代表为zernike矩,legendre[47]矩;当基函数为离散正交形式时,对 应离散正交矩,如 Tchebiche[48]矩、krawtchouk 矩[49]、hahn[50][51 ]矩、racah[52]矩等。非 正交矩形式简单、计算快、易于实现,但抗噪性差、基函数非正交、信息冗余大。
在图像分析中,矩技术的研究主要关注不变矩的构造,计算性能,图像重建性。 构造不变矩的问题即如何使用矩方法从有噪声干扰的数据样本中获取有关该目标的 一般描述,且该描述应该与噪声,仿射变换,环境,光线等因素无关;计算性能上希 望可以做到快速准确计算相关矩值;图像重建要求通过矩重建的图像保真度高,抗噪 性好。
2.4医学成像介绍
医学影像技术学是借助于某种介质,将人体内部组织器官的形态、结构及某些生 理功能。超声成像、 x 射线成像、磁共振成像和核医学成像是主要的四类成像系统, 依据信息载体不同形式分类。由于本文用的是肺部计算机断层扫描图像(computed tomography,CT),因此主要对该成像方式进行基本概念介绍。
CT 图像是由不同 CT 值组成的灰度图像,与普通的灰度图像不同的是这些像素 反映的不是[0,255]的像素值,而是表征相应组织体素的X射线吸收系数。CT设备在 成像时图像中的像素大小和像素数目根据设备不同,通常像素越大,数目就会越少, 图像中的细节特征信息缺失率越高,目标的空间分辨力差,像素小的影像则正好相反, 因此在分辨病灶等局部细节信息时像素数目多的CT会更有助于判断。
相较于X光成像,CT是容积成像,体现了在扫描范围内一个三维空间中人体的 密度差异。X光片是把检查范围内所有密度的差异重叠到一个平面上,直接输出X线 经过人体衰减之后落在探测器上的影像。 CT 优势还在于后期可以对图像进行重建处 理,但在辐射剂量上X光片的辐射剂量远低于CT成像,因此对于不需要CT就可以 进行有效判断的医学问题应尽量避免使用X光片。
由于软组织结构可以在CT图像上得到更好的描述,如脑、脊髓、纵隔、肺、肝、 胆、胰等器官,并在三维空间中更好的描述病灶区域影像特征。因此本文在进行检测 时使用的肺结节CT影像。
组织 CT 值 组织 CT 值
 
表 2.1 人体 CT 值
 
CT成像的本质是基于朗伯比尔定律(Beer-Lambert Law)和Radon transform (拉 东变换)的衰减系数成像,各物质的衰减系数可由式 2.26 来计算其 CT 值 HU ( Hounsfield Unit):
CT 值= ^2^*a (2.26)
CT 图像是断层截面成像,常用的是横断面。通过固定间距的离散层面图像来描 述整个器官或组织信息。通过CT图像的三维重建可以从如矢状面冠状面等不同的剖 面或角度来观察器官局部信息和生理状态。通常用物质 X 射线的线性衰减系数来表 述对X射线造成的强度衰减程度。衰减能量的影响因素取决于物质的原子序数,X射 线能量,物质密度。人体的不同组织并非单质,原子序数通过等价认定,在临床上中 比较常用的X射线能量范围在80-140KeV,因此医学CT通常是通过物质密度来对物 质进行区分的。在将 CT 图像映射为灰度图像公式见式 2.27,其中 slpoe 和 interecpt 两项参数均可在 dicom 影像文件中读取到。
0厂值=pixel_val * slope + intercept (2.27)
由于人眼的灰度的有效识别能力通常只有16个灰阶度,而CT影响对应了 2000 个密度差别,因此对原始CT图像当CT值差异超过125Hu时才会被识别到,根据表 2.1不难得到结论,人体软组织的CT值差异通常只有几十Hu,超出人眼的分辨范围, 为此引入了肺窗来更清晰的观察肺部组织的具体细节信息,观测的中心CT值为窗位, 观测范围为窗宽。
(一) 窗宽指选取的 CT 值范围当选取窗宽为 100Hu 时人眼就可以分辨 6.25Hu 的 CT 差值,因此图像的清晰度和对比度受窗宽值的直接影响,如果使用较窄的窗宽 可以提供更强的对比度和更多的细节信息,但会减小CT值的显示范围,当选取的窗 宽较宽时保留了更大的CT显示范围但对图像的增强效果不明显,对局部特征和细节 特征无法得到保留。
(二) 窗位指选定窗宽的中心值或是均值,通常窗位选择时应该等于或接近需要 观察组织或器官的 CT 值,以体现目标位置的细节信息。
目前有许多医学公开数据及和医学图像数据竞赛,为目标检测,分割,分类提供 了更多的研究基础,如自闭症脑成像数据交换(ABIDE),阿尔茨海默病神经成像倡 议(ADNI),用于血管提取的数字视网膜图像(DRIVE),肺图像数据库联盟(LIDC)
2.5肺结节及计算机辅助诊断系统
肺结节主要是指肺实质内单发或多发直径不超过 3 cm 的圆形或类圆形结节影, 不能排除早期肺癌的可能,大于 3cm 的相似结构体被认为肿块。是因此可以通过筛 查肺结节,指导早期肺癌检测。检测时医生通常会结合病史和图像中的结节尺寸,外 观形状,边缘信息,成像位置等诸多信息进行综合判断,以免产生误判,通常X光片 可发现的结节尺寸范围大致为8毫米以上,因此引入CT来对更小尺度的结节或疑似 区域进行排查非常有必要。通常癌变的可能性与结节的体积,形态,不规则程度等诸 多因素相关,在癌变的过程中会出现结节体积增大和形态越发不规则。当结节长期尺 寸较小并且不随时间继续发展,通常不太会发生癌变。根据以上规律如果结节没有随 时间增长向外延伸,通常可认为良性结节,但对于随时间体积增长边缘不规则外延等 特点,医生会结合病史以及形态或进行额外检查确定。
计算机辅助检测系统(Computer Aided Detection,CAD)[54]主要用途是在诊断图像 上给出医生勾画出建议性的重点疑似区域,从而帮助放射科医生避免忽略癌症。输出 通常是癌症的位置而不是癌症为恶性的可能性。
在目前的肺结节检测研究中,计算机辅助诊断主要以CT图像辅助诊断为主,主 要由于CT检测比较普遍,图像数据量较大对辅助诊断的需求较高,而且在CT图像 中可以探测到更小的目标区域,为检测提供更多局部特征、细节表现以及纹理信息, 这都有助于肺癌的早期诊断和小结节的发现定位。同时目前的医学影像数据集也有很 多是基于CT形式的表现得,其中基于CT图像的肺结节特征提取和目标检测算法是 在当下较为成熟的技术,除此之外还有乳腺癌检测,脑肿瘤分割检测等。
CT 图像的存储格式通常都为 DICOM 格式。这种格式上的统一为计算机辅助诊 断统一输入数据格式提供了便利,在CAD整个系统的实现过程可以不单独依赖于某 种特殊的成像设备局限,也为算法研究提供了方便,本文所做的研究也是基于CT图 像。
目前肺结节领域计算机辅助诊断所采用的算法主要可以分为两种,一种是基于机 器学习算法分类的方法,另一种是基于深度学习的目标检测方法。本文的研究将对这 两种方法做了并行研究,通过图像矩提取特征并使用机器学习算法分类的方法优势在 于不需要长时间的特征迭代优化可以进行求解分类筛选主要特征,同时也可以支持少 样本学习;基于深度学习的目标检测算法本文在 YOLO 算法的基础上进行了特定方 向改进,在训练时需要更多的训练数据量,需要长时间迭代优化训练,但其检测效果 比传统机器学习的效果要更好。
2.6数据集简介
本文所使用的数据集来自 LIDC-IDRI(The Lung Image Database Consortium)[55], 从数据集中选肺部CT扫描数据,在格式上图像采用dicom形式,标注使用的是键值 对文件xml形式不同于LUNA16的存储形式,下面将对数据集进行说明。
LIDC-IDRI数据集的发起者是美国国家癌症研究所(National Cancer Institute),同 时有多家学术中心和影像公司合作创建,主要目的是为了给肺癌早起筛查的研究者提 供标签数据支持。
在该数据集主要由两部分组成分别是医学图像文件以及对应多名医生给出的诊 断结果标注文件。数据集中包括了 1018 名患者实例,每个患者实例的所有 CT 图像 都经由四位胸部放射科医生独立的进行两阶段标注和诊断。第一阶段每位医生在独立 诊断时需要标注结节区域和尺寸,通常给出三个尺寸范围分别是大于等于 3毫米,小 于 3 毫米和大于等于 3 毫米的非结节部分(官方描述为: “nodule > or =3 mm”, “nodule < 3 mm",="" and="" “non-nodule=”"> or =3 mm”)。在随后的第二阶段中,每 位放射科医师独立检查其他三位医生的匿名标记,以提供完整结果。整个过程的目标 是允许每个医生在每个CT图像中识别尽可能多的完整肺结节,而不需要强制一致性。
2.7统计方法标准
在结果评价中,对不同检测算法的比较主要用到的比较标准主要由准确率 (accuracy)> 敏感性(sensitivity)特异性(specificity)曲线下面积值 AUC (Area under curve) 四个评价指标[56]。准确率是计算在预测中被正确分类的样本数量占测试样本总数量 的比例,反映了算法对于检测数据的整体准确性表现;敏感性通常也为召回率或是查 全率,计算正确分类的正样本或阳性占全部正样本的比例,比例越高算法漏诊率越低; 特异性为负例或阴性病例占所有负样本的比例,反映了误诊;AUC是ROC曲线与横 纵坐标围成的面积计算,在ROC曲线上真阳性率为纵坐标假阳性率为横坐标,AUC 的面积值反映了算法的分类性能,值越大分类性能越好。
2.8本章小结
在本章中主要介绍了两种检测方法的基础理论,分别是卷积神经网络的基本结构、 优化函数的发展思路和图像矩提取特征的相关研究,两种方法都为本文解决问题提供 了研究思路。之后介绍了关于CT图像的成像,像素分布,通过窗宽和窗位实现局部 信息强化。最后介绍了一些医学影像数据集和本文中使用的数据集以及评价标准。
 
 
 
第三章 高斯多阶导函数检测方法
3.1图像的矩
图像识别的一个核心问题是图像特征抽取,简单描述即为用一组简单的数据来描 述整幅图像,对于这组数据的要求通常是足够简单而且有足够的代表性。良好的特征 不受几何形变,噪声,光线干扰。在图像识别的发展中,不断有新特征被提出,其中 矩是一种针对图像特征描述的算子,可以表达图像的特征信息,图像矩技术已经广泛 用于图像检测、图像识别、图像匹配、图像压缩、图像水印以及图像序列分析等众多 领域。几何矩、正交矩、复数矩和旋转矩是目前图像矩研究中主要的矩描述算子。
在数学中将矩定义为:如果X和Y为连续的,则j(% - c)k dx称为X关于点c的k阶 原点矩,^(x - x0)p(y - y0)q dx dy称为X, Y关于点c的p + q阶混合中心矩。
当X和Y为离散随机变量,c为常数,k为正整数,如果E(IX-clk)存在,则称 E(IX-clk)为X关于点c的k阶矩。c = 0,称为k阶原点矩,c = E(x)时,称为k阶中心 矩。如果E(\X-Ci\p - IX-C2lq)存在,则称其为X关于点c的p + q阶矩。当5 = C2 = 0,称为p + q阶混合原点矩,Ci=E(x), C2 = E(y)时,称为k阶混合中心矩。这里矩 的本质是数学期望,期望的计算公式为E(x) = f x - f(x)dx,其中f(x)是x的概率密度 分布,以上默认所有随机变量出现的概率相等。
3.1.1图像的几何矩
在单通道灰度图像中,整个图像范围可以认为是一个不同概率密度分布的二维平 面,每一点的灰度值分布就可以看作其概率密度分布。对每一个点的矩就是用该点处 取到的期望值来定义。通常用图像的原点矩来指代图像的矩,在计算质心(鬆,%)时使 用的是图像的一阶矩(式 3.2)和零阶矩(式 3.1),图像的方向(式 3.7-3.8)则可以 用二阶矩(式 3.4-3.6)来计算。
Moo = lIlJV(i,j) (3.1)
M10 = V(i,j) M01 =为辽〃 -V(i,j) (3.2)
 
 
Mo2 = hljj2-V(i,j) (3.5)
Mii=hlji-j-V(i,j) (3.6)
物体的方向为:0=1arctan (卷),0G[—9O°,9O°] (3.7)
 
通过该方法计算得到的质心抗噪性能好,噪声感染对质心计算中的影响很小使其 主要优点,由于图像矩的阶数随指数增长,九阶矩的情况下会有有2n — 1个,在计算 分析方面复杂程度高。通过这种图像几何矩计算可以表征在某一图像区域内的几何特 征,具有良好的旋转、平移和尺度不变性,也被称作不变矩。
3.1.2图像的Hu矩
Hu矩是在1962年提出的分别记原点矩mpq (式3.9),中心矩“皿(式3.10), 归一化中心矩ypq (式3.11):
mpq = lx=ily=ixpyqf(x,y) (3.9)
Mpq = lx=ily=i(x — X0)p(y — yo)qf(x,y) (3.10)
也=臂,r = ^+f+2,p + q = 2,3...... (3.11)
Moo 2
图像的原点矩mpq会随着图像的本身发生变化而改变,中心矩旳q与原点矩不同 在图像只涉及平移不涉及旋转的情况下稳定性较好,归一化中心矩沟勺在此之外还可 以在比例变化上保持稳定性。
图像的目标区域经常会出现空间平移,尺度缩放,角度旋转等变换,所以需要在 普通矩的基础上构造出具备不变性的矩组Hu矩充分利用二阶和三阶的特性构造了 7 个不变矩,可以在图像上保持平移、伸缩、旋转、缩放等不变性:
Ml = 720 + 702
M2 = (丁20 — 丁02)2 + 4力12
M3 = (丁30 — 37l2)2 + (3^21 — 丁03)2
M4 =(730 + 712)2 +(721 + 丁03)2
“5 =(730 — 3力2)(%0 + 712)((730 + 为2)2 — 3(乃1+ 丁03)2) + (3乃1 —沟3)021
+ 703)(3(730 + 为2)2 — (721 + 丁03)2)
“6 = (720 + 702)((730 + 力2)2 —(力1 + %3)2) + 4力1。30 + 为2)021 +『03)
M7 = ®21 — 703)(712 + 730)((730 + 力2)2 — 3(乃1 + 沟3)2)
—(730 — 3712)(703 + 721)(3(730 + 血)2 -(畑 + 血)2)
在1962年Hu.M.K[57]对上述七个不同的二三阶的组合特征量给出了稍欠一般性 的不变性证明,证明了它们在图像特征提取时会保持平移不变性,缩放不变性和旋转 不变性。当对上述组合进行泛化测试和使用的时候通常在M]和M2各种不变性质会保 持得很好,但其他几个不变矩并非真正的不变矩,而且有时候误差较大,有文章指出 由于二阶矩表征的是惯性矩,因此只有在不变矩是基于二阶矩的时候描述二维物体才 可以在几何平移,比例缩放,和角度旋转保持不变性。而上述七个矩特征中除M]、M2 外都包含了三阶矩。
在图像识别和匹配时,上述 Hu 矩组成的特征量在检测速度上很有优势但在识别 率表现上非常一般。原因在于基于 Hu 不变矩的特征量在识别体积较大物体和纹理复 杂问题上都没有表现出很好地检测效果,主要优势在于对物体形状进行描,述如水果 形状,车牌中简单字符等表现较好。
3.2高斯导函数的图像应用
高斯函数在图像处理中应用非常广泛,其中典型的是用作图像平滑,作为一种低 通滤波器使用。高斯函数的导函数功能往往更为广泛不仅局限于低通滤波器还可以作 为高通滤波器,其中一阶高斯导函数和二阶高斯导函数均可以对图像进行高通滤波[60], 在canny算子[58呻使用的是一阶高斯导函数,LoG算子[59]中使用了二阶高斯导函数。 在图像滤波、边缘检测等研究中高斯函数及其导函数发挥着重要的作用。下面分别给 出了一维(式 3.12)、二维高斯函数(式 3.13)的定义形式。
1 兀2
陀)=扇皿 (3.12)
1 x2+y2
陀)=歸庚弓厂 (3.13)
 
 
在对图像进行边缘检测时,一阶导数极大值点往往会使图形的边缘位置,因此通 过对图像计算一阶导函数可以确定图像的边缘位置,sobel[61 ]算子等边缘检测算子大 都基于这种一阶倒数的思路是先,但这种思路非常简单的方法存在一些问题,如噪声 影响,噪声会直接影像求导结果会出现局部的最大值,而且对于极大值直接求解也是 一个比较复杂的过程。因此在检测中又引入了二阶导函数的方法,这里以高斯-拉普 拉斯算子(Laplace of Gaussian, LoG)为例。
使用二阶导函数的优势在于直接简化了一阶求取极大值的过程,在边缘计算时对 一阶导数需要通过极大值,而二阶导数只需要取函数值为 0 的位置,因为在函数上 求取零值点远比直接计算极大值容易,该性质被称为二阶导数过零点。
而出于噪声会产生局部极大值的影响考虑因此引入高斯函数作为算子的一部分。 在图像处理中高斯函数主要用作图像模糊处理,对噪声可以起到有效的抑制作用,通 过引入高斯函数对拉普拉斯算子进行改进有效的克服了算法对噪声敏感的缺点。
所以,高斯-拉普拉斯算子的处理过程是先用高斯函数对图像进行模糊处理,然 后再利用二阶导数求取0值点,对应的像素位置就可以判断为图像的边缘。
二阶高斯函数的一阶偏导数为:
3.14)
3.15)
 
二阶高斯函数的一阶偏导数为:
7 7
箸=(-盘)(1-$)广^ (3.16)
7 7
器=(-矗)(1-$)° 2'2 (3.17)
7 7
82g 丿 2+叮2
= e 2戶
OyOx 2 兀b6 (3.18)
 
 
二维高斯函数的一阶梯度和二阶梯度的分别为
VG(x, y) = |0G/张 | + |OG/Oy| (3.19)
VA2 G(x,y) = ("2 G)/(张八2 ) + ("2 G)/(Oy 八2 ) (3.20)
 
方向梯度为(角度0取弧度):
—*
I =咒cos。+ ysin0 (3.21)
8G 8g ac . „
百=£观&+乔si” (3.22)
需=筈 cos2。+ 筈 sin2。+ 2^^cos0sin0
ol2 ax2 ay2 oyox (3.23)
 
将连续的梯度函数进行离散化处理,从而得到一阶偏导数和二阶偏导数的各自梯 度算子,将这些算子分别于图像做卷积运算,可以得到原始图像的一阶、二阶梯度以 及各阶导函数的方向梯度。
3.3基于卷积运算的连续求导
基于图像多阶导数对原始图像进行逼近,这种思想来源于泰勒公式[62]:用无 限项连加式——级数来表示一个函数,这些相加的项由函数在某一点的导数求得。但 对于图像是一个二维的离散变量不方便直接求导,由于卷积运算可以交换求导的目标 函数如式X,将对图像的求导转换为与图像做卷积函数的求导。
/(%) = /(%_0 )/0! + (/(%_0 ))/1! (% - x_0 ) + (〃〃(x_0 ))/2! (% - x_0 )A2 +
(/■心〃(x_0 ))/3! (x — x_0 )A3 + (/An (x_0 ))/加(x — x_0 )F + R一九(x)
(3.18)
x'(t) 0 g(t) = x(t) 0 g'(t) (3.19)
由于图像直接求导会受噪声干扰比较明显,因此卷积函数要求对图像有一定的平 滑作用,可以尽量消除噪声的干扰。由于高斯函数是单值函数并且高阶可导,二维高 斯函数具有可分离性,旋转对称性。对某一个点的像素值利用高斯滤波器通过该点附 近的邻域加权计算均值来替代,由于权重是从中心向邻域像素点逐渐衰减的,所以高 斯函数在傅里叶变换频谱上也是以单瓣形式出现的。在高斯函数中平滑程度依赖于参 数G的控制如图(3.2),当G增大时,高斯滤波器的频带就会变得更宽并且平滑度 更高,模分布图越扁平,模版越大。因此选用高斯函数。因此将上式戢)转化为高斯 函数代入求导卷积。
 
 
一维高斯函数求导的迭代形式如下,由于1 /顾求导中为常数项,所以只保留 变量,令0 = "(—"2/(2〃2 ))依次类推一阶导数为 g'(t) = eA(—tA2/(2aA2 ))(—t/ a2) = g(t) * (—t/a2),二阶导数为g"(t) =g(t)* [(t2 — a2)/a4],通过公式迭代求值 16 阶导数,各阶图像如下:
 
 
 
 
 
100 200 0 100 200 0 100 200 0 100 200
 
 
 
 
 
 
图 3.3 一维多阶高斯导数
 
3.4高斯矩提取图像特征
上图显示了高斯多阶导数在二维上的分布,可见当求导的阶数为奇数时是奇函数, 当为偶数阶导数时是偶函数。对图像做卷积根据不同的高斯卷积核作为基函数提取图 像特征,因为高阶高斯导数无法保证正交性,所以离散化的基函数也是非正交的,无 法保证图像可复原性。在二维高阶高斯导数与图像做卷积后效果如下:
 
图 3.4 高斯矩特征提取
 
从上图可知高斯低阶导数更多的体现出了图像的高频特征,较好的展现的肺部轮 廓,检测轮廓,肺实质等高频特征。低频特征在高阶高斯导数中得到了的更好描述。 具体在处理过程中为了避免高斯高阶导数随着多次求导的数字快速增长,和低阶单数 初始数值相对较小,因此对于每次二维高斯卷积核与图像做卷积之前首先对卷积核做
矩阵归一化处理。实验表明,高斯矩可以很好地降低了图像中噪声的干扰和边界效应。
3.5肺实质分割
在 CT 图像中,由于图像中包括肺实质,躯干,肺实质,肺血管,胸腔等过多要 素,因此预处理中需要对肺实质进行分割[63]。目前,近乎所有肺部疾病的医学影像处 理的预处理都包含肺实质分割,在医学图像检测中是一项非常重要的工作。
 
图 3.5 CT 肺部结构
 
该图上可以清晰地看到肺部的各种结构,事实上,在做肺部图像处理时,我们用 不到躯干和床板(躯干下边的那些弧形影像),将肺实质分割出来可以大大减少后续 操作(例如:肺血管分割)的计算量。肺实质的分割难度较低,但是依旧存在难点的: 肺部病变情况下,从医院获取的肺部CT图像会有各种病变组织,增加分割难度,因 为你很难设计一个通用的算法来应对各种疾病造成的图像异常,也从侧面体现了算法 的鲁棒性的重要性;完整的提取肺实质很重要,但当左右肺图像上显示黏连时,因为 会影响肺容量等指标的计算。
肺实质分割最普遍的做法是,最普遍的分割方法是采用阈值将肺实质和胸腔的其 他结构分离,并基于区域生长方法获得连通的左、右肺,移除主气管和伸入肺的主支 气管,再填充实质中血管、结节等形成的孔洞,得到完整的肺组织。另一种是区域生 长法和全局阈值法两种方法分别对肺实质进行分割,并对两种算法进行比较。这两种 算法属于较为简单的算法,与现有的各种复杂的算法相较而言,胜在稳定、快速、简 单而又易于实现,并且分割效果足以满足后续需求。
本文的分割方法具体步骤如下:
首先对读取到的肺部CT影像原图进行二值化的阈值分割处理,在的到的二值图 像中除了可以清晰地观测到肺实质区域,还包括一些无关的边界信息包括CT床板和 空气等,通过最大连通域处理得到左右肺叶是肺实质的大致区域,然后通过半径为 4
 
个像素点的腐蚀运算,将血管,结节和其他疑似区域腐蚀为规则孔洞区域,后用半径 为 8 个像素的闭运算处理去掉所有孔洞获得完整的肺实质掩膜,最后只需要对内部的 凹陷区域进行填补,边缘区域进行平滑的微调操作就可以得到完整的肺实质掩膜,通 过与CT图像叠加可以得到当前的肺实质图像,处理效果如下:
 
图 3.6 肺实质分割
提取肺实质之后根据二维高斯矩代入运算。根据结节的尺度大致分布分别取不同 的卷积尺度邻域&不同赋值选择范围3 * 3,5 * 5,7 * 7作为高斯卷积核的面积,对高斯矩 只取到8阶,为了保持卷积后尺度不变在不同卷积核尺寸下通过控制padding对边缘 进行填充,将一维灰度图像映射为24维。在特征提取时,分别对x方向和y方向进 行求导卷积运算,通过 8 阶组合可将 512*512 的图像映射为 64 张,分别为 x1y1,x1y2, _x1y8, _x8y8方向导数组合的方式,后通过主成分分析(Principal components analysis,PCA)进行降维对数据进行降维,主成分分析是一种重要的无监 督降维方法。应用领域极为广泛,通过消除冗余数据完成数据压缩,特征降维,数据 消噪等场景。
3.6有无监督点分类对比
3.6.1无监督分类
主成分分析(Principal component analysis,PCA) [64],是一种在大量输入数据中选 择其中最主要的数据成分来代表全部的输入原始数据,通过该方法使样本点的特征距 离超平面直线足够近,或者是样本点在这个超平面尽可能的分散开。 “基于最小投影 距离”就是样本点到这个超平面的距离足够近,也就是尽可能保留原数据的信息;而 “基于最大投影方差”就是让样本点在这个超平面上的投影能尽可能的分开,也就是尽 可能保留原数据之间的差异性。
假如把卅从1维推广到任意维,则我们的希望降维的标准为:样本点到这个超平 面的距离足够近,或者说样本点在这个超平面上的投影能尽可能的分开。基于上面的 两种标准,我们可以得到PCA的算法流程:
Input:九维样本集D = {x1, x2, %3 %m}
Output:卅维样本集= {z1,z2,z3 zm},其中nz Ho
1.对所有样本进行 0 值中心化:
m
w = m_ 丄y M)
mZ—i
i=l
2.计算样本的协方差矩阵XX',并对其进行特征分解,得到对应的特征值和特征向量
3.取出最大的九'个特征值对应的特征向量(W],w2,w3 wQ,对其进行标准化,组 成特征向量矩阵0
4.对于训练集中的每一个样本,进行相应转换:
Z(i)= 0丁%(,)
5.得到输出样本集D' = {Zi,Z2,Z3……Zm}
有时候,我们不指定降维后的九'的值,而是换种方式,指定一个降维到的主成分 比重阈值to这个阈值t在(0,1]之间。假如我们的k个特征值为Al > ^2 > ^3 >……> 九,则九'可以通过下式得到:
Zi=1兄i
PCA降维算法是基于无监督的情况下不需要标注信息,因此只需要特征值分解, 就可以对数据进行压缩,去噪。通过矩阵运算W'XX'W可以度量样本的差异性。最后 得出结论:XX'就是X的协方差矩阵,其中对角线元素为各个字段的方差,而非对角 线元素表示变量i和变量j两个字段的协方差。主成分分析的主要优点有:计算简单 容易实现,主要的运算来自于特征值分解;主成分见成正交关系,消除数据分量间的 互相干扰因素;通过方差衡量信息量的差异不会受到超出数据集本身的影响;数据的 噪声影响只对应特征向量中最小的值,通过降维丢弃这些小的分量也可以实现降噪。
但 PCA 算法在处理数据的时候也会产生主成分特征相较于原始输入数据产生一 定的模糊性,解释性方面也不如原始的输入样本特征,方差小的非主成分往往携带了 细节信息和一些关键的局部特征,因此降维后丢弃的可能不仅仅是噪声还有可能会使 细节信息从而影响判断。
通过 PCA 算法我们得到了比卷积特征维度更低维度的特征向量,因为低维度数 据更适合用于聚类,可视化,提升算法效率等。通过对特征向量进行k-means聚类发 现由于图像中正负样本比例相差过大,很容易将病灶分到同类但也会将血管等其他位
置聚到同类,并且会把周围的像素点同样归到同类。如果进行指定多类进行分类(指 定类别远大于 2),此时,容易将结节分到不同的类别,因此由于正负样本比例相差 太悬殊,结节形态不定,在预处理后图像更适合用监督分类而不是无监督分类。
3.6.2监督分类
首先根据标记将肺实质内的结节区域按照xml文件中<edgemap>进行分类,将结 节边缘范围内的点标记为正类,并建立位置掩膜。结节区域特征维度为k*24, k为特 征点数。由于这里我们对像素点进行了标记可以使用监督学习的方法来进行特征向量 提取,并通过对每个像素映射区域与正负样本的主要特征分布作比较,计算相似度来 进行判别。
在对特征向量降维时选择奇异值分解(Singular Value Decomposition, SVD) [65] 方法,公式如下:
M = UM
其中U和U均为,单位正交阵,即有UUT = 1和yyT = /, U为左奇异矩阵,V为有 奇异矩阵,2为对角矩阵,对角线上元素从大到小排列其余值均为0o矩阵维度u e Rmxm, 2 e Rmxn, V e Rnxn。在奇异值求解时,正常求上面的U, 7,Z不便于求,我们可 以利用如下性质:
AAA = U2VrV2rUr = U225T
ArA = V2rUrU2Vr = V2r2Vr
这里22丁与2丁2在矩阵的角度上来讲,它们是不相等的,因为它们的维数不同 22丁 e «m*m而2丁2 e a*",但是它们在主对角线的奇异值是相等的,即有
0 0 0'
^2 0 0
0 0
° ° '• - n*n
根据2的大小分布从左上角取值,取前十个值的情况下已经包括了 90%以上的特
征分布,因此取出对应的 10个特征向量作为分类指标。
3.7基于分布特征分类
通过上述方法我们已经得到了正负样本的映射向量,为了维持样本的正负比例在 数据集里随机选取数量时,取大致相等的正负样本数量,分别在 10,000 张图上分别 选取 10 个点,共选取 100,000 个点。为了统计正负样本的分布情况,将所有点的高 维映射向量在标记正负的情况下进行k-means聚类[66],具体算法的步骤实现如下:
1、 首先给定一个k值,即需要算法收敛到的类的数目。
2、 将k个类别随机赋予质心数据点。
3、 对每个数据点划分到与其欧氏距离最近的类别中心,并归入所属类别。
4、 将 k 个质心分重新配到 k 个类各自的中心位置。
5、 判断步骤 3和 4是否有数据点改变分类和质心移动,若没有被重新分类的 点,且质心不在移动输出结果,否则重复步骤3。
这里选择k=20,选择所有类中正负样本重叠率较高的类别,只保留单一样本占 绝大多数的簇,这样就可以去除正负样本重叠的部分仅保留有各自特点的特征向量进 行分布估计。将得到的正负样本分别建立向量分布直方图可视化,并将这些向量通过 作为分类的依据,对每个像素点进行正负类别判断并对区域进行统计与阈值比较,大 于阈值的部分被认定为是结节正类。
在检测时,取图像区域为18*18和6*6两种尺度匹配尺寸,如果6*6模板被18*18 覆盖则进行抑制,因为在模板匹配时如果目标过小周围的背景信息会带来更高的负样 本比例,从而降低准确率。通过该方法求得正负样本的特征向量分布作为模板,对检 测图像进行滑窗法检测,通过计算每个点与样本主要向量的相关能量,判断该点是正 负样本的概率,并统计区域内正负样本比例来判断区域是否为结节区域。在滑窗法进 行运算时运算复杂度较高,而结节的直径普遍在 4-30 像素不等,多阶高斯矩卷积在 特征提取的过程中结合了局部特征信息,因此我们可以将滑窗法的步长设置的较长, 当步长设置为3时,这样可以将 512*512个点的运算量降为170*170,根据肺实质提 取到的区域进行固定步长检测可以节省更多的运算量。由于运算过程中是跨步长检测 但跨越步长少于检测宽度所以并不会出现很多漏检区域, 实际测试时通过不断改变 步长和窗口来寻找最优的检测尺寸和步长。
3.8结果及分析
本算法流程如图 3.5 所示,在训练时首先将分割得到的肺实质图像作为输入的训 练和检测样本,通过高斯多阶导函数分别对 x 方向和 y 方向依次求 1 到 8 阶导函数 并组合为六十四个连续特征量然后对其取离散化得到六十四个离散非正交基。将输入 图像进行像素点分类,其中结节的样本点作为正类,肺实质其他部分样本点作为负累, 在所有标记样本中进行随机等量抽取以达到均衡正负比例的效果,将得到的样本点向 量首先经过降维提取主要的特征向量,对特征向量整体进行有聚类,选择其中正例向 量和负例向量各自集中地类别作为二者相应的特征类别用于分辨像素点的类别归属, 并对检测区域进行统计和阈值判断,给出所属类别。具体算法流程如下:
 
 
图 3.7 算法流程
 
为了检验高斯多阶导函数作为基的特征提取效果,实验中在目标点选择中对正负样本 各自取30000个点,作为特征选取的输入,将他们都映射为64维的向量后进行降维。 将降维后的点向量分为 20 个类别,只保留区分度大的代表性类别,其中正类或负类 中某一类的比例占80%以上,将这些类的质心作为像素点的分类依据。对检测的区域 每个点映射后的向量进行欧氏距离计算得到最邻近的类别作为该点的分类依据,而后 将整个区域的类别进行统计并与阈值比较分类。实验中通过阈值比较当取63%作为 正类阈值判定时的效果更佳,可以在模板上有效抑制小血管等其他组织的误判。准确 度可以达到 87.31%,敏感性可以达到 89.27%o
在特征提取时本文选择通过肺实质部分来提取特征,由于在检测时背景和肺实质 的相似程度很低所以利用整张图像的直接输入,就可以进行检测,根据 6*6 和 18*18 的锚框检测可以清晰地看到两种尺寸检测都有较好的结果展现,由于在处理中选择了 大模板抑制覆盖的小模板,因此通过图3.6 (a-d)可以看出对于过小的目标18*18的 锚框表现力并不好。在锚框中对所有的点向量进行特征模板匹配选择其中匹配数量较 多的类别作为当前检测框的预测结果。
 
 
 
 
 
 
 
 
 
 
 
g h
图 3.8 两类模板检测效果对比
在 ROC 曲线中曲线越贴近坐上角(0,1)点的准确性越高,误诊和漏诊都是最少, 因此 AUC 值越大描述模型的识别精度越高,在对随机 15 个病例每个病例抽取一张 未经训练的图片进行ROC计算得出图3.6,经计算此时的AUC=0.9575。
1 ROC曲线图
0.9 - -
0.8 - -
0.7 - -
0.6 - -
0.5 r -
0.4 - -
0.3 [ -
0.2 [ -
0.1 - -
Q I I I I I I I I I
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
FPR
图 3.9 AUC 曲线
3.9本章小结
本章针对深度学习在检测小目标时效果一般,并且网络训练时间冗长等问题,基 于图像矩和机器学习结合的方法对小目标检测做出改进性尝试,提出图像高斯矩的检 测方法,通过多阶导函数的方法模拟复眼结构理解图像。通过结合高斯多阶导函数想 进行点特征抽取结合主要特征向量分类对检测区域的向量进行分类判断。模型充分利 用高斯导函数所包含的局部特征信息,对正负样本进行均衡采样的方法提高小样本类 别的权重,有效解决由类别分布不均衡导致无法正确选择特征。通过点特征向量的分 类可以将大多数检测锚框内的点正确分类。这种基于点特征对图像中的小目标个体进 行分类计算量小检测速度快,不需要神经网络中庞大的数据量和gpu加速的长时间训 练迭代过程,但在流程上无法实现真正意义上的端对端检测,在准确率方面也略低于 深度学习方法。
第四章 基于卷积神经网络的肺结节检测
目前基于卷积神经网络的肺部自动检测已经取得了巨大的进展,但在临床实际应 用中仍有诸多问题亟待解决:检测模型需要训练的时间冗长,且自然数据及迁移效果 不好;由于存在样本不均衡,检测效果依赖于超参数设定;基于双阶段网络在检测时 无法达到实时检测效果。本章就以上问题进行目标检测网络改进和实验比较。
4.1算法分析及比较
4.1.1Faster-RCNN 理论
当前主要的肺结节检测研究许多都采用双阶段检测的模式,其中大多基于Faster R-CNN[6]的结构基础上实现的,主要包括生成建议区域,和对建议区域内的目标分类 并微调位置,原始的 Faster R-CNN 整体结构图如图4.1。
 
 
Faster-RCNN作为一个双阶段目标监测的网络,将尽量多的内容进行合并,主要 的性能提高来源于将特征抽取,区域提取,锚框回归以及微调,分类各项任务都整合 在了一个网络中。主要流程是首先输入测试图像,将整张图片输入CNN,原文使用 了 VGG16 进行特征提取。然后用区域提出网络先生成大量锚框,对其进行裁剪过滤 后用 softmax 判断其进行前景和背景,进行二分类判断是否存在物体;另一分支通过 回归的方式来对位置进行修正,更加精确的区域定位。把建议窗口的数据映射到卷积 神经网络的最后一层卷积特征图上,通过感兴趣区域池化(Region of interest pooling,
ROI pooling)使每个Rol生成固定尺寸的特征图;最后利用Softmax损失计算分类概 率, Smooth L1 Loss 对边框进行回归并对两部分进行的联合训练。
其中极具创新性的工作是将提出区域建议的卷积神经网络和进行目标检测的神 经网络进行了合并,并用全新的区域提出网络代替了相对低效的选择性搜索(Selective Search, ss)。
损失函数如公式 4.1,由分类损失和回归损失两部分组成,在前半部分分类损 失中Pi为预测概率,卩:为ground truth标签,整体为一个二元交叉熵损失函数。
厶({乩},{®}) = ^》clsSs(Pi,P:) + 久^茁)(4.D
Zcis(Pi,P:) = -log [卩汐:+ (1 - P:)(1 - Pi)] (4.2)
 
在回归损失计算中耳和t*均包含(%,y,w,h)四个维度,前者为预测偏移量,后者是 实际偏移量,smooth L1函数在|x|较小时,对x的梯度也会变小,而在|很大时,对 x的梯度的绝对值达到上限1,也不会太大以至于破坏网络参数。当预测值和目标值 差值很大时,避免了 L2函数在|x|很大时发生梯度爆炸,对于离群点、异常值(outliers) 更不敏感,鲁棒性更好,可控制梯度的量级。 smooth L1 完美地避开了 L1 和 L2 损 失的缺陷,图像如图4.2。在之后通过p*控制忽略背景损失的计算。弘旳取一个批量 数据的总数(此处batch size为256),为使分类回归权重基本相同Wrep/A « 240,因 此久取1。
 
 
图 4.2 smooth L1 函数
单阶段目标检测网络主要以YOLO、SSD、YOLOv2、YOLOv3等为代表,通过 单阶段的检测方式,将位置,类别,置信度一次性输出。将整个检测问题看作一个整 体的图像回归问题,仅用一个神经网络实现了端对端的目标检测工作。在三代 YOLO 算法的不断发展中,YOLO V3[67]成功在检测效率,准确率,小目标检测等多方面实 现大幅提高,并且由于其优越性能已经完全取代前两个版本。
4.1.2YOLO 基本理论
最初代的 YOLO (You Only Look Once) [21]是由 Redmon J 等在 2016 年提出的, 将目标检测问题处理成一个回归问题,通过单个卷积神经网络结构从输入图像直接预 测边界框和类别概率。在GPU加速情况下可以实现45fps,达到实时检测。网络结构 如图 2-2-1,由24个卷积层和 2个全连接层组成,输入448*448*3 的图像尺寸,输出 结果为 7*7*30,最后一层全连接为实现线性变换。网络主要的改进性创新为以下三 方面:
 
Conv. Layer Conv. Layer Coiw. Layers Conv. Layers Conv. Layers Conv. Layers Conn. Layer Conn. Layer 7x7*61*2 3x3x192 1x1x128 1x1x256 lx4 1x1x512 lx3 3x3x1024
Maxpool Layer Maxpool Layer 3x3x256 3x3x512 J 3x3x1024 J 3x3x102』
2x2-s-2 2x2$2 1x1x256 1x1x512 3x3x1024
3x3x512 3x3x1024 3x3x102鎳2
Maxpool Layer Maxpool Layer
2x2$2 2x24-2
 
Figure 3: The Architecture. Our detection network has 24 convolutional layers followed by 2 fully connected layers. Alternating lxl convolutional layers reduce the features space from preceding layers. We pretrain the convolutional layers on the Image Net classification task at half the resolution (224 x 224 input image) and then double the resolution for detection.
图 4.3 YOLO 结构
 
网格划分:输入图像尺寸为 448*448, yolo 将其划为 7*7 个图像块, 每个区域只 负责预测一个物体框,并以此为中心检测是否存在物体并检测类别。
预测输出:输出层尺寸 7*7*30 是输出层的映射结果,对每层的 7*7 区域进行 (x,y,w,h,confidence) * 2+N个参数预估,(x,y)分别为中心点的横纵坐标,(w,h) 为目标相对于整张图片的宽度和高度比(通常小于1),co"idence为当前预测的置 信度,N为类别数,在文章中以VOC数据及为例包括20类。
损失函数:在损失函数计算中 YOLO 主要分为三部分分别为坐标损失,置信度 损失和分类损失。
L = Soord + ^conf+lclass (4.6)
〔coord =久coord》;=0》:=oX谿[(竝一翁)2 + (% —究)2] + 久coord 芳=0谿(/^!-
 
Zconf = Sf=0 S/=0 (G - Cj +九0"》;=0硏=0曙“"仏-(71)(4.8)
Sass =瓏o 曾》ceclass(Pi(C)-庇(c))2 (4.9)
在坐标损失计算中,对宽高取平方根并采用较大权重系数,前者可以抑制大物体 的loss值,平衡小物体和大物体预测的loss差异;后者用来平衡正负样本比例,增加 权重,因为实际图像中正样本太少。九。"d为权重系数,S2为7*7输出网络尺度,1^' 是预测目标掩膜,B是每个位置预测了两个边框。
目标边框(bounding box)的置信度损失,如下图所示;注意下真实区域(ground truth )的置信度:对于正样本其置信度为预测框和真实区域之间的交并比(Intersection- over-Union,IOU)进行保留,否则置零;由于样本比例不均衡,取负样本的权重系数 为 0.5。
分类损失是第三部分是预测所属分类的损失,预测值通过网络中softmax函数计 算概率,真实值为标注类别同样为one-hot形式表达。
初代 YOLO 算法的优点是单阶段检测大大的提高了检测速度,由于每个中心框 只检测两个中心,不支持拥挤目标检测,对小目标和长宽比尺寸异常的目标效果都较 差,网络中没有使用批标准化训练时对学习率要求较高且容易出现梯度消失。
YOLO V2是在2016年被提出的,采用了新的网络模型,成为Darknet-19,包括 19 个卷积层和 5 个最大池化层,相比 Yolo V1 的计算量减小了1/2左右。在多处对 YOLO理论进行了改进:加入了批标准化,去掉随机失活(dropout)部分;经过在高 分辨率图片上的微调训练扩大了可检测图片的分辨率;学习 Faster-RCNN 的锚框概 念,对尺寸进行 k-means 聚类得到五对高度比例和宽度比例;进行不同特征层之间的 特征融合,使得低层位置信息和高层间的语义信息相互连接;采用多尺度训练增加了 模型的鲁棒性。
在训练时由于开始中心定位不准当引入锚框时就会使得模型不稳定,因此在坐标 和置信度预测时沿用YOLO的方案,计算公式如下:
0尤=+ 以 (4.10)
by = o(ty) + Cy (4.11)
b_w = p_w • "(£_w ) (4.12)
= p_h ・ eA(t_h ) (4.13)
 
Pr(object) * /OU(b, object) = a(t0)
 
图 4.4 YOLO 锚框计算
 
Cq Cy是中心框左上角的坐标,, ty , tW , 5 , t0分别是横纵坐标,高度,宽度 信息,以及置信度预测。实验证明采用位置信息聚类与直接位置预测比单纯使用锚框 的方法精度提高 5%。
YOLOv3 比起前两代 YOLO 检测算法有了更显著的进步,主要改进点在于调整 了网络结构、利用多尺度特征进行对象检测、对象分类用逻辑回归[68]取代了 softmax。
Type Filters Size Output
Convo lutional
Convo lutio nal 32
64 3 I/2 256
128 256
128
Convolutional 32 1 1
1 Convo lutional 64 3 3
Residual 128 128
Convo lutional 128 3 3/2 64 64
Con volutio nal 64 1 1
2 Con volutional 128 3 3
Residual 64 64
Convolutional 256 3 3/2 32 32
Convo lutional 128 1 1
8 Convolutional 256 3 3
Residual 32 32
Co nvo lutio nal 512 3 3/2 16 16
Convo lutional 256 1 1
8 Con volutio nal 512 3 3
Residual 16 16
Con volutio nal 1024 3 3/2 8 8
Convolutional 512 1 1
4 Convo lutional 1024 3 3
Residual 8 8
Avgpool Global
Connected 1000
Softmax
 
图 4.5 YOLO 网络结构
在YOLO V3的基础网络结构采用darknet-53取代darknet-19,网络中有53个卷 积层不再有全连接层和池化层,通过控制步长的卷积运算实现控制张量尺寸传递,和 YOLO V2 一样一共进行5次下采样将图像缩小为原来的1/32,不同的是YOLO V2 通过池化实现这一过程会产生信息丢失。并且在网络中加入了残差结构和跳连避免了 在融合信息的同时避免了梯度消失的情况。
Yolo V3 提供了两种基础网络除了 darknet-53 外还有 tiny-darknet, darknet-53,在 保证实时性(fps>36)的基础上相较上代大幅度提升了性能,在小目标尺度上检测准 确率更高,检测目标的锚框从 5 个增加为九个,分别在 13*13*255, 26*26*255, 52*52*255 三个尺度上检测目标,每个尺度检测大小接近的三个锚框,网络在输入尺 寸为 416*416 的情况下,对该输入提出(52*52+26*26+13*13) =10647个检测框。最 后一个维度的255是基于每个网格单元3个预测框,预测5个参数(x, y, w, h, confidence), 80 类对象, 3*(5+80) =255。在基础网络结构放弃了 darknet-19 的极 快检测速率要求,在保证网络可以做到实时监测的基础上提高检测性能, tiny-darknet 作为轻量级的骨干网络同样可以替代 darknet-53 加速检测,在官方代码里用一行代码 就可以实现切换backbone。在损失函数计算中仅仅对w和h两个参数的损失计算继 续沿用总方误差,其他部分的损失函数用均采用的是二值交叉熵[69]算法。
4.1.3算法分析比较
根据以上的描述 Faster R-CNN 和 YOLO V3 两种主流的目标检测算法,在整体 思路上不尽相同的情况下各自都具有不同的优缺点-Faster RCNN的平均精确度mAP 为73.2%, YOLO的平均精确度mAP为63.4%,但是YOLO的检测效率远高于Faster R-CNN,在COCO数据集上AP50仅比Faster R-CNN结合fpn的方法低1.2%。通过 在统一数集下对两种算法比较不难发现Faster R-CNN网络中RPN网络虽然取代了上 一代的选择搜索(select search)但仍然需要两个阶段才能给出判断,通过结合anchor 的设定被检测目标的边界框检测和分类准确性上的提升效果相较之下也十分有限,尤 其是在检测密集的小目标分布任务中,但带来的训练和检测计算量远多于 YOLO 算 法。其速度劣势但覆盖了更多的建议区域,相比较之下由于YOLO预设anchor只有 九个,看起来Faster R-CNN对于密集小目标能更好的检测和覆盖。
由于在密集小目标成群出现时,faster r-cnn要好于yolov3,但是在一个图片中只 检测一个或少数几个物体时, yolov3 可以做的很小很快, gpu 上可以实现 30FPS 左 右,不过 faster r-cnn 在图片尺寸小的时候速度提升不是很明显。
本文的检测目标是肺结节,虽然检测目标较小但相对在图像上分布比较稀疏,不 存在密集分布的问题。因此从实际问题出发,肺结节检测当下检出率已经达到较高水 平,但难点在于假阳性率高和检测效率较低,因此选择YOLO网络进行适应性改造, 来完成相关检测并就现有结果进行比较。
4.2基于 YOLO 算法改进
4.2.1结构改进
由于YOLO算法检出目标的效果很大程度上依赖于anchor的预设,在实现时面 对 COCO 数据及设计了(10,13), (16,30), (33,23), (30,61), (62,45), (59,119), (116,90), (156,198),(373,326)九个尺度,因为这是聚类得到的,因此我们只需在LIDC数据及 上根据xml文件标注中各个<edgemap>散点计算像素面积,由于边界并不是规则的几 何图像,并且出于分类任务而非分割任务,因此选择对其做外接矩形,对尺寸进行聚 类。在按照外接矩形面积进行聚类后,通过观察和统计矩形长宽比例大都比较接近, 尺寸差异主要体现在实际结节的体积,因此根据上述结论将外接矩的面积聚类到六个 尺度和三个尺度下进行观察和检测,在长宽比在分布上接近于以 1:1 为中心的高斯分 布,因此尺度比例均设为 1:1。此处使用的聚类方法为 k-means 聚类,通过输入待聚 类数据和类别数,所有样本根据不断改变中心位置和样本分类直至中心位置和都稳定, 但由于随机初始化中心,且算法对于中心点位置敏感,在迭代过程中有可能收敛到鞍 点并非全局最优解位置,因此此处对聚类算法做了多次重复,降低这种概率。最终将 尺度聚类为(6,6)(8,8)(15,15)(18,18)(4,4)(21,21)。
由于尺度上分布比较接近,因此可以采用更少的检测层来进行检测,减少检测层 数提高检测效率。原始结构是首先在卷积网络中 darknet-53 上卷积提取过程的阶段, 由于检测目标较少切结构简单因此分别在第三次和第四次卷积降采样之前各自减少
了四个残差卷积结构用来提高训练和检测速度,在经过五次降采样,将 416*416 的输 入采样为 13*13,再经过两次上采样在 13*13, 26*26, 52*52 三个尺度进行检测。此 处我们对于将检测结构做出调整,为了更多保留局部特征,并且保证小目标不在过多 的卷积层中被淹没,在保留卷积网络中的残差结构,在不改变下采样的结构和次数的 同时,采取两倍上采样并进行分别检测,由于存在残差结构极大程度的保留了局部特 征。由于本身YOLO是一个多分类,问题,因此在检测层前的卷积层滤波器将255层 改为 18 层,因为此处设计为检测类别与回归参数(坐标参数和置信度)求和后与检 测尺度数目乘积。这里主要是由于类别数目发生了巨大改变,从80类(COCO数据 集),演变成一个二分类问题。
由于数据及存在严重的样本不均衡现象,有的图像中没有正样本,而有的图像中 正样本的面积很小只占有几个或几十个像素,因此在实验中样本不均衡是一个极大的 问题。在实际处理中,我们还是将图像全部送入训练,对于图像先进行判断,有正例 的图像先做多角度旋转增加样本量,扩大负样本的比例。此外在损失函数中调整分类 回归的比例使损失函数在训练过程中更加关注分类的性能,提升检出率的同时降低误 检率。网络结构如下:
 
图 4.6 改进后 YOLO 结构
4.3实验与分析
4.3.1数据集分析及实验环境
本实验基于 LIDC-IDRI 数据库,图像以 dicom 格式存储,虽然扫描仪器的厂商 来源不同,但主要包含信息大都一致,大小也统一为512 * 512,每个像素点代表0.74 * 0.74mm2的实际尺寸,由于扫描层间隔不同1.25〜3mm,每个病例包含的图像数量从 50〜500不等,在图像中存储的数据中我们只需要图像唯一匹配的ID和关于CT值转 化为灰度值的系数即可。四位医生独立标注的信息存在xml键值对文件,主要记录信 息包括与图像配对的ID,结节恶性指数,边缘,毛刺征,精细度,钙化,球形度,结 节坐标等信息。根据恶性指数1〜5之间,通常以3为界分为良性恶性。在实验中我们 只对大于等于三位医生判定为结节的区域进行正样本记录。分为训练集,交叉集,测 试集两部分,样本平均分为 5 份,三份训练,一份交叉验证,一份作为测试集,这里 为了保证训练集在学习中不出现过拟合现象,在训练时同时引入交叉测试集验证,开 始在两个集合上的loss同时下降,当loss在训练集上继续下降,在交叉验证集上开始 停止减小或在一个区间震荡说明训练应该在此时停止,继续训练交叉验证集上的损失 会开始升高,整个训练出现过拟合。能做到交叉验证集提示训练进度是由于交叉验证 集在训练过程作为训练中的测试,并不用于训练过程。需要另选测试集是因为在测试 中需要用训练中未接触过的数据,防止该结果只对交叉验证集保持较高水平,泛化能 力不强。如图,红色为训练损失,蓝色为交叉损失。
 
图 4.7 网络训练曲线
 
本实验所使用的计算机配置:CPU Inetl i5-7500,GPU为NVIDIA RTX 2070显存 8G,操作系统为Ubuntu 16.04,通过Python语言基于pytorch实现网络搭建,基于 cuda 进行 GPU 并行计算。
4.3.2实验细节处理
由于图像文件以 dicom 形式存储,用 xml 提取出信息再将文件名以编号的形式 统一进行排序命名图像文件并将图像文件转为 npy 格式避免映射为灰度图像的信息 损失。对于标注 xml 文件,从中提取医生编号只对半数以上医生独立确定过得区域进 行学习,记录对应图像的<imageSOP_UID>和<edgemap>两项,将所得坐标进行变换
得出矩形中心和长宽相对比例进行记录。
在样本数据增强方面,直接将该阶段放入卷积神经网络的预处理程序中,随机产 生增强效果。如旋转角度更多样本数,只选取正样本例提高正样本比例。
4.3.3评价标准
在对检测效果进行评估时引入了图像交并比,和在检测时的统计评价准确率 (precision),召回率(recall),准确度(accuracy)o
图像交并比如图所示,预测目标与实际目标共同覆盖的区域与二者区域总和的比 值,公式如下
 
 
 
DetectionResultDGroundTruth
DetectionResultuGroundTruth
准确率为被预测正确预测为正例的个数与全体被预测为正例的比值,描述了模型 检测过程中的查准率,召回率是被正确预测为正例的个数与全部,提供了预测模型的 查全率。由于正负样本量差异较大,因此还引入了正确率和 F1 评分。
Truth False
Positive TP FP
Negative TN FN
 
precision = TP/(TP + FP) (4.15)
recall =TP/(TP + FN) (4.16)
F_1 = (2* ")/(2" + FP + FN) (4.17)
accuracy = (TP + TW)/(TP + TN + FP + FN) (4.18)
 
4.3.4实验结果及分析
本实验主要分为两个部分一方面是就本项研究和同类型的检测网络结果相比较, 找出更加适合小目标检测的结构和原理;另一部分是针对肺结节检测效果进行网络实 时改进,首先将输入之后添加调整尺寸的卷积训练并将检测层改为基于两层检测网络 六个锚框的检测结构。
将训练集中全部样本图像进行一次训练的过程称为1次迭代(epoch ),因为总的 迭代次数未知,每次参数迭代的优化方法选用自适应矩估计(adaptive moment estimation, Adam),而且训练过程中选择实时保存权重,避免出现过拟合现象,在训 练不够时可以重载权重继续训练。在实验中如果学习率设置的过小,就会花费大量时 间去训练模型,需要更多的迭代次数,如果设置的过大,可能会出现无法收敛到最优 解,或者直接导致损失函数不收敛。因此,学习速率会很大程度影响算法的收敛过程 和收敛速度。这里由于数据量较大这里选择多次训练,每次根据收敛情况再执行循环 100次或50次,在学习率衰减中,最初使用 0.001 作为初始学习率,在 100个迭代次 数后学习率衰减为原始学习率的 0.1 倍,且如果 5 次迭代内整体损失函数差值小于 0.01,学习率继续为 0.1 每100次进行一次衰减为原来的 0.1 倍数。
输入时由于CT影像尺寸为512*512*1,在输入时添加输入调整卷积将其映射为 512*512*3,然后借助resize将尺寸调整为416*416*3,再传入后续的卷积训练。
在对外接矩形做聚类后得到六个得到检测锚框,此处按照出现概率排序(6,6) (8,8) ( 15,15) ( 18,18) (4,4) (21,21),在聚类时根据xml标注文件当结节偏小 的时候给出的目标区域会偏大,而当目标偏大的时候外接矩会比较合适,因此在当目 标区域较小的时候用更小的外接矩形去覆盖,进行分类计算。部分结节尺寸分布如图:
 
图 4.9 结节直径分布
针对目前的肺结节检测网络比较通过单阶段与双阶段检测算法的多种网络以及
变体研究对比可发现,改进后的检测方法在一定程度上提高了检测率,主要原因在于
 
初始网络结构设计是面向自然数据集,没有更多的关注小目标的局部特征信息和较小 尺度上的物体。而在速度上比双阶段检测速度要更快数倍甚至更多,实验结果表明, 改进版的 YOLO V3 更加关注于图片上小区域的局部特征。相比较之下三维卷积的检 测网络扔在检测性能上高于二维检测效果,并且 YOLO 改进算法在保持了性能的前 提下大大的提高了检测的效率
方法 敏感性 特异性 检测时间
CNN+VGG[70] 92.72% 92.52%
Faster R-CNN+2D DCNN[71] 93.60% 94.18%
Multi-View CNN[72] 90.1% 85.4%
Fusing Multi-Dim CNN[73] 94.25 90.18
Multi-model [75] 91.43% 94.09%
Dey R et al.2018【32 】 90.47% 90.33%
Modified Faster R-CNN[74] 90.1% 82.66% 0.293s
Modified YOLOV3 92.70% 90.82% 0.021s
由下图可见,对应在检测更小的结节目标时,会给出稍大的目标区域,而检测相 对较大的目标区域检测结果更加准确。与之前标注数据时发生的问题相似,小结节在 检测时包含了更多的局部特征区域。本文中的二维的肺结节检测方法效果较好,证明 YOLO V3 网络经过改进可以很好地适应小目标的快速检测,并且检测速度远快于双 阶段的目标检测方法,这将更适合在实际计算机辅助诊断系统中进行实时给出诊断建 议。在检测效果中如图 4.6,由于原始图像在显示时是通过映射到灰度图像显示的, 而网络训练和检测用原图保留更多细节信息,因此成像效果不同。
 
 
图 4.10 检测效果对比
 
4.4本章小结
本章主要介绍了基于YOLO V3改进网络的肺结节分类方法。首先介绍了单双阶 段的检测网络在小目标检测方面的各项对比;其次介绍了在 YOLO V3 网络在结构和 参数上的针对性改进,并给出检方案及实验细节;最后通过实验分析验证所提方法的 有效性。实验证明该区域识别方法可以做到端对端检测,在 GPU 上做到实时检测, 并且整体结果好于像素点检测的方法,但需要优化多层卷积,计算时间长。
第五章 总结及展望
目前目标检测算法的实际应用场景十分广泛,在计算机视觉研究任务中也是一份 十分重要的领域,主要分为图像分类,目标检测,目标分割三大任务,此外许多现实 中的具体应用都通过目标检测算法来实现或提供关键信息。伴随着近年来深度学习的 迅速发展,目标检测算法也在不断的迭代更新,越来越多更优的检测思路提供了更加 高效准确的方法理论。在性能表现方面许多领域的研究中机器视觉已经超过人类对于 图像的认识和理解,当然有很多也是对于图像的误解。
5.1本文工作总结
本文总结了传统的目标检测算法的检测流程提出了基于点特征的检测方法并简 述了基于深度学习目标检测的主要算法发展,并做了两方面的研究,首先对传统的图 像矩研究提出了新的图像高斯矩,并结合点特征提取分类对小目标检测进行应用,其 次基于当前基于深度学习的优秀目标检测方法做出适应性改进性尝试。两种方法都取 得了较好的检测效果,其中深度学习方法的检测效果更优在gpu上保持了实时检测; 在训练和检测效率方面点特征向量匹配的方法更快速,在保证了局部特征的基础上减 少了许多冗余的计算量。主要结果现总结如下:
在小目标检测任务中医学影像中的病灶检测是很好的数据来源,本文中用到的所 有数据均来自于LIDI-IDRI,最大的肺结节数据库。在使用传统的检测方式时基于泰 勒级数思想在二维上的推广和高斯多阶导函数提出传统目标检测下高斯矩理论,先给 出多阶高斯矩的模板结合肺实质分割后的图像进行点特征项向量映射,通过正负样本 均衡取点的方式避免样本不均衡,后将所有向量进行降维方便运算,通过聚类得到正 负样本点中有代表性的点特征向量的分布,对聚类中正负样本分布比例比较接近的特 征进行筛选。用所得到的代表性特征对图像进行滑窗法匹配,通过点向量相似性的阈 值判断和比例统计给出结果。该小目标分类识别方法比较简单并且效果比较不错,该 方法也支持少量样本学习,在特征提取时不需要长时间的迭代优化。
在基于深度学习的目标检测方法中,首先给出了算法的研究背景及发展过程,通 过单阶段和双阶段的主要目标检测算法进行对比。通过两种类型中的代表网络Faster R-CNN和YOLO为例对网络进行分析,指出各自的优势和不足,并基于YOLO的方 法进行结构研究,改进和实验。在YOLO V3网络中,候选区域的判断和目标位置的 分类都统一到一个网络中实现真正意义上的端对端检测,并达到在 GPU 上的实时检 测。在网络结构中仍然存在一些缺陷训练过程可能会出现梯度消失,训练过拟合等问 题,并且由于是进行图像块区域划分搜索对密集物体尤其是密集小目标场景的会有较 高的漏检率。在算法实现上主要基于现有的 YOLO 算法,通过改进网络结构、修改 训练策略并有效改进原算法存在的缺陷。
本文在YOLO V3改进网络过程中的创新点如下:
1)修改网络的整体结构,由于分类任务中类别较少,任务复杂度较低,因此将
YOLO V3 网络的特征提取网络 darnnet-53 在不降低下采样次数的基础上减少卷积层 数网络,加强网络局部特征学习能力,防止小目标淹没在深层卷积中,更加适合检测 直径较小的肺结节。并对检测层进行优化合,将三层检测合并为两层,提高训练和检 测时的效率,通过实验对比验证,证明了在改进情况下可以得到更好的检测效果和收 敛速度。
2)本文对YOLO V3网络的特征提取网络和RPN网络进行了改进。根据肺结节 直径的分布情况,同时减少了检测层的数量和各自的锚框分布尺寸比例统一采用1:1, 将三层检测每层三个锚框修改为双层检测同样每层三个检测锚框,锚框大小根据聚类 结果设置为(4,4)(6,6)(8,8)(15,15)(18,18)(21,21)。
3)为了不使CT值图像在处理中发生信息丢失或压缩,在图像预处理时将dicom 转存为 npy 格式而不是图像格式,同时在输入时通过原图输入和添加映射卷积保留了 更多的局部特征和CT值信息。
5.2未来工作展望
本文主要研究小目标图像特征提取和自动检测方法以及在肺结节影像上的检测 效果。提出的方法中高斯矩的特征提取方法以及检测流程不需要长时间的训练,而且 需要的样本量也远少于深度学习的要求,对于数据来源少,差异性低的小目标或医学 病灶检测是一个很优秀的方法。在肺结节检测中基于 YOLO 的方法准确性更好,速 度也可以达到实时检测的要求,但极度依赖大量数据,和对网络的长时间训练。因此 下列方向可以在将来进行深入的研究:
一、 本文在构建多阶高斯导数对数据的分类处理过程还可以做更深入的研究,对 于离散非正交矩的计算速度、精度等方面研究还不够深入,其中相似变换不变性和仿 射变换不变性及模糊不变性等问题都有待于进一步解决。
二、 医学中的病灶通常是一个三维实体,在影像中以二维的形式展现出来,但在 三维检测中计算量更加复杂,且提升空间小,因此本文的方法都是基于二维CT切片 进行研究的。 3D 网络融合了更多的局部空间信息比 2D 网络中所含有的局部特征更 多,因此在合理设计的三维网络中表现会更好,因为其提取了结节的更多局部信息, 因此在之后的研究中,引入在不增加巨大数据量并保持实时性的基础上完成三维检测 将是一个有挑战性的研究内容。
三、在肺结节检测中,本文的方法只结合了图像特征,未对文本信息进行融合, 在以后的研究中,对事物的判断可以不仅仅局限于图像或文本的某一方面,应该对现 有不同形式的信息进行综合判断,如肺结节病人的病史,临床表现等,而不局限于图 像本身。通过计算机辅助诊断医师提供更可靠的决策支持,如何将这些方法应用到其 他尺度较小的病灶检测研究中,并根据具体问题只进行模型的迁移学习仅通过局部优 化实现。随着医学成像技术的发展,产生海量的医学影像,如何利用深度学习算法对 海量医学影像数据进行处理,分析和决策,为医师诊断提供决策支持,是未来计算机 辅助诊断的发展方向之一。
时光茬再,三年珍贵而美好的硕士研究生生涯即将结束,在三年的学习和生活中, 我无比幸运的得到了很多老师、同学和亲人的帮助,在毕业论文即将完成之际,我在 此向你们表达最诚挚的感谢!
首先,我由衷的感谢我的导师严中红教授,这份感谢并不仅指代知识的传授,更 多的是思维的方式和解决问题的能力。三年来您在学业上既会给出思考问题大方向, 又会给出细节性的解惑,事实证明我从未因为选择您这样一位导师而后悔,希望你也 为有我这样一个学生而骄傲。
在日常思考学习和生活中,我最应该致谢的是我的朋友们:曹俊海、龚亮、叶玲 见、石源康、邓汉杰,我会永远记得我们在A栋五楼的日子。在此一并感谢我的实习 单位给了我结识这些朋友的机会。对于实验室的和同年纪同学们我也非常感激你们的 一路相伴,我们在将来仍然可以不忘初心,砥砺前行。
感谢我的父母,没有父母的支持和鼓励,我很难走到现在,父母于我而言既是亲 人又是朋友,是你们一直以来的付出和关心才有了如今的我,未来的路还很长,我会 继续努力以报答你们对我的付出和关爱。
最后,感谢评审我硕士学位论文的各位专家和老师。谢谢!
参考文献
[1]Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural network[J]. Science,2006,313 (5786):504-507.
[2]Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105.
[3]Russakovsky O, Deng J, Su H, et al. Imagenet large scale visual recognition challenge[J].International Journal of Computer Vision, 2015, 115(3): 211-252.
[4]Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2014: 580-587.
[5]Girshick R. Fast r-cnn[C]//Proceedings of the IEEE international conference or computer vision. 2015: 1440-1448.
[6]Ren S, He K, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]// International Conference on Neural Information Processing Systems. 2015:91-99.
[7]Redmon J, Divvala S, Girshick R, et al. You only look once: unified, real-time object detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 779-788.
[8]Liu W, Anguelov D, Erhan D, et al. Ssd: Single shot multi box detector[C] //European conference on computer vision. Springer, Cham, 2016: 21-37.
[9]Siegel R L, Miller K D, Jemal A. Cancer statistics, 2018[J]. Ca A Cancer Journal for Clinicians, 2018, 60(5):277-300.
[10]Choi J Y, Sung K S, Yang Y K. Multiple vehicles detection and tracking based on scale-invariant feature transform[C]//2007 IEEE Intelligent Transportation Systems Conference. IEEE, 2007: 528533.
[11]Bay H, Tuytelaars T, Van Gool L. Surf: Speeded up robust features[C]//European conference on computer vision. Springer, Berlin, Heidelberg, 2006: 404-417.
[12]E. Rosten and T. Drummond, “Machine learning for high speed corner detection,” in 9th Euproean Conference on Computer Vision, vol. 1, 2006, pp. 430—443.
[13]Hu, Peiyun, and Deva Ramanan. "Finding tiny faces." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.
[14]Ardila, Diego, et al. "End-to-end lung cancer screening with three-dimensional deep learning on low- dose chest computed tomography." Nature medicine 25.6 (2019): 954-961.
[15]Hongtao Xiea , Dongbao Yang , Nannan Sunc , Zhineng Chend, Yongdong Zhanga,et al, Automated pulmonary nodule detection in CT images using deep convolutional neural networks. Pattern Recognition, 85 (2019) 109—119.
[16]Arnaud Arindra Adiyoso Setio*, Francesco Ciompi, Geert Litjens, Paul Gerke, Colin Jacobs, Sarah J. van Riel, Mathilde Marie Winkler Wille, Matiullah Naqibullah, Clara I. Sanchez, and Bram van Ginneken, Pulmonary Nodule Detection in CT Images: False Positive Reduction Using Multi-View Convolutional Networks // IEEE TRANSACTIONS ON MEDICAL IMAGING, VOL. 35, NO. 5,
MAY 2016.
[17]J. Ding, A. Li, Z. Hu, and L. Wang. Accurate pulmonary nodule detection in computed tomography images using deep convolutional neural networks. In MICCAI, 2017.
[18]Q. Dou, H. Chen, Y. Jin, H. Lin, J. Qin, and P.-A. Heng. Automated pulmonary nodule detection via 3d conv nets with online sample filtering and hybrid-loss residual learning. In MICCAI, 2017.
[19]J. Huang et al. Speed/accuracy trade-offs for modern convolutional object detectors. In CVPR, 2017.
[20]F. Liao, M. Liang, Z. Li, X. Hu, and S. Song. Evaluate the malignancy of pulmonary nodules using the 3d deep leaky noisy-or network. arXiv preprint arXiv:1711.08324, 2017.
[21]E. Lopez Torres et al. Large scale validation of the m5l lung cad on heterogeneous ct datasets. Medical physics, 2015.
[22]S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. In NIPS, 2015.
[23]O. Ronneberger, P. Fischer, and T. Brox. U-net: Convolutional networks for biomedical image segmentation. In MICCAI, 2015.
[24]Setio A. A. A. et al. Pulmonary nodule detection in ct images: false positive reduction using multiview convolutional networks. IEEE TMI, 2016.
[25]Zhu, Wentao, et al. "Deeplung: Deep 3d dual path nets for automated pulmonary nodule detection and classification." 2018 IEEE Winter Conference on Applications of Computer Vision (WACV). IEEE, 2018.
[26]H. Chen, Q. Dou, X. Wang, J. Qin, J. C. Y. Cheng, and P.-A. Heng, ‘‘3D fully convolutional networks for intervertebral disc localization and segmentation,'' in Proc. MIAR, Bern, Switzerland, 2016, pp. 375—382.
[27]Q. Dou et al., ‘‘Automatic detection of cerebral microbleeds from MR images via 3D convolutional neural networks,'' IEEE Trans. Med. Imag., vol. 35, no. 5, pp. 1182-1195, May 2016.
[28]R. Anirudh, J. J. Thiagarajan, T. Bremer, and H. Kim, ‘‘Lung nodule detection using 3D convolutional neural networks trained on weakly labeled data,'' Proc. SPIE, vol. 9785, Mar. 2016, Art. no. 978532.
[29]Q. Dou, H. Chen, L. Yu, J. Qin, and P.-A. Heng, ‘‘Multilevel contextual 3-D CNNs for false positive reduction in pulmonary nodule detection,'' IEEE Trans. Biomed. Eng., vol. 64, no. 7, pp. 1558-1567, Jul. 2017.
[30]G. Urban, M. Bendszus, F. Hamprecht, and J. Kleesiek, ‘‘Multi-modal brain tumor segmentation using deep convolutional neural networks,'' in Proc. MICCAI BraTS, 2014, pp. 31-35.
[31]S. C. Turaga et al., ‘‘Convolutional networks can learn to generate affinity graphs for image segmentation,'' Neural Comput., vol. 22, no. 2, pp. 511 - 538, 2010.
[32]I. R. S. Valente, P. C. Cortez, E. C. Neto, J. M. Soares, V. H. C. de Albuquerque, and J. M. R. Tavares, ‘‘Automatic 3D pulmonary nodule detection in CT images: A survey,'' Comput. Methods Programs Biomed., vol. 124, pp. 91-107, Feb. 2016.
[33]W. Li, P. Cao, D. Zhao, and J. Wang, ‘‘Pulmonary nodule classification with deep convolutional neural networks on computed tomography images,'' Comput. Math. Method. Med., vol. 2016, Nov. 2016, Art. no. 6215085.
[34]D. Kumar, A. Wong, and D. A. Clausi, ‘‘Lung nodule classification using deep features in CT images,'' in Proc. CRV, Jun. 2015, pp. 133-138.
[35]K.-L. Hua, C.-H. Hsu, S. C. Hidayati, W.-H. Cheng, and Y.-J. Chen, ‘‘Computer-aided classification of lung nodules on computed tomography images via deep learning technique,'' Onco Targets Ther., vol. 8, pp. 2015-2022, Aug. 2015.
[36]W. Shen, M. Zhou, F. Yang, C. Yang, and J. Tian, ‘‘Multi-scale convolutional neural networks for lung nodule classification,'' Inf. Process. Med. Imag., vol. 24, pp. 588 - 599, 2015.
[37]W. Shen et al., ‘‘Multi-crop convolutional neural networks for lung nodule malignancy suspiciousness classification,'' Pattern Recognit., vol. 61, pp. 663 一 673, Jan. 2017.
[38]HUBEL D H, WIESEL T N. Receptive fields and functional architecture of monkey striate cortex[J]. The Journal of physiology, 1968, 195(1): 215-243.
[39]Fukushima K, Miyake S, Ito T. Neocognitron: A neural network model for a mechanism of visual pattern recognition[J]. IEEE Transactions on Systems, Man, and Cyemetics, 1983 (5): 826-834.
[40]LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learn applied to document recognition[J]. Proceedings ofthe IEEE, 1998, 86(11): 2278-2324.
[41]Bottou, Leon. "Large-scale machine learning with stochastic gradient descent." Proceedings of COMPSTAT'2010. Physica-Verlag HD, 2010. 177-186.
[42]Su, Weijie, Stephen Boyd, and Emmanuel Candes. "A differential equation for modeling Nesterov's accelerated gradient method: Theory and insights." Advances in Neural Information Processing Systems. 2014.
[43]Seide, Frank, et al. "1-bit stochastic gradient descent and its application to data-parallel distributed training of speech dnns." Fifteenth Annual Conference of the International Speech Communication Association. 2014.
[44]Kingma, Diederik P., and Jimmy Ba. "Adam: A method for stochastic optimization." arXiv preprint arXiv:1412.6980 (2014).
[45]Hu M k Visual pattern recognition by moment invariants[J].IRE Transactions Information Theory, 1962,8(2): 179・187.
[46]Reddi S S.Radial and angular moment invariants for image identification[J].1EEE Transactions on Pattern Analysis and Machine Intelligence. 1981。3(2): 240一242.
[47]Teagne M R.Image analysis via the general theory of moments[J].Journal of Optimal Society of American, 1980, 70(8): 920一930.
[48]llTchebichef Mukundan R, Ong S H. Image analysis by Tchebiehefmoments[J]. IEEE Transactions on Image Processing, 2001, 10(9): 1357-1364.
[49]Yap P T. Image analysis by Krawtchouk moments[J]. IEEE Transactions on Image Processing, 2003, 12(11): 1367-1377.
[50]13Hahn Yap P T, Paramesran R. Image analysis using Hahn moments[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2007, 29(11): 2057一2062.
[51]Hahn Zhu H O. Shu H Z. Image analysis by discrete orthogonal dual Hahn moments[J]. Pattern Recognition Letters, 2007, 28(13): 1688. 1794.
[52]Zhu H Q, Shu H Z. Image analysis by discrete orthogunal Raeah moments[J]. IEEE Transactions on Signal Processing, 2007, 87(4): 687一708.
[53]Mikolov, Tomas, et al. "Extensions of recurrent neural network language model." 2011 IEEE international conference on acoustics, speech and signal processing (ICASSP). IEEE, 2011.
[54]瞿爱珍, and 庄天戈. 计算机辅助医学诊断系统的数据挖掘和知识发现研究. Diss. 2002.
[55]Armato III, Samuel G., et al. "The lung image database consortium (LIDC) and image database resource initiative (IDRI): a completed reference database of lung nodules on CT scans." Medical physics 38.2 (2011): 915-931.
[56]Dastych, Milan, Hana Novotna, and J. Cihalovd. "Lactulose/mannitol test and specificity, sensitivity, and area under curve of intestinal permeability parameters in patients with liver cirrhosis and Crohn's disease." Digestive diseases and sciences 53.10 (2008): 2789-2792.
[57]Hu, Ming-Kuei. "Visual pattern recognition by moment invariants." IRE transactions on information theory 8.2 (1962): 179-187.
[58]Canny, John. "A computational approach to edge detection." IEEE Transactions on pattern analysis and machine intelligence 6 (1986): 679-698.
[59]MARR D, HILDRETH E. Theory of edge detection[J]. Proceedings of the Royal Society of London. Series B. BiologicalSciences, 1980, 207(1167):187-217.
[60]Curtiss, Larry A., Paul C. Redfern, and Krishnan Raghavachari. "Gaussian-4 theory." The Journal of chemical physics 126.8 (2007): 084108.
[61]袁春兰, et al. "基于 Sobel 算子的图像边缘检测研究." 激光與紅外 39.1 (2009): 85-87.
[62]Jury, W. A., and C. B. Tanner. "Advection Modification of the Priestley and Taylor Evapotranspiration Formula 1." Agronomy Journal 67.6 (1975): 840-842.
[63]Remy-Jardin, M., et al. "Morphologic effects of cigarette smoking on airways and pulmonary parenchyma in healthy adult volunteers: CT evaluation and correlation with pulmonary function tests." Radiology 186.1 (1993): 107-115.
[64]Martinez, Aleix M., and Avinash C. Kak. "Pea versus lda." IEEE transactions on pattern analysis and machine intelligence 23.2 (2001): 228-233.
[65]Krishna, K., and M. Narasimha Murty. "Genetic K-means algorithm." IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics) 29.3 (1999): 433-439.
[66]Golub, Gene H., and Christian Reinsch. "Singular value decomposition and least squares solutions." Linear Algebra. Springer, Berlin, Heidelberg, 1971. 134-151.
[67]Redmon, Joseph, and Ali Farhadi. "Yolov3: An incremental improvement." arXiv preprint arXiv:1804.02767 (2018).
[68]King, Gary, and Langche Zeng. "Logistic regression in rare events data." Political analysis 9.2 (2001): 137-163.
[69]De Boer, Pieter-Tjerk, et al. "A tutorial on the cross-entropy method." Annals of operations research 134.1 (2005): 19-67.
[70]Guo tong, Xie Shipeng. Automated segmentation and identification of pulmonary nodule images. Computer engineering and design vol.40 no.2 Feb.2019:467-472.
[71]Hu Xinying, Chen Shuyue, Jiao Zhuqing. Pulmonary nodule detection based on improved Faster R- CNN and 3D DCNN [J/OL]. Application Research of Computers. (July,2018)Vol. 36 No. 12.
[72]Arnaud Arindra Adiyoso Setio*, Francesco Ciompi, GeertLitjens, Paul Gerke, Colin Jacobs, SarahJ. vanRiel, Mathilde Marie Winkler Wille, Matiullah Naqibullah, ClaraI. Sanchez, and Bram van Ginneken. Pulmonary Nodule Detection in CT Images: False Positive Reduction Using Multi-View Convolutional Networks. IEEE TRANSACTIONS ON MEDICAL IMAGING, VOL.35, NO.5, MAY2016.
[73]WU Baorong, QIANG Yan, WANG Sanhu, et al. Fusing multi-dimensional convolution neural
network for lung nodules classification [J/OL]. Computer Engineering and Applications, Dec. 2018.
[74]Weikang Fan, Huiqin Jiang, Ling Ma, Jianbo Gao, Haojin Yang, "A modified faster R-CNN method to improve the performance of the pulmonary nodule detection," Proc. SPIE 10806, Tenth International Conference on Digital Image Processing (ICDIP 2018), 108065A (9 August 2018); doi: 10.1117/12.2502893.
[75]Xie Y, Xia Y, Zhang J, et al. Transferable Multi-model Ensemble for Benign-Malignant Lung
Nodule Classification on Chest CT[J]. Lecture Notes in Computer Science,
2017,10435:656-664.
【本文地址:https://www.xueshulunwenwang.com//yixuelei/yixueyingxiang/7399.html

上一篇:沈阳开普医学影像有限公司发展战略研 究

下一篇:面向深度学习应用的医学影像快速标注系统 的研究与实现

相关标签: