1. 网站地图
  2. 设为首页
  3. 关于我们


基于Transformer的医学影像语义分割算法研究

发布时间:2023-09-20 14:20
第一章 引言 1
1.1 研究背景及意义 2
1.2 国内外研究现状 5
1.3 研究内容及创新 12
1.4 论文的结构安排 13
第二章 相关研究工作 15
2.1卷积神经网络 15
2.2注意力机制与 Transformer 18
2.3 医学影像语义分割网络 24
2.4 本章小结 32
第三章 基于轴向注意力的 Transformer 分割算法 35
3.1 轴向注意力机制 36
3.2 网络结构及算法原理 37
3.3 本章小结 43
第四章 基于边缘注意力的 Transformer 分割算法 45
4.1 边缘关键点选择算法 46
4.2 网络结构及算法原理 48
4.3 本章小结 53
第五章 实验与结果分析 55
5.1 实验数据集介绍 55
5.2基于轴向注意力的 Transformer 分割模型评估实验 57
5.3基于边缘注意力的 Transformer 分割模型评估实验 61
5.4 本章小结 66
第六章 总结与展望 67
6.1总结 67
6.2展望 68
参考文献 69
第一章 引言
语义分割(Semantic Segmentation)或者图像分割,是计算机视觉领域的三大经典任 务(图像分类、目标检测、图像分割)之一。具体来说语义分割将图像中属于同一类别 的部分聚在一起,从而区分图像中不同的物体,或者从背景中分割出目标主体。语义分 割是一项像素级别预测任务,图像中的每一个像素将根据其对应的类别进行分类。现实 中语义分割有非常广阔的应用前景,常见的应用场景如自动驾驶,卫星遥感、人脸面部 分割、医疗影像分析等。在上述众多研究方向中,随着人工智能的兴起,将基于神经网 络的图像分割技术与医学影像分析结合,形成辅助医生临床诊断的智慧医疗技术是近些 年非常热门的一个研究方向。
“看病难”一直是困扰诸多百姓的难题,原因可归纳为两方面:一方面中国的医疗 资源的分布不均匀,许多人偏好去大城市和好医院就诊;另一方面是中国“医生少,病 人多”的国情以及高水平医生数量不足造成的医疗服务供需不平衡。此外,医学影像的 诊断费时费力,一个工作日内医生诊断的患者数量十分有限,加剧医疗资源短缺的局面。 近些年,伴随人工智能技术的飞速发展,基于大数据与人工智能的智慧医疗已走入人们 的视野中,并具备一定实用性。以乳腺癌诊断场景为例,一名患者进行一次核磁共振检 测可得到几十张乳腺影像,经验丰富的医生需要仔细观察每张影像的细节才能给出初步 的诊断。这种传统的诊断流程非常消耗医生的精力与时间,并且医生可能在注意力下降 后错过一些病变造成漏诊。如果能了解医生的需求,将人工智能技术引入术前诊断,辅 助医生分割乳腺病灶,医生的工作效率将显著提高。具体来说,假设输入一张乳腺的核 磁共振影像或者超声影像,通过分割模型端到端输出肿瘤的位置,医生在同样的工作时 间内将诊断更多的病人,在一定程度上缓解“看病难”的现状,同时还能减少工作疲劳 导致的漏诊与误诊。在乳腺癌分割应用场景中,人工智能技术能有效解决“看病难”的 现实问题,基于深度学习的病灶分割模型具有非常宽广的应用前景。本文将以乳腺癌诊 断为具体的应用场景,针对乳腺癌诊断中的实际问题提出相应的解决方法。
1.1研究背景及意义
在临床诊断中,医学影像被称为医生的眼睛,是医生进行后续诊断工作的重要依据。 医学影像是由重采样形成的离散图像,所谓离散图像即在空间构成上为相互独立的的像 素点,灰度值为不同级数的图像。科学技术日新月异,越来越多先进的医学成像仪器被 引入医院并得到广泛使用,这些设备帮助医生从多个维度观察患者的情况,综合不同技 术原理的成像做出更准确的判断。当下医院中广泛使用的医学影像成像技术包括磁共振 成像[12] (Magnetic Resonance Imaging, MRI)、钼靶 X 线[13] (Mammogram X-Ray)以 及超声【I,4] (Ultrasound)成像等。每一种成像技术都有各自擅长解决的病灶,能从不同 的角度反映出患者当前的病理特征。近年来随着医学影像技术应用的推广,越来越多的 人来到医院拍摄影像,需要医生分析的医学影像也愈来愈多。但是从拍摄医学影像到获 得完整的检测报告单中间还需要经历数个步骤。首先是工作经验尚浅的年轻医生做初步 分析,然后再由高年资的医生审核把关,诊断过程中需要医生在影像上手工标注病灶的 位置信息及边界信息。上述诊断流程非常消耗时间与医生的精力,医生可能因为工作量 太大产生疲劳进而导致错误解读,使一些疾病被漏诊,导致假阴性的出现。而癌症的扩 散速度非常快,假设病人被误诊,则可能错过最佳的救治时间。基于现实的需求,医生 迫切需要一种能在手术前辅助诊断的工具来提高工作效率。在这种形势下,计算机辅助 检测[5, 6, 7] (Computer Aided Detection)与计算机辅助诊断[8, 9,⑼(Computer Aided Diagnosis, CAD)的出现,并逐步成为医院诊断过程中不可或缺的部分。如今CAD通常被看作医 生诊断时候的重要参考[11, 12]或“第三只眼”[13, 14]。当前医生的普遍共识是 CAD 能够减 少医生的工作压力[15],但还不能替代医生决策[16]。经过长时间的发展,特别是近些年人 工智能的兴起让医学影像 CAD 成为医学影像分析与计算机交叉领域的热门研究方向 [16], CAD 在各种疾病诊断中也得到广泛应用[17, 18]。由于疾病种类繁多,而不同疾病的 诊断特征各不相同,本文聚焦于基于深度学习的计算机辅助诊断在乳腺癌磁共振影像, 超声影像上的应用研究。
乳腺癌是最常见危害女性健康的癌症,据世界卫生组织国际癌症研究机构最新调查 结果, 2020 年全球新发癌症约 1000 万例,其中乳腺癌占比超过 22% 在总数上超过肺 癌的 220 万例,成为全球第一大癌症。在我国,乳腺癌在女性恶性肿瘤发病率中排第一 位[19],它的年发病率在万分之四左右,并且发病率每年还在以 3%~4% 的速度增长。另 2
一个关于乳腺癌的现状是,我国妇女患乳腺癌的生存率较发达国家而言偏低。生存率差 距较大的主要原因是我国对乳腺癌早期的发现诊断不够及时,导致患者错过最佳救治期, 多数患者在中期甚至晚期被确诊。据统计乳腺癌早期的治愈率可达 95%,如果能将乳腺 癌扼杀在早期甚至潜伏期,不仅能大大提高患者的生存几率还能降低患者的身心痛苦和 各项费用支出。因此尽早发现并确诊对于提高乳腺癌患者生存率非常重要,基于深度学 习的医学影像分析方法能有效提升医生的检查效率,并且降低漏诊和误诊的概率。目前 临床中常用的影像学检查手段有:
( 1 )钼靶 X 线摄影检查
乳腺钼靶 X 线摄影是目前各医院中常用的乳腺影像检测方法之一,由于该方法操 作简单且使用成本低,目前已成为乳腺癌初筛的首选项。乳腺癌病灶在乳腺钼靶 X 线 摄影中主要表现形式是肿块和钙化簇[20],放射科医生根据上述两个特征进行诊断。及时 发现钼靶 X 线影像中的肿块与钙化簇在乳腺癌早期诊断中非常重要。钼靶 X 线拍摄 的乳腺癌病灶如图 1-1 所示,从图中可见乳腺癌肿块的形状大体上类似圆形、边缘出现 不规则的分叶并表现出向周围扩散的态势。虽然钼靶 X 线摄影是最基础的成像方法, 在实际检查中广泛使用,但是该技术也存在一定的缺陷[21]。首先 X 射线具有一定放射 性,有学者[21]认为正常人接触大量 X 射线存在被诱导出癌变的可能性;其次患者致密 的乳腺腺体组织可能会遮挡微小的病灶并在钼靶 X 线摄影中呈现假阴性,造成漏诊。 此外乳腺钼靶 X 线摄影的假阳性较高[22],会给患者造成一定的心理负担。
 
图 1-1 乳腺癌肿瘤钼靶成像图
( 2)磁共振成像检查
临床诊断中医生通常结合磁共振成像[23, 24]与钼靶 X 线摄影进行诊断。由于不同组 织达到磁共振的高能状态后复原的弛豫时间不同,反映在图像上是不同组织之间的明暗 差异。利用不同物体弛豫时间不同的特点,医生可以根据磁共振成像上不同组织的明暗 关系鉴别癌变组织和正常组织。乳腺癌磁共振成像可通过 T1, T2 加权成像获得不同明 暗关系的影像,其中 T1 加权成像有利于观察物体解剖成像, T2 加权成像会重点突出 含水量多的组织,通常情况下肿块中水分的含量较正常组织偏高,故磁共振成像用于观 察肿块的假阳率明显低于钼靶 X 线摄影[25]。
目前医院主流的磁共振成像设备均采用高场强(1.0 T〜1.5 T)磁共振成像,该成像 方法强化特定目标的信号强度。如图 1-2 所示,在高场强磁共振成像下,乳腺癌肿块呈 现亮白色,与周围的正常组织对比明显。因此磁共振成像相较于钼靶 X 线成像更容易 发现乳腺癌的肿块,同时因为没有放射性,不必担心射线辐射对人体健康的影响。但是, 磁共振的临床应用也有一定局限性[26],磁共振成像对微小钙化簇的检测能力较差。此外 磁共振设备较昂贵,高昂设备费用与对应的检测费用限制了磁共振成像的推广与应用。 因此,虽然磁共振成像技术相较钼靶 X 线成像技术在诊断乳腺癌肿块方面更准确,但 目前大多数医院仅将磁共振检查作为钼靶 X 线检查的补充验证方法。
 
图 1-2 乳腺癌肿瘤磁共振成像图
 
( 3)超声检查
除了磁共振成像,还有一种辅助钼靶 X 线检查的重要方法,即乳腺超声检查。相
较于前两种方法,乳腺超声检查具有操作便捷、无放射性以及收费便宜等优点,是乳腺 癌诊断中常用的重要方法[27]。超声检查的成像原理是超声波在人体组织内传播时遇到不 同组织(乳腺腺体、脂肪、肿瘤等)产生不同的反射信号。在超声影像图中乳腺癌的诊 断依据是肿块型内回声不均匀[28, 29],肿块边缘呈不规则状,与正常组织之间边界模糊。 一个典型的乳腺癌病灶的形态如图 1-3 所示,该肿块形态扭曲,与周围正常组织之间的 边界非常模糊。在临床诊断中,医生通常将乳腺超声作为乳腺钼靶 X 线摄影的重要辅 助,通过超声成像可以从供血量大小的方面来区分癌变组织与正常组织。虽然乳腺超声 成像有许多优点,但是也存在检测的盲点,譬如当受检者的乳腺脂肪含量偏高时容易漏 诊,此外超声检测对乳腺癌早期重要的诊断指标钙化簇的敏感性偏弱[30]。
 
图 1-3 乳腺癌肿瘤超声成像图
 
1.2国内外研究现状
前文阐述了将语义分割研究与医学影像学结合的现实意义与未来的应用前景。在众 多疾病中,本文以目前世界发病人数最多的乳腺癌为切入点,介绍相关医学影像背景知 识。以乳腺癌病灶分割作为具体的应用场景,本研究利用图像分割技术辅助医生术前诊 断,具有非常重要的现实意义。下面将从三方面介绍乳腺癌辅助诊断技术的研究现状, 首先是计算机辅助诊断系统在乳腺 X 线摄影、超声、磁共振成像中的诊断流程以及不 同分割技术的分类概述;其次是传统分割方法的介绍;最后是基于深度学习分割方法的 研究现状以及面临的挑战。
将辅助检测系统引入临床诊断中旨在避免医生错漏任何一个可能的病灶,尤其是在 数字化飞速发展每天产生海量的医学影像的当下。辅助诊断系统的整体流程[31, 32]可分为 三步:图像预处理、目标区域选择、病灶分割。
( 1 )图像预处理 由于医院中不同成像设备采集的影像尺寸各不相同,若不进行预处理直接输入不同 尺寸的图像可能导致后续的分割流程出错,因此对采集的医学影像进行预处理非常重要, 这也是准确分割出目标的基础[33]。预处理通常包括对医学影像尺寸的调整,对医学影像 进行图像增强以及深度学习中的数据增强。医学影像尺寸的调整即将不同设备输出的原 始影像按比例缩放成统一的尺寸;图像增强即采用直方图增强,图像平滑,滤波等手段 剔除成像过程中的噪声,提升影像的清晰度与对比度;当数据量较小的时候,为了提高 人工神经网络的学习效果,可在图像预处理阶段进行适当的数据增强操作,常见的数据 增强操作包括对图像进行旋转、翻转、缩放、随机裁剪等。
( 2 )目标区域选择 完成图像预处理之后,下一步是对图像中包含病灶的区域进行选择,分割并剔除与 任务无关的背景区域,突出包含疑似病灶的感兴趣区域(Region Of Interest,ROI)。若 未能选择出包含病灶的区域,计算机辅助诊断系统将无所作为,目前主流的分割技术概 览参见图 1-4。目标区域的选择可根据医生参与程度分为三类:首先,传统的方法是交 互式分割,即医生根据自身诊断经验手动勾画出大致的病灶范围,然后让计算机辅助诊 断系统输出具体的病灶分割边缘。其次是智能程度稍高一点的半自动分割法,计算机通 过阈值法等传统图像分割方法进行简单的判断,然后进行后续分割工作。最后的一种方 法是全自动分割法,随着人工智能技术与医学影像分析结合,全自动分割方法能真正实 现无需医生干预,计算机根据输入的病理图像自动分割出病灶。三种方法中,毫无疑问 基于人工神经网络的全自动分割最能减轻医生的工作压力,也是实现智慧医疗的关键。 随着人工智能的发展,神经网络助力全自动分割取得了突破性进展,如今端到端的分割 模型已取得较好的分割精确度,但是分割精度仍有提升空间[34]。
 
 
图 1-4 分割技术概览图
(3)特征提取
完成图像预处理和目标区域选择后,就是计算机辅助诊断的最后一步,对图像的特 征信息进行提取然后通过分析特征信息输出分割的病灶。高质量的特征能反映出医学影 像包含的结构信息,生理现象,进而简化计算的复杂度,提升诊断系统的分割精度。计 算机辅助诊断系统常用的特征包括以下几类:形态学特征、纹理特征、空间位置特征、 HOG 特征等。相关研究[35, 36]表明纹理特征对乳腺病变诊断的意义要大于形态学特征。
1.2.1传统的图像分割方法
目前医学影像的分割技术可分为基于传统图像处理的分割技术和基于深度学习的 分割技术。传统的图像分割方法的做法是根据图像特性,将目标区域分割出来供医生进 行后续诊断,图像特征包括图像的灰度、空间结构以及纹理特征。下文将介绍几种常见 的分割方法,在表 1-1 中列举不同分割技术的特性及优缺点。
(1)阈值法 阈值法顾名思义即通过设定一个阈值,以阈值为标准对图像中的像素进行分类,实 现图像中不同物体的分割。阈值法成功的关键在于阈值的选择,设定一个合理的阈值后, 根据阈值对图像中的目标物体进行分割。阈值分割法首先需要对图像进行灰度处理,以 彩色 RGB 三通道的图像为例,将图像转变为单通道的灰度图像,然后将灰度图中每个 像素点的数值与阈值进行比较,超过阈值的像素设置为 255 ,低于阈值的像素设置为 0。处理后的灰度值只有0 和 255,整幅图像呈现黑白色,这个过程称为图像的二值化。 二值化后的图像即最终的输出图像,由灰度值为 255 的白色区域即分割出的目标,值
7
为 0 的黑色区域即与任务无关的背景。阈值法中一个经典的方法是最大类间方差法, 即 Otsu 等人[37]提出的大津算法。大津算法利用图像直方图计算得前景与背景的方差, 根据方差计算出将目标与背景分割的最合适阈值。之后根据求得的最佳阈值对图像进行 二值化,完成图像分割任务。虽然以大津分割为代表的阈值法原理较简单,但是阈值法 能有效处理简单的图像分割问题。然而随着图像种类的增多,阈值法也展现出一定的应 用局限性。由于阈值法只从灰度值的角度出发,计算出的阈值并未考虑图像中物体的空 间位置信息,因此当物体边缘比较模糊,像素灰度值差异较小时,阈值法的表现会不尽 如人意。
(2) 区域法
区域增长法和区域分裂合并法统称为区域法。区域增长法[38 ]的原理是对图像划分预 设区,随后将与预设区域具有相近特征的相邻像素逐步并入该预设区内,通过不断迭代 合并相似的像素,最终分离出目标物体与背景。区域增长法的关键在于预设区的划分, 精准的划分能较快分割出目标物体,但是极端情况下也可能导致分割失败。由于预设区 的划分通常依赖于手工选择,因此区域增长法分割效果受主观影响较大。区域增长法的 逆过程称为区域分裂合并法,其原理是根据事先决定的分裂与合并准则,将整个图像分 裂成不可再分裂的子块,随后逐个检查相邻子块,合并满足准则的子块直到完成分割。 两种区域方法各有优势,在场景比较复杂的情况下,区域分裂合并法分割效果比随机性 较大的区域增长法更好。但凡事有利有弊,区域分裂合并法由于步骤更多,计算复杂度 更高。基于以上原因,区域法通常与其他的分割方法组合使用,例如肖明尧等人[39]提出 了一种基于多尺度的区域分割图像算法对脑部 CT 影像进行病灶分割。冯锐杰等人[40] 则将区域增长方法与水平集算法组合,应用于腹部 CT 影像的肝脏器官分割中,获得了 很好的分割结果。
(3) 聚类法
聚类(Clustering)通常是根据一个分类标准将数据分成不同的簇,理想的分类情况 是同簇内数据之间的相似度最高,不同簇之间的数据差异最大。简而言之完成聚类操作 后,相近类别的数据聚在一起形成独立的簇。以彩色图像分割为例:以彩色图像的 RGB 三通道为轴建立空间直角坐标系,那么一副图像上的每个像素点都与该空间直角坐标系 建立了一一映射的关系。从空间直角坐标系中随机取 k 个点,作为 k 个簇各自的中心。
8
计算所有像素点到 k 个簇心的距离,根据欧氏距离将所有像素点划分至与其距离最小 的簇类,自此聚类完成。
(4)边缘法
边缘法顾名思义基于边缘信息完成图像分割。通过将物体的边界像素相连,可以得 到一个闭合区域。当人眼观察物体时,物体的边界信息是最明显的,因为边界信息能帮 助人快速区分不同物体。在计算机视觉领域,图像中的边缘包含了丰富的信息,例如边 界的灰度值或者结构突变。在边缘检测任务中,常用的边缘检测方法有 Canny 算 [41]、 Laplace 算 [42]、Sobel 算 [43]和 rewitt 算 [44]等。虽然这些方法简单有效但是普遍 抗噪能力弱,分割结果容易受背景噪声干扰导致分割边缘不够干净。因此,不少研究人 员针对不同的使用场景设计出新的边缘检测算法。例如 Tang 等人[45]将 Sobel 算 与 多头注意力结合,提出一种改进的 Sobel 算 用于新冠肺炎 CT 影像病灶分割。王小 俊等人[46]提出一种基于改进 Canny 算 的图像边缘检测算法,采用迭代算法计算最佳 高低双阈值,以数学形态法细化检测出的图像。表 1-1 中对传统的 CAD 分割技术的 优势以及缺陷总结:
表 1-1 传统分割技术总结
分割技术 原理 优点 缺点
阈值法 通过直方图获取阈值,基 阈值获取简单,计算量较小 在色阶接近的图像
于灰度值计算阈值 中效果较差
区域法 基于种 点对区域内的像 简单易行,信噪比高 依赖于种 点的选
素进行分组
聚类法 基于相似性将像素分成不 原理简单,计算简单 定义合理的分类标
同组 准较难
边缘法 基于识别图像中不连续的 视觉上直观,可解释性强 容易受噪声影响,
尖锐边缘 在对边界模糊的图
像中效果欠佳
1.2.2基于深度学习的医学影像分割算法
经过几十年的研究已经有大量传统的图像分割方法被提出,但是传统的分割方法很 大程度上依赖于人工设定的“特征”表示方法,例如描述纹理的 HOG 特征[47]。固然这 种做法能在某一方面取得较好的结果,但是缺乏一定泛化性。世界是复杂的,人工设定 的特征很难满足不同情况下的分割需求,面对不同型号机器生成的不同细节的影像,或 者在其他疾病的分割任务中,传统方法的表现难以让人满意。
随着深度学习的发展,人工神经网络在图像分类、分割领域中的展现出巨大应用潜 力。与传统分割模型相比,随着算法的迭代更新,基于深度学习的分割模型在众多分割 任务中的表现已经超过传统的分割模型。在医学影像分割任务中,基于卷积神经网络
(Convolutional Neural Network, CNN)的分割模型在众多医学影像分割数据集上表现 优异。卷积神经网络是一种基于大量卷积层的非全连接网络,得益于卷积操作的特性, 卷积神经网络在同一层中可以共享权重。虽然固定大小的卷积核限制了感受野的大小, 但是权重共享的特性让卷积神经网络减少了大量的参数,在计算力还不强大的时代,卷 积神经网络毫无疑问是研究人员的首选。下文将简述卷积神经网络的发展历史以及将其 应用于乳腺癌影像分割任务中面临的挑战。
1962年,Hubei等人[48]在动物实验中对视觉神经进行了研究,发现视觉神经元支 配的刺激区范围可从视网膜上找到,视网膜上的刺激区即感受野,感受野的大小可借助 视角的大小来描述。Fukushima等人[49]尝试对感受野的概念进行建模,最终提出早期的 人工智能神经网络。随后的一段时间,研究人员对于卷积神经网络进行了深入的探索, Lecun 等人[50]设计了一个简单的卷积神经网络 LeNet 5,并在手写数字识别任务中取得 了令人瞩目的成功。虽然 LeNet 5 网络在图像分类任务中已崭露头角,但是由于当时计 算资源的限制,卷积神经网络在其他计算机视觉任务中表现难以让人满意,因此并未得 到足够的重视。卷积神经网络真正成为研究者关注的焦点是最近十年, 2012 年 rizhevsky 等人[51]提出了计算机视觉领域中的里程碑工作 AlexNet,AlexNet 出人意料 横扫ImageNet图像分类比赛,遥遥领先第二名。AlexNet优异表现让人们看到了卷积 神经网络在计算机视觉领域中的应用前景,激发了众多研究人与对卷积神经网络的研究 热情。随后众多优秀的卷积神经网络如雨后春笋般涌现,Simonyan等人[52]提出VGGNet, Szegedy 等人[53]提出 GoogleNet 网络,都大大推动了卷积神经网络在计算机视觉任务
10
中的应用。在图像分割任务中,优秀的工作同样数不胜数。Long等人[54]在2015年开 创性提出了全卷积神经网络(Fully Convolutional Network,FCN),有别于传统卷积神经 网络的结构,全卷积网络用卷积层替换了全连接层,并引入上采样操作增加图像的维度。 正因如此,全卷积网络相较于传统的卷积神经网络能接受更大尺寸图像的输入。全卷积 网络表现出的巨大应用潜力让许多研究人员在其基础不断改进,在医学影像分割任务中 有大量受全卷积网络启发的研究工作被提出。Yuan等人[55]针对全卷积网络的损失函数 进行改进,将 Jaccard 相似系数引入到训练过程中,提高了在皮肤病分割任务中的准确 度。医学影像分割任务中最知名的分割网络当属 Ronneberger 等人[56]提出的 U-Net 网 络。U-Net是基于全卷积神经网络最成功的改进模型之一,通过在编解码器之间加入连 接,U-Net能有效结合低层次的结构信息与高层次的语义信息,这种做法帮助U-Net在 众多分割任务中获得优异的分割成绩。此后 U-Net 的编解码器结构逐渐成医学影像分 割任务的设计模板,U-Net也作为重要的测试基线(Baseline)出现在后续的相关研究工 作中。Yan等人[57]在传统U-Net的基础上增加注意力门和混合扩张卷积模块,提出AE U-Net用于辅助医生对乳腺癌超声影像进行诊断与评估。Chen等人[58]针对乳腺癌超声 影像分割任务进行深入研究,在原始 U-Net 的基础上增加混合自适应模块并提出 AAU-net。该模型可以从通道和空间的维度自适应选择不同感受野下有用的目标特征, 基于该模块,AAU-net可准确分割超声影像中的乳腺癌肿瘤。Gu等人[59]针对U-Net中 池化和跳跃连接导致的信息丢失问题,提出基于上下文提取模块的分割网络(Context Encoder Network, CE-Net)。随着注意力机制研究的兴起,Oktay等人[60]将注意力门
(Attention Gate)与U-Net结合,利用注意力门突出图像中的显著信息,降低模型计算 开销的同时增加模型的分割精度。孙军梅等人[61]针对传统医学图像分割网络存在边缘分 割不清晰、缺失值大等问题,提出一种具有边缘增强特点的医学图像分割网络(Add-and- Subtract U-Net),提高细胞边缘的分割精度。Zhou等人[62]在U-Net基础上,通过抓取 不同层次的特征并进行特征融合,带来可观的分割精度提升,此外 Zhou 在模型训练中 结合深监督,让参数量巨大的深度网络在可接受的精度范围内大幅度缩减参数量。Chen 等人[63]将近些年的研究热门 Transformer 融入 UNet 的结构中,利用 Swin Transformer 构建编码器、 bottleneck 和解码器。主要的做法是使用带有偏移窗口的分层 Swin Transformer 作为编码器来提取上下文特征,最终提高在多器官分割任务中的准确度。
11
尽管这些年深度学习在医学影像分析领域取得了长足的发展,但医学影像分割任务
仍然具有挑战性。以乳腺癌分割任务为例,微小病灶的准确定位是一个难点也是重点。 此外,仅完成定位病灶并不能满足临床诊断的需求,多数情况下乳腺癌病灶与正常组织 的边界非常模糊,模糊边界是制约深度学习在医学影像分割任务中提升分割精度的拦路 虎。因此,如何有效的解决上述两个难题是本文的研究重点。
1.3研究内容及创新
基于大量的研究文献,本文对医学影像分割技术进行了简要总结。在具体的乳腺癌 病灶分割任务中,本文针对两个重要的挑战:微小病灶的定位与病灶的模糊边缘,提出 相应的解决办法并在乳腺癌数据集上验证了方法的可行性。本文的主要贡献和创新点总 结如下:
(1)前往医院与医生合作,收集整理医院中 50 名病人上千张的乳腺磁共振影像。 对上述影像进行标注,得到了一个真实可靠的乳腺癌肿瘤数据集。此外申请获得两个乳 腺癌超声影像的数据集使用权,在不同成像类型的数据集上测试,让本研究更具说服力。
(2)在结构复杂的乳腺癌分割任务中,病灶的占比往往非常小。针对这个问题,本 文提出了一种基于轴向注意力机制的医学影像分割算法。该算法在 Transformer 编码器 部分添加轴向注意力模块与相对位置信息,网络通过行、列方向的注意力机制提高对肿 瘤的定位精度。
(3)在乳腺癌分割任务中,乳腺癌肿瘤与正常的组织边界非常模糊,现有的方法难 以对病灶进行精确边缘分割。针对这一问题,本文提出一种基于边缘注意力的医学影像 分割模型。该模型以自注意力,交叉注意力作为网络的主要结构。与传统的 Transformer 不同,本文在网络的解码器部分加入边缘注意力模块,在解码器部分加入参考点生成模 块,做到定位肿瘤的同时能精确分割出模糊的边缘。
12
1.4论文的结构安排
本文共有六个章节,结构安排如下:
第一章:引言。阐述将图像分割技术与医学影像分析结合的现实意义,强调针对乳 腺癌进行病灶分割研究的意义。随后本文简要介绍计算机辅助诊断系统的流程以及相关 方法的原理。最后对深度学习在医学影像分割中的发展历程进行概述,并指出乳腺癌分 割任务中两个关键问题。
第二章:相关理论。第一部分介绍基于卷积神经网络的医学影像分割方法,第二部 分介绍基于 Transformer 的分割方法,最后对两种方法的优缺点进行总结。
第三章:一种基于轴向注意力的 Transformer 分割算法。本章节介绍一种基于轴向 注意力的 Transformer 分割模型,通过引入轴向注意力机制和相对位置编码精确定位乳 腺癌微小病灶。
第四章:一种基于边缘注意力的 Transformer 分割算法。本章节介绍一种基于边缘 注意力的 Transformer 分割模型。通过边缘关键点选择算法,边缘注意力模块,参考点 生成算法提高模型对乳腺癌模糊边界的分割精度。
第五章:介绍实验的具体细节。首先介绍实验中使用的三个数据集以及实验的基本 设置情况,分别对第三章、第四章提出的模型进行实验测试。根据不同实验内容介绍衡 量指标,以及模型的损失函数。最后根据实验结果分别对提出的方法分析总结。
第六章:总结与展望。对整体研究工作进行回顾并对未来的研究方向进行展望。
13
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
14
 
 
第二章 相关研究工作
医学影像语义分割在计算机辅助诊断的流程中非常重要,精确定位病灶并将其准确 分割在临床诊断中能为医生提供有力的帮助。随着计算能力的不断提高,近些年深度学 习的相关研究大量涌现,众多基于深度学习的医学影像分割算法大获成功。虽然深度学 习在医学影像分析领域取得了长足的发展,但仍然面临着许多困难与挑战。第一章已简 要概述人工神经网络在图像分割任务中的发展历程,并介绍了一些代表性的医学影像分 割网络。本章第一部分将介绍基于卷积神经网络的医学影像分割模型,第二部分将介绍 Transformer 的结构以及其衍生出的医学影像分割模型。通过概述两种方法的原理,对比 两种方法的优劣,为后续章节的工作打下理论基础。
2.1卷积神经网络
连接主义(Connectionism)也称仿生学派,其研究重点是人脑的运行机制,并将这 些研究成果运用到人工智能分析中。通过生物实验,研究者发现了感受器,当感受器(例 如听觉、视觉等器官)受到外界刺激,感受器官中的神经元将感觉信息传输到上位中枢, 神经元仅在被称为感受野(Receptive Field)的受限区域中对刺激做出反应。以视觉神经 系统为例,视觉皮层中神经细胞的输出依赖于视网膜上的光感受器。当光感受器受入射 光刺激时,光信号被转换为神经冲动传到视觉皮层,但并非所有的神经元都会对这些信 号做出响应,每个神经元仅对感受野中的刺激做出反应。在视觉中感受野即视网膜上的 不同的区域,只有区域内的刺激才能够激活视觉皮层中对应的神经元。深度神经网络作 为连接主义的最新成果,受此启发,将感受野概念引入到人工神经网络设计中,其中最 具代表性的研究工作是卷积神经网络。
典型的卷积神经网络由卷积层、池化层以及全连接层交叠而成,其中全连接层通常 放置于网络顶端用于输出相关结果。从网络的基本构成可总结出卷积神经网络的三个特 点:局部连接、池化以及参数共享。卷积与池化的操作赋予卷积神经网络局部的平移、 尺度以及旋转不变性。
对卷积神经网络的前馈形式可视化,可得到如图 2-1 所示的流程图。卷积层、池化 层和全连接层是卷积神经网络的核心模块,下文将简要介绍三个模块的原理。
15
 
 
图 2-1 卷积神经网络的结构图
(1)卷积层
卷积层进行的操作即卷积运算,目的是对局部区域做特征提取,在图像或者特征图 上滑动不同大小的卷积核提取到不同的特征。一个简单的二维卷积运算如图 2-2 所示, 卷积核在输入图像上进行滑动并输出特征图(Feature Map)。由于卷积神经网络主要应 用于二维图像分析领域,为更好的提取图像特征,通常特征图和卷积核为三维的形式, 如图 2-3 所示。输入图像经过卷积操作得到特征映射,每个特征映射代表一类提取到的 图像特征。以图像处理为例,如果输入是灰度图像(每个像素只有一种采样颜色的图像), 通过卷积层会得到一个特征图,输入层的深度D=1;如果是RGB图像,分别有RGB 三个颜色通道的特征图,输入层的深度D=3。
 
 
 
输人符征映射组x 输出特征映射组y
图2-3卷积层三维结构图
(2)池化层
虽然卷积层可以显著减少网络中连接的数量,但也导致输出的维度非常高,如果直 接在卷积层后面添加一个分类器,那么分类器的输入维数会很高,此时容易出现过拟合。 为了解决这个问题,可以在卷积层之后加上一个池化层,从而降低特征维数,避免过拟 合。池化层(Pooling Layer)又称子采样层(Subsampling Layer),它的作用是对卷积层 的输出进行下采样,通过降低特征数量从而减少网络中的参数量。这样做可以使得网络 对一些小的局部形态改变保持不变性,并拥有更大的感受野,此外还能在一定程度上减 少网络过拟合风险,从而提高网络的整体性能和精度。常用的池化操作概括如下:
(1)最大值池化(Maximum Pooling或 Max Pooling):如图2-4所示,最大值池 化操作将输入的图像划分为若干个区域,选择每个子区域的最大值作为输出。即选取池 化核中值最大的点。
 
特征图 最大池化后的特征图
图2-4最大值池化示意图
17
 
(2)均值池化(Mean Pooling):如图2-5所示,均值池化是指选取池化窗口内所 有值的平均值。
 
特征图 平均池化后的特征图
图2-5均值池化示意图
(3)全连接层
全连接层(Fully Connected Layer)指的是一个神经网络,其中每个输入节点都与每 个输出节点相连,每个神经元需要通过一个权重矩阵对输入向量进行线性转换。因此, 所有可能层与层之间的连接都存在,这意味着输入向量的每个输入都会影响输出向量的 每个输出。在大多数的机器学习模型中,研究人员通常将网络最后几层设计为全连接层, 作为网络的“分类器”存在。从图 2-1 中的卷积神经网络结构可以看出,全连接层中的 每个神经元都与前一层相连接,它将前几层提取的数据进行高度整合并形成最终输出。 使用全连接层的优势在于减少特征位置对于分类结果的影响,但是也引入了更多的参数 使得模型显得不够精简,降低了模型训练速度。
2.2注意力机制与Transformer
随着数据量呈现指数形式增长,普通的神经网络面对日益增大的数据量暴露出自身 的缺陷。通常将人工神经网络中可容纳的数据量称为网络容量(Network Capacity),人 工神经网络的存储容量和神经元的数量与网络的复杂度成正比。也就是说伴随信息数量 增多,为避免网络性能下降,只能通过增加神经元数量或者堆叠网络的层数。上述两种 做法毫无疑问将导致网络参数成倍增加导致计算复杂度激增。依照仿生学派的经验,不 妨从生物的行为中寻找解决方案。事实上自然生物在处理海量的输入数据时同样面临脑
18
容量(网络容量)不足的难题,人脑亦是如此。以视觉感受器为例,人眼每秒钟将千万 比特的信息反馈给视觉神经系统。面对多种感受器数以亿计的反馈信息,在计算资源有 限的情况下,人脑无法并行处理大量的输入信息。但是经过生物多年的进化,生物大脑 中有一个重要机制可以有效解决上述问题,即注意力机制(Attention Mechanism)。通过 注意力机制,可以帮助人工神经网络克服面对海量数据时候的“选择困难症”,同时反过 来利用海量的数据让模型快速聚焦于重要的目标,提升模型在分类、分割任务上的精度。 近年来关于注意力机制的研究已取得丰硕的成果,其中具有代表性的方法便是基于自注 意力以及多头注意力机制的Transformer,下文将简要介绍注意力机制与Transformero
2.2.1注意力机制
注意力是生物的一项基本能力,指生物选择并聚焦于相关刺激的能力。通俗来说, 注意力是一个认知的过程,是生物面对相关刺激并对其做出反应的能力。人类每天通过 视觉、听觉、触觉等方式接触到大量的外界信息。面对洪水般涌入的信息人脑依然能井 井有条的工作,不会因为一时间接收到太多信息而瘫痪。这是因为人脑可以有意或者无 意给信息划分不同的重要程度,集中精力优先处理部分关键信息,不为无关紧要的刺激 而分心。人脑处理信息的过程就是注意力(Attention)的过程。注意力一般分为两种:
(1)自上而下的有意识的注意力,又称选择性注意力(Selective Attention)o选择 性注意力指在特定任务中,有意识选择性关注某类刺激的能力。
(2)自下而上的无意识的注意力,又称基于显著性的注意力(Saliency-Based Attention)o与选择性注意力相对,无意识的注意力是被动的,而不是自发的。如果一个 对象的刺激信息不同于其周围信息,添加无意识的门控(Gating)机制就可以把注意力 转向这个对象。
一个能解释两种注意力区别的典型例子是鸡尾酒会效应(cocktail party effect)o当 一个人身处喧闹的背景和朋友聊天时,尽管背景很多嘈杂的声音可能比朋友的声音更大, 这个人仍然能从众多的声源中找到朋友的声音并进行交流,并且忽略无关的声音(选择 性注意力)。但是,此时如果背景声中突然出现这个人的名字(重要信息),他也会马上 注意到(显著性注意力)。在人脑信息容量有限的情况下,将注意力分配给相对重要的信 息是生物应对信息过载的重要解决方案。实际上前文提及的最大值池化(Max P ooling)
19
以及后文将提及的门控(Gating)机制近似于一种无意识的注意力。选择性注意力同样 是一种有效的信息选择方式,以阅读理解任务为例,其实只需要找到中心句就能理解整 段话的大意。同理如果想减少神经网络的计算开销又不降低性能,只需要提取出关键的 信息让后续的神经网络来处理,而不需要将全部信息输入给神经网络。
通常将注意力机制的计算流程表示如下:1.根据输入数据计算注意力分布。2.利用 注意力分布计算输入信息的权重。假设有输入向量X= [%i,…,窃],若要从输入中选出 和任务相关的关键信息,根据生物注意力理论最直观的方法是增加一个筛选信息的向量 记为查询向量(Query Vector,q)。将查询向量与输入进行计算,通过给输入进行打分, 得出输入和任务之间的相关度,从而实现对输入信息的筛选。查询向量q既可以动态生 成,也可以作为可学习参数。给定输入向量X和查询向量q,第n个输入向量的注意 力分布(Attention Distribution) an 可表示为:
an = softmax(s(xn, q')') (2-1)
目前打分函数s(xn,q)多使用以下两种方法计算:
(1)点积模型
s(x, q) = xTq (2-2)
(2)缩放点积模型
xTq
s(x,q) = (2-3)
现实中由于计算硬件对于矩阵的乘法计算有性能优化,因此注意力模型一般采用点 积作为计算方法。但是点积操作也存在一定的应用局限性,假如输入的数据维度非常高 那么点积模型会产生较大的方差,进而导致梯度消失的问题。针对这种情况,研究人员 在实际的应用中更常使用缩放的点积模型。
目前基于注意力的模型一般用键值对(key-value pair)格式表示输入信息,其中key 和query匹配后计算得到注意力分布a”, value用来计算聚合信息。用(K,V)= [(ki,Vi,)^,(kN,vN)]表示共N组的输入数据,给定查询向量q注意力函数可表示如下:
N
att((K, V), q) = ^ anVn (2-4)
n=1
上文中只计算一次的注意力过程称为单头注意力,现实中的模型通常会使用更复杂
20
 
的注意力机制,即多头注意力(Multi-Head Attention),该方法允许模型在不同的位置上 共同关注来自不同表征子空间的信息。更具体来说,多头注意力利用多个查询向量Q = [丑,…,qM],每个注意力头并行从输入数据中选取需要关注的部分,每个注意力头的输 出即从不同层面考虑数据关联性。相比于单头注意力,多头注意力能考虑到更多层面的 信息。多头注意力的输出可表示如下:
att((K, 7), Q) = att((K, 7), Qj㊉…㊉att((K, 7), QQ (2-5)
式中㊉表示向量拼接。
2. 2. 2 Transformer 的结构
如果要使用人工神经网络处理一个长序列,以往的研究工作会选择使用卷积神经网
络或循环神经网络进行编码,如图2-6所示。
 
图2-6卷积网络和循环网络编码示意图
前文的介绍中提及基于卷积神经网络的序列编码是一种局部的编码方式,只能对输 入信息的局部依赖关系进行建模。另一方面循环神经网络虽然可以建立一定程度上长间 隔之间的依赖关系,但是由于循环神经网络经常使用Logistic函数或者Tanh函数作为 非线性激活函数,当间隔较大时循环神经网络存在梯度消失问题。因此循环神经网络实 际上也只能学习短期的依赖关系,不能学习真正的长距离依赖。以往的人工神经网络如 果要建立输入序列之间的长距离依赖关系,通常会采取两种策略:一是使用更深的网络 结构,通过堆叠卷积层和池化层来实现远距离的信息交互;二是使用全连接网络,全连 接网络能非常直观建模远距离依赖,但是如前文所述,全连接网络增加的参数量太多, 不利于实际训练与测试,面对大量的长序列时会消耗非常多的计算资源。面对不同的输 入尺度,其分配的权重理应是不一样的。为了实现对长距离依赖关系的有效建模,同时 针对不同长度的输入信息动态给出不同的权重,可以利用自注意力模型(Self-Attention
Model)的注意力机制实现上述功能。自注意力模型的计算由三部分完成,即查询-键-值
21
 
给定一个输入序列X = [x1, ^,xN],通过自注意力机制得到的输出序列为H = [hi,…,hN],其中的计算过程可表示如下:
(1)首先将输入序列中每个竝线性映射到不同的向量空间,得到查询向量qt、键 向量用和值向量Vi。由于注意力模型的打分函数多采用点积模型或者缩放点积模型进 行计算,结合矩阵乘法的规则可知qi和俭的维度需要一致。整个输入序列X的线性映 射过程可表示如下:
Q=WqX (2-6)
K = WkX (2-7)
V = WVX (2-8)
其中%,Wk,Wv分别对应查询、键、值的线性映射矩阵,Q=[qi,…,qN],K = [k1, .^,kN],V = [v1, .^,vN]分别是由查询向量、键向量和值向量构成的矩阵。
(2)对于Q中每一个qt,根据公式(2-4)可将输出向量hn表示为:
hn = att((K, V), qn) (2-9)
当输入数据维度较高的时候,需要使用缩放点积,结合公式(2-3)此时输出向量序 列可表示为:
22
ktq
H = softmax( ) V (2-10)
在神经网络的设计中,自注意力机制既可以用来替代卷积层和循环层作为单独使用 的层[64],也与卷积层或者循环层混合使用(例如自注意力模型的输入序列X可以是卷积 层或循环层的输出)。需要注意的是前文简述的自注意力模型在计算注意力分布时只考
虑查询向量和键向量的相关性,并没有增加输入信息的位置信息。但是输入信息的位置
 
图 2-8 标准 Transformer 模型结构图[64]
 
2.2.3视觉 Transformer
视觉 Transformer (Vision Transformer, ViT)是 2020 年 Google 团队[65]提出一个
基于 Transformer 的图像分类模型。虽然不是第一篇将 Transformer 应用于计算机视觉
任务上的论文,但因为其模型结构简单且效果好,并且模型性能随着数据量增加不会像
卷积神经网络一样出现瓶颈。种种因素叠加让 Transformer 挑战了卷积神经网络在计算 机视觉领域10年的统治地位,同时也引发了后续基于Transformer的研究热潮。ViT 得出最主要的结论是,给Transformer模型足够量的数据进行预训练,Transformer模型 的表现会超过卷积神经网络,并在下游任务中(例如分类、分割任务)获得更好的迁移 效果。但是数据量偏小的时候,基于 Transformer 的模型表现通常比同等参数量的卷积 神经网络要差一些。这是因为Transformer相比卷积神经网络缺少归纳偏置(inductive bias),即一种先验知识。虽然前文提及卷积操作的缺陷,但不可否认卷积操作带给模型 两种归纳偏置的能力,即局部性和平移不变形性。以上两种归纳偏置让卷积神经网络有 了一定的先验信息,输入较少的数据也可以学习一个比较好的模型。
2.3医学影像语义分割网络
前文简要介绍了人工神经网络的两个主要技术方向,一是基于卷积层的卷积神经网 络;二是基于注意力机制的Transformero二者在计算机视觉领域都属于里程碑式的研 究工作,有着广泛应用。现实中医学影像的诊断是一项冗长乏味的任务,具体到乳腺癌 这个疾病上,由于乳腺癌的病灶变化多样,手工标注分割病灶会给医生带来繁重的工作 量。而且,对于病理图像的诊断分析,含有医生的主观意见,复杂的图像可能需要多名 医生共同诊断,才能得出最终的诊断结果。近些年随着基于深度学习的智慧医疗逐渐受 到人们的重视,将深度学习应用于医学影像分割成为了研究的热点。本文重点聚焦于医 学影像分割领域,下文将简要介绍基于卷积神经网络的医学影像分割模型,和基于 Transformer 的医学影像分割模型。
2.3.1基于卷积神经网络的医学影像分割模型
深度学习在医学影像分割领域得到广泛应用,其中,2015 年提出的 U-Net 因分割 细胞效果较好、模型结构简单具有扩展性,自提出以来受到广泛关注,并一定程度上影 响了后续若干个分割网络的设计。近年来,众多学者针对 U-Net 的结构不断改进和扩 展,下面介绍几种代表性的卷积神经网络医学影像分割模型。
(1)U-Net
2015 年, Ronneberger等人[56]基于全卷积网络改进并提出了 U-Net,该模型在细胞
24
 
分割比赛中获得准确度高出第二名近10%的优异成绩。U-Net是深度学习在医学影像 分割任务中里程碑式的研究工作。该网络主要结构包括编码器、瓶颈模块和解码器,由 于其收缩路径与扩张路径对称且呈现U型结构被命名为U-Net。U-Net取得显著成功 的秘诀在于其能有效结合上下文信息,并且在数据量较小的情况下依然能取得不错的分 割结果。作为第一批将深度学习应用于医学影像分割任务的模型,U-Net满足医学影像 分割的基本需求。U-Net的结构如图2-9所示。
 
 
 
如图2-9所示,U型结构左侧是编码器,每一层有两个 的最大池化层。U型结构右侧是解码器,使用的上采样方法是2X2的反卷积,每次都 会将输入的图片的通道数减少为原来的一半。最后使用一个 1X1 的卷积,将特征图的 维度变成 2,用来对应前景和背景两种分类的概率。上采样期间每次会将下采样部分的
图片和上采样部分的特征图连接融合,保留原始输入图像中的结构信息的同时也补全了 上下文信息。U-Net与其他分割网络一个显著的区别是,U-Net在解码器的反卷积过程 中有大量的特征通道,这些通道可将上下文信息传播到分辨率更高的层。医学影像与自 然图像最显而易见的区别是尺寸不同,由于医学影像需要保留更多的细节,通常医学影 像的输入尺寸会数倍于自然图像。针对医学影像的特殊性,U-Net受全卷积网络的启发 取消全连接层,仅使用卷积操作使得U-Net可以接受较大尺寸的医学影像输入。U-Net 针对性的设计解决了医学影像分割中的痛点,也启发了后续的研究工作。
25
(2)UNet++
通过特征图的连接,U-Net结合了来自解码器子网络的深层、语义级、粗粒度特征 映射和来自编码器子网络的浅层、结构级、细粒度特征映射。虽然U-Net的方法简单有 效,但是 U-Net 融合不同层次语义信息的方法是简单级联,这种做法存在丢失部分信 息的可能。针对U-Net潜在的信息丢失问题,Zhou等人[62]对跳跃连接的方式进行重新 思考,提出带有深监督的嵌套的密集跳跃路径的UNet++,该网络以新颖的方式融合多 尺度的特征并未增加太多的网络参数,是对 U-Net 的经典改进工作。
如图2-9的U-Net结构图所示,U-Net的下采样路径和上采样路径之间的特征融 合利用通道拼接的跳跃连接实现,这种方法虽然简单但是其仅考虑了相同尺度下的特征 融合,忽略了两条路径之间的语义信息,可能造成一定程度上的语义信息丢失。UNet++ 的网络结构图如图 2-10 所示,在 UNet++ 中编码器的输出并非直接输入给解码器,而 是需要经过一系列嵌套的卷积模块和密集的跳跃连接。每个嵌套的卷积模块通过多个卷 积层提取信息,同时跨尺度的跳跃连接使得卷积模块能够融合不同程度的语义信息。虽 然 UNet++ 在结构上比 U-Net 复杂,但是 UNet++ 成功打破不同尺度语义信息之间的 交流壁垒,避免了语义信息的丢失,这对于医学影像分割算法的精度提升非常重要。
 
 
26
(3)Attention U-Net
自注意力机制被提出后,研究人员将其应用在不同的图像分析领域,以探索注意力 机制的应用潜力,医学影像分割任务作为研究热门方向,自然也不例外。Oktay等人[60] 在2018将注意力机制运用到U-Net 上,提出了基于注意力的Attention U-Net。 Attention U-Net在U-Net编解码器对应层的特征拼接操作之前加入一个注意力门模块 (Attention Gate),用于调节编码器的输出特征。该注意力门模块负责产生门控信号g, 通过将门控信号与输入相结合,实现抑制输入特征图中与任务无关的背景信息并突出与 任务相关的特定信息。注意力门模块的内部结构如图2-11所示。
 
Ft x H*x W’x Dx
 
图2-11注意力门结构图
在注意力门模块中输入特征和产生的门控信号将通过单独的卷积层,然后叠加,经 过ReLU激活函数Sigmoid函数以及一个网格重采样器。注意力门模块的注意力计算 公式如下:
qht =屮T (oi(必硏 + %TG + bg)) + 如 (2-11)
a =巾(qht(硏,9i; 9att)) (2-12)
式中孙表示输入特征,g表示门控信号,6,巾是激活函数,蛟,%T,屮都是卷积操作, 切,如 是对应卷积的偏置项。
如图2-12所示,Attention U-Net同样采用编解码器结构,实际上注意力门模块就 是给每一个跳跃连接层加上一个注意力门控,以传递门控信号。添加的注意力门模块负 责从编码器的低层次语义特征在中捕捉上下文信息。接着通过跳跃连接合并不同尺度的 特征图,通过密集预测输出分割结果。
27
 
 
图 2-12 Attention U-Net 网络结构图
2.3.2基于 Transformer 的医学影像分割模型
由于Transformer在机器翻译、情感分析等自然语言处理(Natural Language rocessing,NL )任务上表现优异,研究者开始逐步重视基于注意力机制的 Transformer 并积极探索它在其他领域中的应用潜力。不少研究人员尝试将 Transformer 引入计算机 视觉领域任务中,但是相当长一段时间内 Transformer 在计算机视觉相关任务中表现平 平。直到 Vision Transformer 横空出世,性能直逼卷积神经网络的最先进模型,人们才 开始重视 Transformer 在图像处理任务中的应用。医学影像分析作为计算机视觉领域中 热门的研究方向,自然需要与时俱进,将先进的方法引入智慧医疗中。本文聚焦于医学 影像分割任务,前文已介绍基于卷积神经网络的医学影像分割研究工作,下文将介绍基 于 Transformer 的相关医学影像分割研究工作。
(1)Swin-UNet
在各类医学图像分割任务中,基于卷积神经网络的医学影像分割模型取得了优异的 分割表现,U-Net的U型结构以及跳跃连接操作已经成为后续大量研究工作的模板。 然而,由于卷积运算的局部性,基于卷积操作的 U-Net 类模型在建模远程依赖方面以 及学习全局的语义信息方面存在一定局限性。近年来为序列到序列预测而设计的 Transformer利用注意力机制展现了其学习全局语义信息的潜力。TransUNet是第一个 将 Transformer 与 U-Net 相结合的医学影像分割模型,但是其仅将 Transformer 模块 作为一个分支加在 U-Net 编码器上,并未完全探究 Transformer 结构在医学影像分割
28
 
 
图 2-14 Swin Transformer 模块结构图
图2-14 Swin Transformer模块的计算过程可表示如下:
29
 
zl = W-MSA(LN(z1-1)) + z1-1 (2-13)
zl+1 = SW-MSA(LN(z1)) + zl (2-14)
2)TransFuse
传统卷积神经网络很难建模长距离的依赖关系,一味加深网络的深度会带来巨大的 计算开销。在基于 Transformer 模型百花齐放的当下,有研究者选择基于纯 Transformer 设计医学影像分割模型,也有研究者致力于设计融合卷积神经网络和 Transformer 的混 合模型,试图取两者之长,设计出既能有效建模长距离依赖又具有归纳性的模型。在上 述研究思路的指导下,Zhang等人[66]提出了一种并行分支的TransFuse网络,结合了 Transformer 和卷积神经网络两种架构,能同时捕获全局依赖关系和低层次的空间细节。 如图2-15所示,TransFuse包含两个分支,左侧是Transformer编码分支,右侧是卷积 神经网络编码分支,模型通过 BiFusion 层整合来自两个分支的特征,之后在上采样过 程中经过带有注意力门的跳跃连接输出分割结果。在 TransFuse 中 Transformer 分支是 一个编码器,卷积神经网络分支使用 ResNet 的第四层,第三层和第二层的输出作为这 一分支的输出。由于 Transformer 分支足以捕获全局的语义信息,故卷积神经网络分支 并不需要深层的网络结构。TransFuse将两个分支的1/4, 1/8, 1/16尺度下的各级特征
输入 BiFusion 模块。
 
图 2-15 TransFuse 模型结构图
30
如图2-16所示,BiFusion模块由通道注意力和空间注意力构成。由于卷积层对捕 捉全局依赖关系能力较弱,故卷积神经网络分支的输出容易包含不相关区域;而 Transformer 缺少卷积操作带来的局部信息,故 Transformer 分支输出的特征容易缺乏 局部细节。针对上述情况,BiFusion模块对Transformer分支做通道注意力,对卷积神 经网络分支做空间注意力。之后经过拼接,残差连接操作实现两个分支的特征融合。
 
 
(3)Cara-Net
大多数医学影像分割模型改进的重点是提升整体的分割精度,对小型病灶的分割研 究相对较少。但实际上,检测微小病灶对疾病的及时发现有重要意义。针对小目标分割 困难的现状,Luo等人[67]提出Cara-Net,并在脑肿瘤分割以及息肉分割任务上取得优秀 的成绩。如图2-17所示,Cara-Net主要由三个模块组成,分别是部分解码器(Partial decoder,PD),通道特征金字塔模块(Channel-wise feature pyramid,CFP),轴向反向注 意 (Axial reverse attention, A-RA)。
现有的医学影像分割网络,通常会聚合编码器多尺度的特征再进行分割。融合了多 尺度的信息会提升模型的分割精度,但是低层次的特征对于分割精度的提升作用很小, 然而这些低层次的特征却导致了计算开销的增长,为了更合理的利用计算资源,带有平 行连接的部分解码器 D 被加入模型中,用于聚合高层次的特征。为了提取多尺度特征, Cara-Net 采用了轻量化的通道特征金字塔,相较于传统的特征金字塔,通道特征金字塔 加入了空洞卷积,扩大了卷积层的感受野,与传统的方法相比,引入的通道特征金字塔 能提高对细小病灶的分割精度。部分解码器生成的全局特征图,能帮助模型粗略的定位
31
病灶,但是医学影像分割追求精细,因此还需要对通道特征金字塔提取的多尺度特征图
进行精细挖掘。轴向反向注意力模块是一个能提升模型对于细微病灶分割精度的模块。
从名字可以看出,该模块包括轴向注意力以及反向注意力,其中轴向注意力将二维注意
力分解为沿着高度与宽度的一维注意力。反向注意力模块则负责逐步擦除前景,对病灶 的边缘进行精细挖掘。
 
图2-17 Cara-Net模型结构图
 
2.4本章小结
本章以医学影像分割算法的研究现状为入手点,介绍了两个主流的研究方向:1.基 于卷积神经网络的医学影像分割算法。2.基于 Transformer 的医学影像分割算法。本章 首先介绍了卷积神经网络的基本结构,以及卷积层、池化层和全连接层的作用。然后介 绍了 U-Net 网络及基于 U-Net 改进的医学图像分割方法。随后介绍了 Transformer 的 核心思想,注意力机制以及相关的自注意力机制,多头注意力机制。最后本章介绍了近 期几种基于 Transformer 的医学影像分割模型。
借助本章内容,梳理清楚了当前医学影像分割算法的研究现状,介绍两种研究思路, 为后续研究工作打下坚实的理论基础。本章小结简要概述 Transformer 结构相对卷积神 经网络的优劣势如下:
优点:Transformer关注全局信息,能建模更加长距离的依赖关系,而卷积神经网络 更多关注局部信息,对全局信息的捕捉能力弱° Transformer避免了卷积神经网络中存在 的归纳偏好问题。
32
缺点:Transformer的复杂度比卷积神经网络高,计算开销比卷积神经网络大,同时 对归纳偏置建模能力偏弱,对数据量依赖程度高导致训练收敛速度偏慢。
鉴于 Transformer 在医学影像分割领域展现的应用潜力,本研究在后续章节针对乳 腺癌分割任务中的两个关键问题,基于 Transformer 提出两个解决方案,充分探索了 Transformer 在乳腺癌分割任务中的应用潜力。
33
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
34
 
 
第三章基于轴向注意力的Transformer分割算法
前文已阐述将深度学习与医学影像分析结合的现实意义与应用前景。正如第二章所 述,目前有诸如U-Net这样优秀的分割网络。然而,U-Net及其他基于卷积神经网络 的分割模型未能完全满足医学影像分析对分割精度的严格要求。在乳腺癌分割任务中, 病灶通常在整张乳腺癌影像中占比非常小,分割模型提取的大多数特征属于无用的背景 信息。此外,考虑到乳腺癌分割任务中不同组织之间遮挡对分割模型的干扰,如何准确 的定位病灶依然是一项具有挑战性的研究工作。
在第二章关于卷积原理的介绍中,可以发现卷积核的大小是固定的。由于卷积运算 固有的局限性,每个卷积核只关注整个图像中局部像素子集,迫使网络更多关注局部信 息而非全局上下文信息,由此造成卷积神经网络对全局信息学习能力的缺失。虽然后续 的科研工作陆续提出一些方法[68, 69]弥补卷积神经网络的缺陷,但是这些方法终究治标不 治本,未能从根本上解决卷积神经网络面临的问题。第二章的总结中已列举出 Transformer相较于卷积神经网络的优点,Transformer以能够有效建模输入和输出之间 的全局依赖关系著称。然而,大多数先前的图像分割方法没有针对乳腺癌分割任务进行 优化,在病灶分割精度上有较大提升空间,因此本文着重研究 Transformer 在乳腺癌影 像分割中的应用。本章首先针对乳腺癌影像中微小病灶定位困难的问题做出改进,主要 研究内容如:
(1)针对医学影像尺寸较大的特点,简化 Transformer 的编码器结构,对注意力层 进行优化,以轴向注意力机制替代传统的自注意力机制。降低 Transformer 的计算复杂 度,提高模型在乳腺癌影像上的计算效率。
(2)针对医学影像数据集偏小,Transformer在小型数据集上由于缺乏归纳偏置导 致分割表现不佳的现状,本章在轴向注意力机制计算过程中增加相对位置信息。
(3)为了进一步增强相对位置编码中的关键信息,并抑制不准确的位置信息带来 的干扰,本章提出增加门控单元的轴向注意力机制。
(4)利用增加门单元,相对位置编码的轴向注意力模块替换传统的自注意力模块, 构建基于轴向注意力的 Transformer 分割模型。
35
3.1轴向注意力机制
远距离像素之间存在一定的关联性,建模这种远距离依赖可以获得包含更多语义信 息的特征图,进而帮助模型提升语义的理解能力。传统卷积操作的感受野受限于卷积核 大小和卷积步长大小,如果要计算图像左上角的一个像素点和右下角的一个像素点之间 的联系,目前主流的做法[68]是通过堆叠卷积层数加深网络来实现整张图像任意位置的信 息交互。第二章介绍视觉 Transformer 的 Self-Attention 机制能够并行且同时计算目标 像素点与任意一个像素点之间的关联,毫无疑问 Transformer 能更有效融合全局信息。 临床诊断中医生也需要从全局角度分析整张影像才能做出判断,显然 Transformer 更接 近医生实际诊断的过程,因此基于 Transformer 的分割网络在医学影像分割任务中应用 潜力非常大。但是基于传统注意力机制的 Transformer 分割模型并非没有缺点,传统的 注意力模块最突出的一个缺点是计算开销大,尤其当输入特征图尺寸很大时,基于 Transformer 的分割网络比参数量相近的卷积神经网络有更大的计算开销,因此传统基 于 Transformer 的分割网络训练的时间也会更长。假设一个 Transformer 分割模型的输 入特征图为X,高度为h宽度为w,通道数为d,若要计算全局的依赖关系,传统注意 力机制的计算复杂度为0(h2w2)。由此可见传统Transformer巨大计算开销限制了其在 尺寸较大的图像(例如医学影像)分析任务上的应用潜力。针对上述情况,Huang等人 [70]提出Axial-Attention,该方法将二维的自注意力机制分解为两个一维的自注意力机制, 这样做既能融合全局注意力信息,建模长距离的空间依赖,又能有效降低注意力机制计 算量,使得基于 Transformer 的分割模型处理大尺度的医学影像成为可能。
轴向注意力做法的原理是重复使用十字交叉注意力模块。如图 3-1 所示,如果要计 算图中一个像素(9x,0y)与任意一个像素(ux,uy)之间的关联性,可以通过两次十字交 叉注意力获得。具体来说,第一次十字交叉注意力中蓝色像素(0’,0y)与周围呈现十字 关系的浅绿色像素进行信息交互,例如沿着纵轴的点(0x,uy)和沿着横轴的点(ux,0y)o 第二次十字交叉可在第一次计算的基础上,透过浅绿色特征的十字交叉关系建立与深绿 色目标像素(ux,uy)之间的关系。上述例子中浅绿色像素(ux,0y)和(0x,uy)在第一次 的信息交互中已经包含与蓝色像素(0乂,0j之间的依赖关系,故二维图像中任意两点建 立信息交互只需要两次十字交叉注意力。相较于传统的注意力机制,轴向注意力机制可
36
 
大大减少网络的计算量至O(hw)[70],同时仍能有效实现全局上下文信息的交互。
(U”®y) (8”8y)
f(A,ux,sv,gK,gy)
 
 
 
图3-1十字交叉注意力模块图
3. 2网络结构及算法原理
传统卷积神经网络缺乏对图像中远程依赖关系的建模能力,而Transformer能有效 建模全局依赖关系。本章着重探索Transformer在医学影像分割领域的应用,并针对乳 腺癌影像分割任务中的微小病灶定位问题提出解决方案。本小节主要介绍基于轴向注意 力的Transformer分割模型整体结构以及重要的轴向注意力模块。
乳腺癌影像分割中一个关键的问题是对病灶的准确定位,因为乳腺癌的病灶通常占 比很小,如图 3-2 所示,黄色标注为病灶。为解决上述问题,本章提出基于轴向注意力 的 Transformer 分割模型(Axial Transformer)o Axial Transformer 网络结构如图 3-3 所 示。网络采用类似 U-Net 的编码器-解码器结构,左侧蓝色虚线框部分为模型的编码器 模块,右侧橙色虚线框部分为模型的解码器模块。
 
假设输入一张乳腺癌的磁共振影像(MRI),通过编解码器后会得到病灶对应的分割 掩膜(Mask)o由于医学影像输入的尺寸较自然图像更大,若直接将这些图像输入 Transformer 结构中,会让模型训练速度非常慢,而且低层次的图像特征对于定位微小病 灶并没有太多帮助,反而令计算开销增加。因此当前主流的做法是先将输入图像经过一 系列的卷积层,经过下采样得到较小的特征图再输入 Transformer 进行特征提取。本章 节提出的方法中亦是如此,乳腺 MRI 输入 Axial Transformer 会先经过一系列卷积层, 随后在编码器中通过添加相对位置编码的轴向注意力模块,紧接着通过解码器的上采样 操作,最后经过1X1的卷积层输出分割的病灶结果。
 
Encoder
图 3-3 基于轴向注意力的 Transformer 分割模型结构图
3.2.1相对位置信息与轴向注意力
图 3-3 模型编码器的 Height-Axis Attention 和 Width-Axis Attention 降低了 Transformer 在大尺度医学影像分割任务中的计算开销,降低了 Transformer 模型在医 学影像分割领域的应用门槛。虽然上述做法解决了计算量大的问题,但是 Transformer 对数据量的依赖限制同样限制了其在医学影像分割任务上的表现。 Google 团队[65]在 Vision Transformer 研究工作中已经指出基于 Transformer 的模型性能的高低与数据量 的大小呈正相关,即 Transformer 类模型在数据量较小的情况下表现会受到限制。与自 然图像成千上万的数据量截然不同,高质量的医学影像数据集非常稀缺,同时由于隐私 保护,一个医学影像数据集的数据量通常较小。综上所述,医学影像数据量偏小现状从 另一方面限制了 Transformer 的发挥。针对医学影像数据集数据量偏小的特点,本文的 解决方法是在轴向注意力机制中增加相对位置信息。相对位置信息在轴向注意力计算过 程中能起到补充位置信息的作用,分别从 query 的角度出发补充信息,从 key 的角度
 
 
出发补充信息,与分割任务相关的信息汇聚越多,得到有用信息越多,分割结果越精准。
 
图 3-4 加入相对位置编码的注意力机制示意图
本文在第二章中已经介绍过注意力机制的计算流程,图 3-4 展示了两种注意力机 制,左侧为传统的注意力机制,即图 2-7 的简化版,右侧是本章提出的增加相对位置编 码的注意力机制。图3-5是Google团队[65]在2020年提出的Vision Transformer,作为 将Transformer引入图像分析领域的开山鼻祖,Vision Transformer对后续的很多工作产 生深远的影响。但是由于 Transformer 最初应用于自然语言处理任务中,其中一些做法 在图形分割领域未必能取得良好的效果。一个关键的问题就是本小节要讨论的位置信息 引入方式。
 
ViT 以及诸多基于 Transformer 的自然图像分析模型很大程度上沿用了自然语言 处理任务中的 Transformer 结构,如图 3-5 所示,图像经过线性映射后需要添加位置编
39 码才能输入 Transformer 的编码器,在编码器的注意力机制中,不再引入新的位置信息。 上述方法通常采用正弦-余弦位置编码,该编码方法可表示如下:
PS = sin((lOO00)层) (3-1)
PE(T+i) = cos((i000o产) (3-2)
其中 pos 在自然语言处理任务中表示单词的位置,在图形分析任务中则表示像素 的位置。通过正弦-余弦编码能快速为句子中的各个单词或者图像中的各个像素分配固 定且唯一的地址信息。但是正余弦位置编码实际是一种绝对的位置信息,是不可学习的。 回到医学影像分割任务中,通过正余弦编码得到的绝对位置信息只是为每个像素分配了 一个“身份证”,从形式上满足了使用 Transformer 的条件,但是实际上对于医学影像分 割任务并未起到提升分割精度的作用,因为医学影像分割需要突出包含病灶的关键像素 块。如果能加入相对位置信息,使得模型对位置敏感,理论上可以提高模型对于微小病 灶的敏感性。另外,Transformer类分割网络在数据量较小的医学影像数据集上的表现可 能不如相同参数量的卷积神经网络,很多研究人员将上述现象的原因归结于注意力机制 缺少卷积操作的归纳偏置。实际上,图像分割任务的本质就是对一定排列的一组像素进 行处理,卷积操作的本质就是学习相对位置偏置(bias)。卷积核虽然限制了卷积神经网 络对于全局信息的学习能力,但是当数据量较小时,卷积神经网络能更快的学习到关键 的位置偏置。从原理上分析,在注意力机制中引入相对位置信息补齐了 Transformer 类 网络在归纳偏置的短板,另一方面也针对乳腺癌分割任务进行了优化,通过可学习的相 对位置信息突出可能包含病灶的关键像素块,一定程度上提升了模型对于乳腺癌微小病 灶的定位准确度。
以图3-4为例,假设输入的特征图为X,特征图的高度为H,宽度为W,通道数为 Co传统的自注意力机制可表示如下:
H W
softmax(qTjkhw)vhw (3-3)
h=1 w=1
其中查询q = %x,键k = %x,值v=%x均为输入特征图x的线性映射,知表示查 询在任意的位置飞{1,…,H}, je{1,…,W}o加入相对位置编码的自注意力机制可表示
40
如下:
H W
yti = so/tmax(qjfcftw + + ^爲弘)伽 w + 心) (3-4)
h=1 w=1
公式(3-4)相较于传统的注意力机制增加了三个可学习的相对位置编码Rq,Rk, Ry,实验中相对位置编码为随机初始化的一组参数,即可学习的位置信息。虽然在一定 程度上增加了计算量但是相对位置信息补足了 Transformer 在数据量较小情况下对归 纳偏置建模能力较弱的缺陷,可以说通过增加相对位置编码进一步减少 Transformer 在 乳腺癌分割任务上的阻碍。
本小节讨论了相对位置信息的作用与将其加入 Transformer 的意义,相对位置编码 看似与前文轴向注意力机制联系不大,但实际上两者联系非常紧密。轴向注意力机制解 决了将 Transformer 应用于大尺寸医学影像中计算量大的问题,但是并未解决 Transformer 在小型数据集上的欠缺归纳偏置的问题。由前文可知,将 Transformer 应用 于医学影像中的关键是简化注意力机制的计算。另一方面,为了提升在数据量较小的医 学影像数据集上的分割表现,在轴向注意力机制中加入相对位置信息是一个理想的选择。 公式(3-4)是加入了相对位置编码的二维注意力,假设对其进行分解,可得到沿高度轴 的注意力和沿宽度轴的注意力,即将一个二维的注意力分解为两个一维的轴向注意力。
沿高度的一维轴向注意力可表示如下:
H
珂=》so/Ymax(砧如 + q^Q + 斶%)(%■ + 心) (3-5)
h=1
沿宽度的一维轴向注意力可表示如下:
W
珂=》so/Ymax(砧尬 + 砧Rq + 氐%)(% + 心) (3-6)
W=1
3.2.2门控轴向注意力模块
轴向注意力机制将原始的自注意力机制分解为两个单独模块,第一个模块在高度轴 上单独计算self-attention,第二个模块在宽度轴上单独计算self-attention,这样做减少 了计算的复杂度,降低了 Transformer 在大尺度的医学影像分割任务中的应用门槛。在 上一节中,为了使得 Transformer 能在数据量较小的医学影像数据集上取得良好的表现,
41
 
本文在计算自注意力时添加了位置偏置(positional bias),该偏置项常被称为相对位置编 码,是可以在训练过程中进行学习的,结合相对位置信息的轴向注意力如公式(3-5), (3-6)所示。
通过加入相对位置信息,轴注意力机制更容易学习到查询、键和值的位置偏差。图 3-3 分割模型结构中的编码器部分的沿高度、宽度的轴向注意力层可设计如下:
 
图 3-6 门控轴向注意力模块结构图
如图3-6所示,输入进入轴向注意力层后会通过1X1的卷积和批标准化,之后通 过门控的多头轴向注意力模块。从上图可以看出轴向注意力的关键组成即绿色虚线框内 的两个门控轴向注意力模块。对比前小节的内容,本文在带有相对位置编码的轴向注意 力模块基础上更进一步,增加了四个可学习的门参数。
受 Attention U-Net[60] 启发本文在轴向注意力的基础上添加了门控机制,进一步放 大关键信息并抑制干扰项。这种改进的动机是在乳腺癌影像这类小型数据集上,位置偏 置很难学习,因此 Transformer 中远距离的信息交互并不总是准确的。尽管本文在之前 的小节通过引入相对位置编码在一定程度上缓解了该问题,但是却忽视了不准确的位置 编码可能降低模型分割精确度。在乳腺癌影像数据集普遍偏小的情况下,相对位置编码 的学习过程有很大的随机性,假如盲目将不准确的相对位置编码添加到相应的查询、键 和值张量中可能适得其反,最终给网络的分割准确度带来负面影响。因此,本文在公式 (3-5),(3-6)的基础上添加门单元形成了一种改进的轴向注意机制,如图 3-5 所示。 门单元可以控制位置偏置对非局部语境编码的影响,在一定程度上规范相对位置编码的 学习过程。修改后的轴向注意力机制计算过程可表示如下:
H
yij =》softmax(qTjkhj + Gq谄Rq + GKkTjRK)(Vhj + GVRV) (3-7)
h=1
42
w
珂=》so/tmax(qjfciw + Gq^Rq + GKfcTv«K)(viw + 丽心) (3-8)
W=1
公式(3-7),(3-8)中三个门单元和相对位置编码一样都是可学习的参数,当乳腺 癌影像数据集的数据量不足以使网络学习到准确的位置偏置时,门控单元的会赋予相对 位置编码较小的权重以抑制不准确的相对位置信息,避免对模型分割精度的干扰。反之 门单元赋予相对位置编码大一点的权重,辅助模型在轴向注意力计算中突出重要位置的 像素,实现乳腺癌分割任务中细微病灶的准确定位。
Y
 
 
X
图 3-7 门控轴向注意力机制示意图
3.3本章小结
本章针对乳腺癌分割任务中微小病灶定位困难的问题,探索基于 Transformer 的编 码器架构实现精确定位乳腺癌病灶。本章详细介绍了关于对位置敏感的轴向注意力的原 理细节以及对细微病灶定位的贡献。
本章主要工作可总结如下:针对乳腺癌影像中病灶位置难以定位的问题,提出一个 基于轴向注意力的 Transformer 分割模型,通过将传统的注意力分解为沿横轴与沿纵轴 的两个一维轴向注意力,提高针对微小病灶的定位精度,同时减少了注意力机制应用在 医学影像分割领域的计算开销。此外针对乳腺癌影像数据集数据量小的特点提出一种适 用于较小数据集的门控位置敏感轴向注意机制,通过引入可学习的门控轴向注意力模块 调控模型的关注重点,让模型更多关注需要分割的病灶。
43
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
44
 
 
第四章 基于边缘注意力的Transformer分割算法
第三章探索基于 Transformer 的分割模型在乳腺癌影像分割任务中的应用,通过将 传统注意力替换成轴向注意力,同时在轴向注意力计算过程中增加相对位置编码和门单 元解决了 Transformer 在乳腺癌数据集上对微小病灶定位困难的问题。但是经过与医生 的探讨,得知完成乳腺癌微小病灶的定位尚未满足医生对智慧医疗辅助诊断的期望,分 割模型若要在临床诊断中起到作用,还需要面对乳腺癌病灶的模糊边缘给精确分割带来 的挑战。如图4-1所示,图(a)为乳腺癌磁共振影像,图(b)为乳腺癌超声影像,两 种影像中红色区域内均为乳腺癌病灶,可以发现病灶的形态扭曲,且与周围正常组织之 间的边界非常模糊。正是这种不规则且模糊的边缘给乳腺癌分割模型带来了艰巨的挑战。
本文在第一章总结了乳腺癌分割任务中的两个关键问题,第三章已解决微小病灶的 定位问题,本章针对乳腺癌分割任务中的模糊边界问题提出对应的解决方案。具体来说, 本章提出基于边缘注意力的 Transformer 分割模型。本章的主要贡献总结如下:
(1)提出一种边缘关键点的生成方法,根据影像真值标签生成边缘关键点的真值 (Ground-Truth, GT)图像,用于增加边缘信息辅助模型训练。
(2)提出一种边缘注意力模块,在模型训练中预测出关键点的点图,通过构建与预 生成关键点真值的损失函数,可以使预测结果逐渐接近真值,增加模型对于病灶边缘分 割的精度。
(3)对 Transformer 解码器部分重新设计,对交叉注意力层进行优化,通过引入参 考点提高模型定位病灶的速度,加快模型的收敛速度。结合边缘注意力模块做到定位准 确的同时保证一定的边缘分割精度。
 
 
(a) (b)
图 4-1 乳腺癌病灶成像图
45
4.1边缘关键点选择算法
对病灶的模糊边界进行准确识别,并且完整分割病灶是乳腺癌分割中最具挑战性的 任务。现有的方法缺乏对于乳腺癌病灶边缘信息的讨论,故本文考虑对乳腺癌病灶的边 界信息进行学习,通过将病灶的边缘信息加入模型的训练中,提升模型对病灶模糊边缘 的分割精度。为了实现上述目标,本文提出一种边缘关键点选择算法,在训练前根据病 灶掩膜生成病灶边缘关键点的真值图(Ground Truth)用于监督网络的边缘学习,辅助模 型找到最能代表目标区域结构边界的边缘关键点。
边缘关键点选择算法的第一步是从病灶的 Ground Truth 图中获得病灶的边缘,本 文使用的方法是Canny边缘检测法⑷】。假设输入病灶的分割掩膜为SGT,首先通过 Canny 边缘检测方法可以得到 Ground Truth 的轮廓的点集,将边缘轮廓点集表示为 仏={(衍,力),…,(為,%)}。需要注意的是并非所有的边缘点都能提供关键的边缘信息, 实际上以合适的标准选择出代表目标区域边缘结构的关键点足以提供有效的边缘信息。 这些信息让模型学习如何定位病灶模糊边界上的关键点,进而实现分割病灶模糊边界的 目标。边缘轮廓点集仏即候选边缘点集,需要使用合适的标准从中选择出最能代表病灶 结构的边缘点,上述的选择过程即本节提出的边缘关键点选择算法。通常边缘变化较大 的区域比平滑区域包含更多的边缘结构信息,因此从剧烈变化的边上选择相关点作为目 标区域的边缘关键点。以五角星的关键点选择为例,可以简单明了的解释上述观点:五 角星的线条很多,对其进行边缘检测,得到的候选点集会非常大,但是显然不需要这么 多的点描述五角星的边缘轮廓特征。实际上只需选择五角星边缘变化最剧烈的点作为代 表,最多共计 10 点,以线连接这些关键点即可准确的表示五角星的轮廓。虽然现实中 的乳腺癌肿瘤的边缘不会像五角星的边一样平滑,但是依然可以选择采取上述策略,选 择乳腺癌病灶边缘偏差较大的区域提取边缘关键点,而无需关注边缘平滑部分的点集。
边缘关键点选择算法的第二步是从乳腺癌病灶边缘变化剧烈的轮廓中选择关键点, 作为潜在关键点的点集S”。本文使用一个较为简单的实现方法:选取仏中的每个点, 以该点为圆心,半径为r画圆,计算出固定大小圆内病灶的占比并记为卩。根据计算所 得的病灶占比大小p可对边缘变化程度打分,根据打分结果完成对点集仏的筛选。由于 占比p偏大和偏小均表示此处的边缘变化比较剧烈,故每个点的得分Score可表示为:
Score = |p — 0.5| (4-1)
46
显然在公式(4-1)中,当比例p恰好为0.5时,此时的点应当位于理想的直线上, 因此并非需要特别关注的边缘点,不包含关键的边缘结构信息,故得分为 0 需要过滤。 相对的,当边缘点位于边缘起伏较大的区域中,p值往往会偏大或者偏小,此时的得分 会相对较高,上述打分公式简洁筛选出关键点的候选点集S”。
边缘关键点选择算法的第三步即对关键点的候选点集Sn进一步筛选,突出最主要 的关键点以减少模型计算量。随机选择点集Sn的n个候选点形成一个区域,将该区域 与分割掩膜Sgt计算交并比(Intersection over Union, IoU),通过t轮迭代后,即可得到 最接近真值图的区域,构成该区域的点即最能代表病灶边缘的关键点,此时完成边缘关 键点的选择。
本文提出的边缘关键点选择算法的伪代码可表示如下:
算法4-1边缘关键点选择算法
输入:总迭代次数T,随机选择点集%,点的数目n,乳腺癌病灶掩膜Sgt
输岀:边缘关键点集
初始化loUbest = 0
1.Pn = Canny(SGT)
2.Sn = Score%)
3.for t = 1,2, ...,T do
4.随机从Sn中选取N个候选点
5.sn 7x1,y1), (x2,y2),.,(xn,yn)}
6.IoUt IoU(SlSGT)
7.if IoUt > IoUbest then
8.J IoUt
9.£7
10.end
11.end
12.返回g
 
4.2网络结构及算法原理
4.2.1网络结构
本文在传统 Transformer 的基础上做出改进,在编码器部分加入边缘注意力模块 (Boundary Aware Block, BAB),在解码器部分增加参考点(Reference Points)生成模 块。整合上述两个模块的模型即为本章提出的基于边缘注意力的 Transformer 分割模型 (Faster Boundary-aware Transformer,FBAT)。
模型结构如图 4-2 所示,正如前文所述,本文提出该模型主要目的是解决乳腺癌影 像中的模糊边界问题。假设输入一张乳腺癌超声影像/€欣HXWX3,其高度为H宽度为 0,通过基于卷积神经网络的特征提取网络后可得到用于输入Transformer的特征图 “G欣16x%xc,高度与宽度除以16即将图像分为16X16的像素块,随后将特征图与位
置编码相加形成符合Transformer输入的形式E e KLxC,L =豊。模型编码器与解码器
256
为典型的 Transformer 结构,将得到的特征图叠加位置信息输入编码器中,将编码器的 输出输入到解码器中。最后通过前馈神经网络(Feedforward Neural Network,FNN)输
出最终的病灶预测分割图。
 
图4-2基于边缘注意力的Transformer分割模型结构图
4.2 .2 编码器与边缘注意力模块 Embedding
从图4-2模型整体结构中可以看出,本文提出的基于边缘注意力机制的分割模型
主要组成部分为编码器与解码器,超声影像输入特征提取网络Backbone后得到特征图,
将特征图输入编码器。编码器由多个编码层(Encoder Layer)堆叠以有效捕捉乳腺癌超
48
声影像中的长距离语义信息,每个编码层的结构如下所示:
 
 
 
图 4-3 编码层结构图
图 4-3 展示堆叠的编码器中每一层的结构,每个编码层和传统的 Transformer 编 码层类似,包含多头注意力模块(MSA)和多层感知机(MLP)收集全局依赖关系以粗 略定位乳腺癌病灶边界,同时增加 Layer Normalization 和残差连接以稳定训练过程。与 传统结构不同,本文针对乳腺癌影像中病灶的模糊边缘,增加边缘注意力模块(BAB), 边缘注意力模块放置于编码层的末端用以精炼转换后的特征。边缘注意力模块的结构如 下图所示:
 
 
 
图 4-4 边缘注意力模块结构图
边缘注意力模块主要由卷积模块组成,根据输入的特征输出二进制的预测边缘关键点图:
j^pred = 3(d1(Z)')
式中5表示激活函数,d1(Z)表示对特征进行扩张率为1卷积核大小为1X1的卷积操 作。综上所述,假设第i个编码器层的输入特征为Z°t (Z0=E),可将特征经过编码器 的过程表示如下:
V1 = MSA(Zi)㊉ MLP(MSA(Zi-1)) (4-3)
式中0表示编码层的中间特征,MSA即多头注意力机制,㊉表示对应元素的加法。之
49 后中间特征进入BAB,结合公式(4-2)可得到预测的边缘关键点图Mpred。图4-4边 缘注意力模块输出增强的特征表示如下:
Z° = 0 ㊉(0 0 炉) (4-4)
在算法 4-1 关键点选择算法生成的边缘关键点图监督下,通过构建 BAB 预测所 得的Mpred与边缘关键点真值之间的损失函数,可以使模型在训练中获得捕捉乳腺癌病 灶模糊边界上关键点的能力。
4.2.3解码器与参考点生成算法
根据编解码器结构的原理,从编码器中得到精炼的特征需要通过解码器后才能输出 最终的分割结果。本文在传统 Transformer 的解码器基础上做出改进,提出一种新的 query 建模方式,将 ob ect query 以二维参考点的形式建模并输入到解码器的 crossattention 中,在随后的解码层中不断更新参考点的位置,通过迭代使参考点接近病灶, 提升定位乳腺癌病灶的精度。这样的改进一方面增加了传统 Transformer 模型解码器部 分 ob ect query 在乳腺癌分割任务中的可解释性;另一方面,与第三章的思路类似,参 考点的引入相当于增加了位置先验信息,此举可增加模型训练的收敛速度,同时利用不 断更新的参考点坐标信息调制注意力图。通过对传统 Transformer 的解码器部分的改进, 本文提高分割模型针对乳腺癌病灶的定位速度,增加了模型结构图中 ob ect query 的可 解释性。
传统Transformer的解码器中解码层(Decoder Layer)结构图如图4-5所示,来自 编码器的输出作为解码器的输入,进入解码层中进行处理。解码器中的 value 只有一个 组成部分,即图像特征(语义信息),而 query 和 key 均包含两部分。对 query 和 key 进行深入分析可发现两部分组成可归纳为语义信息与位置信息,key的语义信息部分来 源与 value 相同,位置信息则来源于位置编码。而 query 的语义部分来源于上一个解码 层的输出,位置信息来自于初始化为0的obj ect queryo同时key和query的两部分 均采用相加的方式进行连接。
50
 
 
Cross-Attention
Image
 
Features
ositional 1
1
1
Embeddings \
 
 
 
 
图 4-5 传统 Transformer 的解码层结构图
如前文所述,本文针对图 4-5 中 Ob ect Queries 进行改进,增加参考点的解码层架 构图可表示如下:
 
本文提出的解码层相较于原始的解码层,主要改进在于增加了参考点的生成。此外,将 传统解码层中 query 和 key 语义信息部分和位置信息部分的连接方式由加法改为拼接。 针对 query 和 key 连接方式的改动旨在简化解码层中交叉注意力机制的计算复杂度, 并加速模型收敛速度。
根据 Transformer 的注意力机制通用计算公式(2-10)可知,注意力机制的本质就
是将query和key的内积作为注意力权重赋予value。在图4-5的传统交叉注意力机
51 制计算流程中,将query的语义信息部分记为卬将包含位置信息的部分记为%,同理 将key的语义信息部分记为5将位置信息记为耳。显然交叉注意力机制的计算开销主 要来源于 query 和 key 的内积,因为此时的内积计算可表示如下:
T
(卬 + 內)(4 + Pfc) (4-5)
将上式展开可得:
昭5 +昭厲++诩Pk (4-6)
由公式(4-6)可发现传统交叉注意力机制的 query-key 内积计算结果包含四项,并且 cTs和pTs对于模型定位乳腺癌病灶并无太大帮助,却增加了计算量。本文改进的解 码层中 query 和 key 的两个组成部分连接方式均为拼接,故此时 query 和 key 进行内 积的结果可表示如下:
+pTpk (4-7)
式中新的交叉注意力机制中只包含两项,第一项为语义信息的相似度计算,第二部分为 位置编码的相似度计算,显然本文改进的交叉注意力机制计算量更小,有利于模型快速 收敛。
本文为了提高乳腺癌病灶定位速度,提出的参考点生成方法如图 4-7 所示。该方法 目标是将 ob ect query 转化为参考点的二维坐标形式,首先需要将 ob ect query 通过 MLP,将未归一化的参考点二维坐标记为S。随后将S进行归一化处理,并映射到与耳 相同的正弦位置编码空间,即采用编码器相同的位置编码方式,得到一个 256 维的位 置编码代:
代=sinusoidal(sigmoid(S)) (4-8)
参考点的更新依赖于decoder embedding,由于decoder embedding中同时包含语义信息 和位置信息,可将 decoder embedding 中包含的位置信息通过一个前馈神经网络生成参 考点的位置偏移量T,交叉注意力中query的位置信息最终表示为:
阳=Tg 代 (4-9)
式中g表示相乘。基于decoder embedding不断更新位置信息,可提高分割网络定位乳 腺癌肿瘤的速度。
52
 
 
图 4-7 参考点生成流程图
4.3本章小结
本章旨在解决乳腺癌分割任务中的第二个关键问题,即乳腺癌病灶模糊边界问题。 针对这一问题,本章提出基于边缘注意力的Transformer分割模型FBAT,用于分割乳 腺癌病灶。
首先根据本文提出的边缘关键点选择算法,预生成基于真值图的边缘关键点图用于 提供边缘先验信息。然后乳腺超声影像通过特征提取网络进入 FBAT 的编码器,编码器 的 BAB 负责预测边缘关键点,将预测的关键点图和特征图结合可得到增强的特征图。 随后加强的特征图进入解码器,解码器中参考点加快对乳腺癌病灶的定位,在 BAB 和 参考点的作用下 FBAT 实现了对乳腺癌模糊边缘的准确分割,同时做到对病灶的快速 定位。
53
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
54
 
 
第五章 实验与结果分析
为了验证本文在第三章和第四章提出方法的有效性,本文在两种类型的乳腺癌数据 集上进行了广泛的实验。这两种数据集分别是公共的乳腺超声影像数据集和本研究从医 院收集的乳腺 MRI 影像数据集。下文将首先介绍数据集的情况,然后进行分割模型的 性能比较实验,消融实验。最后根据实验结果分析原理方法与性能表现的相关性,从而 得出可靠的结论。
5.1实验数据集介绍
5.1.1乳腺超声影像数据集
乳腺癌超声影像数据集(Breast Ultrasound Images Dataset, BUSI) [71 ]是一个公共数 据集,该数据集于 2018 年收集自 Baheya 医院,包含年龄在 25 至 75 岁之间女性的 乳房超声影像。BUSI包括600名患者共780张乳腺超声影像,超声成像使用的仪器 是LOGIQ E9超声系统。BUSI中影像平均尺寸为500 X 500像素,影像的格式为 PNG。BUSI的影像一共被分为三类,即正常、良性和恶性,良性与恶性的影像均有对 应的分割掩膜,三类影像的数量如表 5-1 所示:
表 5-1 BUSI 数据集
病例类别 数量
良性 437
恶性 210
正常 133
总共 780
为了增大数据量,本研究在实验中引入了另一个公开的乳腺癌超声影像数据集
Breast UltraSound Dataset B (BUSB)[72]-BUSB 数据集于 2012 年收集自西班牙 UDIAT 诊断中心,成像设备为ACUSON Sequoia C512系统。BUSB包含来自不同女性共163 张乳腺超声影像,平均影像尺寸为760 X 570像素-BUSB仅包含恶性与良性两类影像, 其中恶性影像53张,良性影像110张。BUSB所有的影像包含对应的手工标志分割 掩膜。
55
本文在实验中为了贴近真实的使用场景,同时对模型的可迁移性进行测试,选择以 数据量较大的 BUSI 作为训练集与验证集,数据量较小的 BUSB 作为测试集。由于本 文仅针对乳腺癌病灶进行分割研究,故需要排除 BUSI 数据集不包含病灶的 133 张正 常乳腺影像。
实验中进行数据增强,本文以 50% 概率进行水平翻转,垂直翻转,旋转,以 20% 概率对输入影像的亮度,对比度调整。训练集,验证集,测试集的影像比例为 7:1:2,所 有影像的尺寸统一为512X512。
 
 
(a) Image (b) GT
图 5-1 BUSI 数据集
 
(a) Image (b) GT
 
图 5-2 BUSB 数据集
56
5.1.2乳腺 MRI 数据集
乳腺MRI影像数据集(BMRI)是本研究收集制作的私人数据集,包含从某医院收 集的 50 名恶性和良性患者总共 1200 张磁共振影像,成像设备为飞利浦医用磁共振成 像系统Ingenia 1.5T。其中可见乳腺癌肿瘤的影像共455张,平均影像尺寸为500 X 500 像素。所有的数据均包含放射科医生手工标注的分割掩膜。本文在实验中选择 313 张 影像构建训练集,33张影像作为验证集,109 张影像作为测试集。
数据增强方法为以 50% 概率进行水平翻转,垂直翻转,旋转。
 
图 5-3 BMRI 数据集
 
5. 2基于轴向注意力的Transformer分割模型评估实验
本研究在前一节描述了实验使用的三个数据集,第三章提出的基于轴向注意力的 Transformer 分割模型主要针对乳腺癌分割任务中的微小病灶,模型设计中并没有考虑 增加边缘信息,故选择病灶在整幅影像中占比相对较小的 BMRI 数据集进行测试。
实验基于 ytorch 1.7.1 深度学习框架搭建模型,使用的语言为 ython 3.8。实验在 单个 NVIDIA RTX 2080Ti 上实现。考虑到计算效率,所有图像都根据经验调整大小为 128X128 像素。本实验进行数据增强,包括垂直翻转、水平翻转和旋转图像。训练中采 用 Adam 对网络进行优化,学习率设置为 0.001,batch_size 设为 4,模型迭代次数为 200,其中前 10 次迭代不使用门控单元。最后实验使用两个经典的分割任务评价标准 F1 分数和交并比 IoU 来评估分割结果。
5.2.1损失函数
损失函数用于估量模型在训练中预测值与真实值之间的差距,损失函数越小代表模
57
 
型拟合效果越好。选择合适的损失函数对于分割任务非常重要,选择不恰当的损失函数 可能导致模型性能的下降。图像分割任务中最常用的损失函数是像素级别的交叉熵 (Cross Entropy loss,CE),CE 损失函数的原理即将预测结果与真值逐个像素进行比较, 计算出每个像素对应的损失函数,因此预测结果的损失即每个预测像素损失的平均值。
由于乳腺癌分割任务只有目标和背景两类,故本实验采用二值交叉熵(Binary Cross
Entropy loss, BCE)作为损失函数,计算公式如下:
w-1九一1
》》(p(x,y)/og(0(x,y))) + (1 - p(x,y))/og(i — Q(x,y))
x=0 y=0
式中,w和h表示输入图像的宽高尺寸,(x,y)表示二维图像中具体像素的位置,p(x,y) 即该位置上的真值,p(%,y)即该位置上的预测值。如前文所述,整幅影像的损失即不同 位置上的损失平均值。
5.2.2实验评估指标
为了评估基于轴向注意力的分割模型在 BMRI 数据集上的性能表现,实验选择交 并比IoU和F1分数进行量化分析。其中F1分数包括精准率(precision)和召回率 (recall)的计算。
交并比 IoU 广泛应用于语义分割任务中,顾名思义 IoU 即预测值与真值相交的部 分和两者并集的比值。交并比越大表示预测的结果越接近真值。
(5-2)
图 5-4 IoU 示意图
为了计算精确率,召回率,F1分数等指标,需要利用混淆矩阵(Confusion Matrix)。 混淆矩阵常用于分类问题,以表格形式将模型预测结果与真值进行汇总。乳腺癌分割任 务是仅有目标(病灶)与背景(病灶之外的区域)两类,该任务的混淆矩阵定义如下:
58
表 5-2 乳腺癌分割任务混淆矩阵
类别 真实病灶(1) 真实背景(0)
预测病灶(1) True ositive(T ) False ositive(F )
预测背景(0) False Negative(FN) True Negative(TN)
在上表中有四种情况,分别对应(1)模型正确分割真实病灶区域,TP; (2)模型 将背景错误分割为病灶,FP; (3)模型将病灶错误分割为背景,FN; (4)模型正确分割 出真实的背景区域,TN。
精确率,召回率是二分类任务中常见的评估指标。精确率描述了判断为某一类样本 的正确率,召回率描述该类别全部样本被识别出的情况。在乳腺癌分割任务中,医生更 关心类别为 1 病灶的精确率与召回率,计算公式表示如下:
TP
Precision = (5-3)
TP + FP '丿
TP
Recall = (5-4)
TP+FN '丿
完成精确率与召回率的计算后可根据公式(5-5)计算F1分数。F1分数实际上是 精确率和召回率的调和平均,兼顾了精确率与召回率。精确率和召回率只能描述模型在 某一方面的性能,而 F1 分数能综合的比较模型性能。
2 precision X recall
precision + recall
5.2.3实验结果与分析
将本文提出的基于轴向注意力的分割算法(Axial Transformer)在乳腺癌数据集上测 试,并与四种主流的方法进行性能比较,结果如表 5-3,可视化的结果如图 5-5。
表 5-3 乳腺癌病灶分割不同模型的性能比较
模型 IoU recision Recall F1
Segnet[73] 0.7402 0.8061 0.8112 0.8086
U-Net[56] 0.7731 0.8278 0.8371 0.8324
Res-UNet[74] 0.7795 0.8369 0.8554 0.8460
Axial U-Net[75] 0.7691 0.8577 0.8311 0.8441
Axial Transformer 0.7634 0.8813 0.8217 0.8504
 
如表 5-3 所示,实验使用精确率,召回率,交并比 IoU 和 F1 分数对不同的模型 进行定量分析。在 BMRI 数据集中,由于乳腺癌的病灶偏小,微小病灶定位困难的问 题在 BMRI 数据集相较于乳腺超声影像数据集体现的更明显。分析表 5-3 的各项内容 可知,虽然 U-Net 等卷积神经网络分割方法在 IoU 指标上性能略胜于本文提出的 Axial Transformer,但是在另一个指标F1分数中,本文提出的方法超过了卷积神经网 络中的主流方法。公式(5-5)解释了 F1 分数的构成,精确率和召回率都会影响 F1 分 数。表 5-3 显示 Axial Transformer 在精确率方面超过了其他模型,结合公式(5-3)可 知,精确率越高则模型预测结果中正确的比例越高,将背景当作病灶的误判也越少。由 此可以看出本文提出的 Axial Transformer 相较于其他基于卷积的分割模型能更好地捕 捉长期依赖关系,这主要归功于 Transformer 的多头注意力机制。本文在第二章关于 CNN 与 Transformer 优劣势的对比中指出基于注意力机制的 Transformer 分割模型能 更好学习全局上下文信息。基于对全局长距离依赖更好的建模,即使在背景远多于目标 的情况下,Axial Transformer将背景误判为病灶的概率也更低。这表明Axial Transformer 确实解决了乳腺癌分割任务中的微小病灶定位困难的问题。
虽然本文提出的方法在 F1 分数和精确率指标上较高,但是表 5-3 的召回率指标 也反映出 Axial Transformer 在乳腺癌分割任务中存在的不足。公式(5-4)解释了召回 率的计算过程,与公式(5-3)对比可知召回率描述了对乳腺癌病灶分割的完整程度。在 乳腺癌分割任务中,召回率越高则表明影像中病灶被找到的越完整。虽然本文提出的方 法在微小乳腺病灶的定位上准确,较少将背景误判为乳腺病灶,但是召回率偏低也表示 本文提出的方法找全病灶的能力较弱,容易将本该分割的病灶误判为背景。
综上所述,本文提出的 Axial Transformer 在乳腺癌分割任务中发挥 Transformer 模型在长距离依赖上建模的优势,结合轴向注意力,相对位置编码实现了对微小乳腺癌 病灶的准确定位,在性能比较中,分割的精确率和 F1 分数高于 CNN 分割模型。但是 Axial Transformer 在召回率和 IoU 评估指标上偏低,找全病灶的能力偏弱。放射科的 医生指出,乳腺癌分割模型除了做到对于微小病灶的准确定位,还需要对病灶的模糊边 缘进行准确的分割。提升基于 Transformer 的分割模型对乳腺癌模糊边缘的分割精度是 下一部分的研究内容,也是提升 IoU 性能的关键。
60
 
 
 
 
 
(a) Image (b) Annotation (c) Unet (d) Ours (e) GT
图 5-5 乳腺磁共振数据集分割结果图 在该数据集上进行消融实验以验证轴向注意力机制以及门控单元的有效性,实验结 果如表 5-4 所示:
表 5-4 Axial Transformer 消融实验
Axial Attention 门控单元 IoU recision Recall F1
- - 0.7339 0.8037 0.8154 0.8095
V - 0.7595 0.8655 0.8187 0.8414
V V 0.7634 0.8813 0.8217 0.8504
 
消融实验表明,在 Transformer 的基础上使用轴向注意力机制取代传统注意力机制 有助于提高模型对微小乳腺癌病灶的分割精度。同时,使用门控单元能限制不准确的位 置编码,进一步提升模型的分割精度。
5. 3基于边缘注意力的Transformer分割模型评估实验
实验在两种影像类型共三个数据集(BUSI, BUSB, BMRI)上测试。在模型设计阶 段考虑放射科医生的建议,模型着重对乳腺癌病灶的模糊边界问题深入研究。通过增加 边缘信息,提出基于边缘注意力的Transformer分割模型(FBAT)。
实验基于 ytorch 1.7.1 深度学习框架搭建网络,使用的语言为 ython 3.8。实验在 单个 NVIDIA RTX 2080Ti 上实现。所有图像都根据经验调整大小为 512X512 像素。 实验进行数据增强,包括垂直翻转、水平翻转、旋转和亮度对比度增强。训练中采用
61
 
Adam 对网络进行优化,学习率设置为 0.001,验证集上的损失 10 轮迭代未下降则学 习率减半。模型 batch_size 设为 8,迭代次数为 200。最后实验使用经典的分割任务评 价标准 Dice 系数和交并比 IoU 以及对边界敏感的 Hausdorff distance 来评估分割结 果。
5.3.1损失函数
本文在第四章模型结构中提及,FBAT在编码器部分引入边缘注意力模块BAB, 而BAB受到预生成的边缘关键点真值图的监督。因此,FBAT的损失函数包括两部分, 第一部分是预测结果和病灶掩膜之间的损失函数keg,第二部分是预测关键点和真值之 间的损失函数LMap。
模型的总损失函数表示如下:
n+1
^Total =厶S旳 +〉:厶bap
i = 1
式中i表示第i层编码层,n表示编码层的数量,实验中设置为4o心旳采用Dice 损失计算预测结果Spred和掩膜Sgt。采用公式(5-1)的BCE损失计算预测结果 Mp”ed和真值Mgt。
(5-7) (5-8)
5.3.2实验评估指标
与 5.2 节采用的评估指标略有不同,本节的评估指标未计算精确率,召回率及 F1 值,而是使用Dice系数和Hausdorff distanceo实际上对公式(5-5)进行化简可得与公 式(5-9)相同的表达式,即 F1 分数与 Dice 系数具有相同的内涵,为展示更多的实验 信息,本节不再分别计算精确率与召回率。同时为了比较不同模型之间训练的收敛速度, 本节在实验对比表格中增加训练轮数 Epochs 一列。
实验的评价指标包括公式(5-2)的IoU以及新增加的Dice系数,Hausdorff distanceo Dice 系数与 IoU 相似,均表示预测的区域与真值图像之间的重合度。假设 A 表示分 割掩膜,B表示预测的分割结果,Dice系数计算方式如下:
62
 
 
图 5-6 Dice 系数示意图
Hausdorff distance(HD) 用于衡量模型分割边界的性能,通过 HD 可描述两个点 集之间的最大不匹配度。HD值越小表示边界分割准确度越高。
HD(A,B) = max{h(A,B),h(B,A)} (5-10)
式中h(A,B)和h(B,A)均为单向HD计算。以h(A,B)为例,首先利用欧氏距离公式计 算点集 A 中每个点到点集 B 中每个点的最近距离,然后选择最大的值作为结果。
63
 
5.3.3实验结果与分析
将第四章提出的 FBAT 在乳腺癌超声影像数据集 BUSI+BUSB 以及乳腺癌磁共 振影像数据集 BMRI 上测试。乳腺癌超声影像数据集的测试结果如表 5-5 所示。乳腺 癌磁共振影像数据集测试结果如表 5-6 所示。
表 5-5 乳腺超声数据集不同模型性能比较
模型 Epochs Dice IoU HD
U-Net[56] 200 0.7073 0.5856 46.8312
UNeXt[76] 200 0.7269 0.6449 36.6185
MedT[77] 200 0.6993 0.6189 60.1201
TransFuse[66] 200 0.7271 0.6283 39.9842
BAT[78] 200 0.7452 0.6396 25.3166
FBAT 100 0.7416 0.6321 25.9789
FBAT 200 0.7502 0.6537 22.8001
 
 
表 5-6 乳腺磁共振数据集不同模型性能比较
模型 Epochs Dice IoU HD
U-Net[56] 200 0.8510 0.7911 9.3370
UNeXt[76] 200 0.8676 0.8177 6.2286
MedT[77] 200 0.7225 0.6432 12.5301
TransFuse[66] 200 0.8541 0.7714 9.8991
BAT[78] 200 0.8909 0.8251 7.0664
FBAT 100 0.8897 0.8113 5.9362
FBAT 200 0.8969 0.8275 5.8318
通过表 5-5 和表 5-6 的性能对比可以发现 FBAT 在两种类型的乳腺癌影像上均 有良好的表现,在各项指标上超过了对比模型。表中 Dice 系数和 IoU 的成绩表明 FBAT 能准确的分割出病灶,另一个对边缘敏感的指标 HD 表明 FBAT 能有效区分病 灶与正常组织。此外,Epochs指标反映出FBAT在较少的迭代次数也能取得较好的性 能,从侧面反映出参考点对于模型收敛的加速作用。图 5-7 可视化了五个典型具有挑战
64
 
 
(a) Image (b) Unet (c) UNeXt (d) BAT (e) Ours (f) GT
图 5-7 FBAT 在不同数据集上的分割结果图
在乳腺超声影像数据集上进行消融实验,以证明 FBAT 中主要模块的有效性:(1) 边缘注意力模块BAB, (2)参考点生成模块。如表5-7所示:
表 5-7 FBAT 消融实验
BAB 参考点 Dice IoU
- - 0.7205 0.6110
V - 0.7401 0.6358
V V 0.7502 0.6537
 
增加 BAB 后 IoU 显著提高,证实引入边界先验知识对精确分割乳腺癌病灶模糊 边缘的有效性。另外,参考点的引入提高了网络对各种形状病灶的定位精度。消融实验 的结果证明了 FBAT 在解决乳腺癌肿瘤模糊边缘分割问题上的有效性。
65
5.4本章小结
本章使用第三章的基于轴向注意力的Transformer分割模型(Axial Transformer)在 乳腺癌核磁共振影像数据集上进行大量实验,实验结果表明本文提出的轴向注意力以及 相对位置编码能一定程度上帮助 Transformer 解决乳腺癌微小病灶的定位问题,但是在 IoU及召回率两项指标中,Axial Transformer表现不如对比模型,对病灶模糊边界的分 割精度还有待提升。
使用第四章的基于边缘注意力的Transformer分割模型(FBAT)在乳腺癌核磁共振 影像数据集及两个乳腺癌超声影像数据集上进行大量的实验,通过这些实验可以发现基 于边缘注意力的方法效果优于基于轴向注意力的方法。FBAT在有效定位病灶的同时, 能对乳腺癌病灶的模糊边界做出准确的分割,参考点的引入让模型在训练中能快速收敛。 高于对比模型的 Dice 系数 和 IoU 证明 FBAT 能有效解决乳腺癌分割任务中的模糊 边界问题。
66
第六章 总结与展望
6.1总结
近年来随着深度学习的兴起,将深度学习应用于医学影像分割任务能有效提高医生 的诊断效率,在一定程度上增加患者的生存几率,具有非常重要的研究意义。乳腺癌作 为全球第一大癌症,中国每年新增的患者可达数十万,然而由于乳腺癌病灶占比小且形 态多变边缘模糊,乳腺癌病灶分割依然是一个有价值且具有挑战性的任务。
本文根据磁共振成像以及超声影像进行语义分割算法研究。针对乳腺癌数据短缺的 问题,本研究通过与医生合作,获取不同年龄段真实患者的磁共振影像数据。针对乳腺 癌分割任务中微小病灶的问题,本研究基于轴向注意力机制提出一个对位置敏感的 Transformer 分割模型,用于精确定位体积小的病灶。然而只解决病灶定位问题并不能满 足精确分割的全部要求,医学影像分割中更重要的是准确区分病灶与正常组织,即解决 病灶的模糊边界问题。针对乳腺癌病灶模糊边界带来的分割挑战,本文提出一种新颖、 高效、准确的语义分割网络,即快速边界感知 Transformer(Faster Boundary-aware Transformer, FBAT),用于精确分割乳腺癌症病灶。综上所述本文的贡献与创新点有以 下三点:
1 * 八'、•
(1)与放射科医生合作,收集不同年龄段患者磁共振影像,对影像中的病灶进行标 注,得到一套真实可信的乳腺癌肿瘤数据集,用真实的诊断影像验证方法的真实性,有 效性。
(2)提出一个基于轴向注意力的Transformer分割模型(Axial Transformer),主要 解决乳腺癌分割任务中微小病灶定位难的问题。通过沿图像高与宽的两个一维轴向注意 力,结合相对位置信息,实现在数据量有限的情况下对乳腺癌病灶的准确定位。
(3)提出一个基于边缘注意力的Transformer分割模型(FBAT)。将边缘注意力模 块(BAB)加入编码器,在解码器中添加参考点生成方法。并针对乳腺癌分割任务重新 设计损失函数,有效解决模糊边缘带来的分割挑战。在三个数据集上的大量实验证实本 文提出的 FBAT 解决模糊边缘问题的有效性。直观的分割结果表明 FBAT 可有效分割 边界模糊的乳腺癌肿瘤。
67
6.2展望
本文提出的方法虽然基本上解决了乳腺癌病灶的定位与模糊边缘问题,但是仍有提 高的空间。具体来说可以从以下两个方面进行改进:
(1) 医学影像分析是一个数据驱动的研究,非常依赖真实医学数据的获取,如果能 从医院获得更多真实患者的影像数据,必然能推动对研究的进一步深入。虽然目前本文 已收集了一些医学影像的数据集,但是数据量上仍有不足。因此,如果想进一步提高模 型的分割准确度,离不开对数据集的扩充。
(2) 针对乳腺癌模糊边界的分割挑战,本文在第四章提出基于边缘注意力机制的 Transformer 分割模型,虽然初步解决了该问题,但仍有提升空间。若要进一步提升对于 边界的分割精度,可以考虑在参考点的基础上,针对不同病灶存在尺度大小差异的特点, 增加物体的尺度信息宽高(W,匕)。通过增加尺度信息,可针对不同形状的物体进行更 准确分割。具体来说:可以新增变量,将参考点从二维的坐标(%,y)形式扩展为
(%,y,/l,w),同时增加偏移量(△%,Ay, A ^, Aw),在训练中每个解码层通过 偏移量的更新实现由粗到细的边缘分割迭代,进一步提高分割精度。
68
参考文献
[1]陈志明, 肖铮, 江丽莎, 等. 钼靶 X 线, 超声及 MRI 在乳腺癌早期诊断中的应用 [J]. 中国中西医结合影像学杂志, 2013, 11(4): 416-419.
[2]许伟志,叶争渡.超声检查与MR在乳腺癌诊断中的临床应用分析[J].医学影像学 杂志, 2014, 24(4): 650-652.
[3]杨荷霞.乳腺癌CT检查的价值探讨[J].现代诊断与治疗,2005,16(6): 323-325.
[4]柯文,耿峰.乳腺癌超声诊断技术的研究进展[J].海军医学杂志,2013, 34(6): 429- 431.
[5]郑光远,刘峡壁,韩光辉.医学影像计算机辅助检测与诊断系统综述[J].软件学报, 2018, 29(5): 1471-1514.
⑹崔湧,翟仁友,刘小娟,等.计算机辅助检测在乳腺癌X线诊断中的应用J].中华 放射学杂志, 2004, 38(9): 937-941.
[7]王金花,谭婉嫦,刘立志,等.微钙化的计算机辅助检测对乳腺癌的诊断价值[J].放 射学实践, 2013, 28(8): 857-860.
[8]Quekel L G B A, essels A G H, Goei R, et al. Miss rate of lung cancer on the chest radiograph in clinical practice[J]. Chest, 1999, 115(3): 720-724.
[9]Suzuki . A review of computer-aided diagnosis in thoracic and colonic imaging[J]. Quantitative imaging in medicine and surgery, 2012, 2(3): 163.
[10]夏顺仁,吕维雪.乳腺X线图像的计算机辅助诊断技术研究进展J].国外医学:生 物医学工程分册, 2000, 23(1): 24-28.
[11]Redman A, Lowes S, Leaver A. Imaging techniques in breast cancer[J]. Surgery (Oxford), 2016, 34(1): 8-18.
[12]Hambrock T, Vos P C, Hulsbergen—van de Kaa C A, et al. Prostate cancer: computer-aided diagnosis with multiparametric 3-T MR imaging—effect on observer performance[J]. Radiology, 2013, 266(2): 521-530.
[13]Doi . Current status and future potential of computer-aided diagnosis in medical
imaging[J]. The British ournal of radiology, 2005, 78(suppl_1): s3-s19.
[14]ashikura Y, Nakayama R, Hizukuri A, et al. Improved differential diagnosis of breast
69
masses on ultrasonographic images with a computer-aided diagnosis scheme for determining histological classifications[J]. Academic radiology, 2013, 20(4): 471-477.
[15]Mookiah M R , Acharya U R, Chua C , et al. Computer-aided diagnosis of diabetic retinopathy: A review[J]. Computers in biology and medicine, 2013, 43(12): 2136-2155.
[16]Engle Jr R L. Attempts to use computers as diagnostic aids in medical decision making: a thirty-year experience[J]. erspectives in biology and medicine, 1992, 35(2): 207-219.
[17]Doi . Computer-aided diagnosis in medical imaging: historical review, current status and future potential[J]. Computerized medical imaging and graphics, 2007, 31(4-5): 198-211.
[18]P etrick N, Sahiner B, Armato III S G, et al. Evaluation of computer-aided detection and diagnosis systems a[J]. Medical physics, 2013, 40(8): 087001.
[19]商木岩,郭帅,张强,等.中国乳腺癌筛查现状[J].实用癌症杂志,2020, 35(11): 175- 178.
[20]刘维.乳腺钼靶X射线摄影及超声检查在乳腺肿瘤诊断中应用价值研究[J].现代 医用影像学, 2019, 28(1): 115r-117.
[21]何之彦,陈海曦,姚戈虹,等.乳腺钙化的X线影像评价[J].中国医学计算机成像 杂志, 2007, 13(5): 332-337.
[22]杨志伟,赵亚平,周翔平,等.早期乳腺癌的超声和X线摄影的对照研究[J].临床 放射学杂志, 2001, 20(1): 14-16.
[23]雷益,朱嘉英,李顶夫,等.乳腺疾病的X线钼靶与MRI对比研究[J].中华放射 学杂志, 2004, 38(8): 864-867.
[24]赵斌,王光彬.重视MRI在乳腺疾病中的重要作用[J].医学影像学杂志,2007, 17(2): 109-110.
[25]黄远明, 梁立华, 陈晓东, 等. 钼靶及 MRI 纹理分析技术在乳腺疾病诊断中的研究 进展[J]. CHINESE JOURNAL OF CT AND MRI, 2019, 17(6): 116.
[26]谢亚咩,王欢.影像新技术在乳腺疾病筛查中的应用[J]. Advances in Clinical Medicine, 2022, 12: 56.
[27]汪颖姣,王立洪,李如茵,等.乳腺超声在乳腺癌筛查中的研究进展[J].协和医学杂 志, 2022, 13(2): 315-319.
70
[28]周成礼,黄嵘.超声和MRI影像学及影像组学在乳腺癌中的研究进展[J].分子影 像学杂志, 2022, 45(4): 621-626.
[29]张静雯,周建桥,詹维伟,等.乳腺癌超声表现与其病理基础的相关性研究[J].中华 医学超声杂志, 2011, 8(6): 18-21.
[30]黄秋婷,朱建平.乳腺癌超声诊断新进展[J].医学综述,2012, 18(5): 766-768.
[31]Jalalian A, Mashohor S, Mahmud R, et al. Foundation and methodologies in computer- aided diagnosis systems for breast cancer detection[J]. EXCLI ournal, 2017, 16(1): 113.
[32]曹恩涛,范丽,肖湘生.CT计算机辅助检测与诊断对肺癌早期诊断的应用与进展[J]. 国际医学放射学杂志, 2016, 39(1): 55-60.
[33]赵愉,鲁雯,王远军,等.肺结节计算机辅助检测技术研究概述[J].生物医学工程学 杂志, 2014, 31(5): 1172-1177.
[34]Yang Q, Li L, Zhang J, et al. A computerized global MR image feature analysis scheme to assist diagnosis of breast cancer: a preliminary assessment[J]. European ournal of radiology, 2014, 83(7): 1086-1091.
[35]Honda E, Nakayama R, oyama H, et al. Computer-aided diagnosis scheme for distinguishing between benign and malignant masses in breast DCE-MRI[J]. Journal of digital imaging, 2016, 29(1): 388-393.
[36]Song S E, Seo B , Cho R, et al. Computer-aided detection (CAD) system for breast MRI in assessment of local tumor extent, nodal status, and multifocality of invasive breast cancers: preliminary study[J]. Cancer Imaging, 2015, 15(1): 1-9.
[37]Otsu N. A threshold selection method from gray-level histograms[J]. IEEE transactions on systems, man, and cybernetics, 1979, 9(1): 62-66.
[38]徐蔚波,刘颖,章浩伟.基于区域生长的图像分割研究进展[J].北京生物医学工程, 2017, 36(3): 317-322.
[39]肖明尧,李雄飞,张小利,等.基于多尺度的区域生长的图像分割算法[J].吉林大学 学报 (工学版), 2017, 47(5): 1591-1597.
[40]姜慧研,冯锐杰.基于改进的变分水平集和区域生长的图像分割方法的研究[J].电 子学报,2012, 40(8): 1659.
71
[41]Canny J. A computational approach to edge detection[J]. IEEE Transactions on pattern analysis and machine intelligence, 1986, 8(6): 679-698.
[42]Torre V, oggio T A. On edge detection[J]. IEEE Transactions on attern Analysis and Machine Intelligence, 1986 (2): 147-163.
[43]anopoulos N, Vasanthavada N, Baker R L. Design of an image edge detection filter using the Sobel operator[J]. IEEE Journal of solid-state circuits, 1988, 23(2): 358-367.
[44]rewitt J M S. Ob ect enhancement and extraction[J]. icture processing and sychopictorics, 1970, 10(1): 15-19.
[45]Lu F, Tang C, Liu T, et al. Multi-Attention Segmentation Networks Combined with the Sobel Operator for Medical Images[J]. Sensors, 2023, 23(5): 2546.
[46]王小俊,刘旭敏,关永.基于改进Canny算子的图像边缘检测算法[J].计算机工程, 2012, 38(14): 196-198.
[47]Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]. 2005 IEEE computer society conference on computer vision and pattern recognition (CV R'05). IEEE, 2005, 1: 886-893.
[48]Hubel D H, Wiesel T N. Receptive fields, binocular interaction and functional architecture in the cat's visual cortex[J]. The Journal of physiology, 1962, 160(1): 106.
[49]Fukushima . Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position[J]. Biological cybernetics, 1980, 36(4): 193-202.
[50]LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. roceedings of the IEEE, 1998, 86(11): 2278-2324.
[51]rizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.
[52]Simonyan , Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[J]. Computer Science, 2014, 9(4): 1-14.
[53]Szegedy C, Liu W, Jia Y, et al. Going Deeper with Convolutions[J]. IEEE Computer Society, 2015, 7(2): 1-9.
72
[54]Long J, Shelhamer E, Darrell T. Fully Convolutional Networks for Semantic Segmentation[J]. IEEE Transactions on attern Analysis and Machine Intelligence, 2015, 39(4): 640-651.
[55]Yuan Y, Chao M, Lo Y C. Automatic Skin Lesion Segmentation Using Deep Fully Convolutional Networks With Jaccard Distance[J]. IEEE Trans Med Imaging, 2017, 36(9): 1876-1886.
[56]Ronneberger O, Fischer , Brox T. U-Net: Convolutional Networks for Biomedical Image Segmentation[J]. Springer International ublishing, 2015: 234-241.
[57]Yan Y, Liu Y, Wu Y, et al. Accurate segmentation of breast tumors using AE U-net with HDC model in ultrasound images[J]. Biomedical Signal rocessing and Control, 2022, 72: 103299.
[58]Chen G, Li L, Dai Y, et al. AAU-net: An Adaptive Attention U-net for Breast Lesions Segmentation in Ultrasound Images[J]. IEEE Transactions on Medical Imaging, 2023, 42(5): 1289-1300.
[59]Gu Z, Cheng J, Fu H, et al. CE-Net: Context Encoder Network for 2D Medical Image Segmentation[J]. IEEE Transactions on Medical Imaging, 2019, 38(10): 2281-2292.
[60]Oktay O, Schlemper J, Folgoc L L, et al. Attention U-Net: Learning Where to Look for the
ancreas[J]. Medical Imaging with Deep Learning, 2018: 1-10.
[61]孙军梅,葛青青,李秀梅,等.一种具有边缘增强特点的医学图像分割网络[J].电子 与信息学报, 2022, 44(5): 1643-1652.
[62]Zhou Z, Siddiquee M M R, Ta bakhsh N, et al. Unet++: Redesigning skip connections to exploit multiscale features in image segmentation[J]. IEEE transactions on medical imaging, 2019, 39(6): 1856-1867.
[63]Cao H, Wang Y, Chen J, et al. Swin-unet: Unet-like pure transformer for medical image segmentation]。]. Computer Vision—ECCV 2022 Workshops: Tel Aviv, Israel, October 23- 27, 2022, roceedings, art III. Cham: Springer Nature Switzerland, 2023: 205-218.
[64]Vaswani A, Shazeer N, armar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30(1): 121-132.
73
[65]Dosovitskiy A, Beyer L, olesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020.
[66]Zhang Y, Liu H, Hu Q. Transfuse: Fusing transformers and cnns for medical image segmentation]。]. Medical Image Computing and Computer Assisted Intervention- MICCAI 2021: 24th International Conference, Strasbourg, France, September 27-October 1, 2021, roceedings, art I 24. Springer International ublishing, 2021: 14-24.
[67]Lou A, Guan S, o H, et al. CaraNet: context axial reverse attention network for segmentation of small medical ob ects[C]. Medical Imaging 2022: Image rocessing. S IE, 2022, 12032: 81-92.
[68]He , Zhang X, Ren S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(9): 1904-1916.
[69]Mehta S, Rastegari M, Caspi A, et al. Espnet: Efficient spatial pyramid of dilated convolutions for semantic segmentation[C]. roceedings of the european conference on computer vision (ECCV). 2018: 552-568.
[70]Huang Z, Wang X, Huang L, et al. Ccnet: Criss-cross attention for semantic segmentation[C]. roceedings of the IEEE/CVF international conference on computer vision. 2019: 603-612.
[71]Al-Dhabyani W, Gomaa M, haled H, et al. Dataset of breast ultrasound images[J]. Data in brief, 2020, 28(1): 104863.
[72]Yap M H, ons G, Marti J, et al. Automated breast ultrasound lesions detection using convolutional neural networks[J]. IEEE ournal of biomedical and health informatics, 2017, 22(4): 1218-1226.
[73]Badrinarayanan V, endall A, Cipolla R. Segnet: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(12): 2481-2495.
[74]Xiao X, Lian S, Luo Z, et al. Weighted res-unet for high-quality retina vessel segmentation[C]. 2018 9th international conference on information technology in medicine
74
and education (ITME). IEEE, 2018: 327-331.
[75]Wang H, Zhu Y, Green B, et al. Axial-deeplab: Stand-alone axial-attention for panoptic segmentation©. Computer Vision-ECCV 2020: 16th European Conference, Glasgow, UK, August 23—28, 2020, P roceedings, Part IV. Cham: Springer International P ublishing, 2020: 108-126.
[76]Valanarasu J M J, atel V M. Unext: Mlp-based rapid medical image segmentation network[C]. Medical Image Computing and Computer Assisted Intervention-MICCAI 2022: 25th International Conference, Singapore, September 18-22, 2022, P roceedings, Part V. Cham: Springer Nature Switzerland, 2022: 23-33.
[77]Valanarasu J M J, Oza , Hacihaliloglu I, et al. Medical transformer: Gated axial-attention for medical image segmentation[C]. Medical Image Computing and Computer Assisted Intervention-MICCAI 2021: 24th International Conference, Strasbourg, France, September 27-October 1, 2021, roceedings, art I 24. Springer International ublishing, 2021: 36-46.
[78]Wang J, Wei L, Wang L, et al. Boundary-aware transformers for skin lesion segmentation[C]. Medical Image Computing and Computer Assisted Intervention- MICCAI 2021: 24th International Conference, Strasbourg, France, September 27-October 1, 2021, roceedings, art I 24. Springer International ublishing, 2021: 206-216.
【本文地址:https://www.xueshulunwenwang.com//yixuelei/yixueyingxiang/9180.html

上一篇:基于医学影像与报告的可解释性疾病检测 方法研究

下一篇:没有了

相关标签: