1. 网站地图
  2. 设为首页
  3. 关于我们


医学影像的诊断分类和基于检索的文本生成研究

发布时间:2023-09-20 14:12
第 1 章 绪论 1
1.1 研究背景与意义 1
1.2研究现状 3
1.2.1医学数据分类 3
1.2.2图像描述生成 5
1.3 本文主要工作 8
1.4 创新之处 10
1.5 论文结构安排 11
第 2 章 基于 Transformer 分解编码器的尘肺 3D CT 分类 13
2.1引言 13
2.2 相关工作 15
2.3 尘肺分级 15
2.4 基于 Transformer 分解编码器的尘肺 3D CT 分类框架 17
2.4.1 肺部分割 17
2.4.2 卷积自编码器 18
2.4.3基于 Transformer 的分解编码器 19
2.4.4 损失函数 20
2.5 实验结果与分析 21
2.5.1数据集 21
2.5.2 评价指标 23
2.5.3 实验细节 23
2.5.4 对比方法 23
2.5.5 对比实验 24
2.6 本章小结 32
第 3 章 基于统一视角下的多级跨模态相似性的跨模态检索 33
3.1引言 33
3.2 相关工作 34
3.3 统一视角下的多级跨模态相似性的跨模态检索框架图 35
3.3.1 特征提取模块 36
3.3.2多级跨模态相似性 37
3.3.3 损失函数 38
3.4 实验结果与分析 38
3.4.1数据集 38
3.4.2 对比方法 39
3.4.3 评价指标 40
3.4.4 实验细节 40
3.4.5 消融实验 41
3.4.6 参数分析 42
3.4.7 对比实验 43
3.5 本章小结 49
第 4 章 基于半监督的跨模态记忆库的跨模态检索 51
4.1引言 51
4.2 相关工作 54
4.2.1 跨模态检索 54
4.2.2 伪标签学习 54
4.3 基于半监督的跨模态记忆库的跨模态检索方法 55
4.3.1 问题描述 55
4.3.2 跨模态记忆库 56
4.4 实验结果与分析 58
4.4.1数据集 58
4.4.2 对比方法 59
4.4.3 评价指标 59
4.4.4 实验细节 59
4.4.5 消融实验 60
4.4.6 参数分析 61
4.4.7 对比实验 63
4.5 本章小结 72
第 5 章 基于检索的自适应融合策略的医学影像文本生成 75
5.1引言 75
5.2基于检索的自适应融合策略的医学影像文本生成方法 77
5.2.1 肺部分割 77
5.2.2跨模态检索模块 78
5.2.3自适应融合策略 78
5.2.4 损失函数 80
5.3 实验结果与分析 80
5.3.1数据集 80
5.3.2 对比方法 81
5.3.3 评价指标 82
5.3.4 实验细节 84
5.3.5 消融实验 84
5.3.6 对比实验 85
5.4 本章小结 90
第 6 章 总结与展望 91
6.1总结 91
6.2 未来展望 92
参考文献 95
图目录
图 1-1 医学影像人工分析流程图 2
图 1-2 医学影像分析及诊断示意图 3
图 1-3 研究内容框架 7
图 2-1 基于 Transformer 分解编码器的框架示意图 17
图 2-2 肺部分割的框架示意图 17
图 2-2 3D 卷积自动编码器的框架 19
图 2-4 尘肺在不同阶段的 CR 和 CT 对比图 22
图 2-5 在尘肺 CT 数据集和 COVID-CT-MD 数据集上本文方法的混
淆矩阵 26
图 2-6 在尘肺 CR 图像上 2D CNN 方法的混淆矩阵 27
图 2-7 在尘肺 CT 影像上 3D ResNet 方法的混淆矩阵 27
图 2-8 在尘肺 CT 影像上 3D DenseNet 方法的混淆矩阵 28
图 2-9 在尘肺 CT 影像上 3D ResNext 方法的混淆矩阵 28
图 2-10 在尘肺 CT 影像上 3D SE-ResNet 方法的混淆矩阵 29
图 2-11 在尘肺 CT 影像上 3D SE-ResNext 方法的混淆矩阵 29
图 2-12 在 COVID-CT-MD CT 影像上 3D ResNet 方法的混淆矩阵30 图 2-13 在 COVID-CT-MD CT 影像上 3D DenseNet 方法的混淆矩阵 30 图 2-14 在 COVID-CT-MD CT 影像上 3D ResNext 方法的混淆矩阵 31 图 2-15 在 COVID-CT-MD CT 影像上 3D SE-ResNet 方法的混淆矩
31
图 2-16 在 COVID-CT-MD CT 影像上 3D SE-ResNext 方法的混淆矩
31
图 3-1 多级跨模态相似性的总体框架 35
图3-2 y和m在不同取值下的NDCG得分 42
图3-3该方法在Pascal sentence数据集上I2T的前5个检索样本.44 图 3-4 该方法在 Pascal sentence 数据集上 T2I 的前 5 个检索样本 .45
图 3-5 该方法在 Pascal sentence 数据集上的原始特征分布可视化 .46 图 3-6 该方法在 Pascal Sentence 数据集上的原始特征分布可视化 47 图 3-7 该方法在 Open-I 数据集上 I2T 的前 5 个检索样本 48
图 3-8 该方法在 Open-I 数据集上 T2I 的前 5 个检索样本 49
图 4-1 从包含 5%有标记数据的 Wikipedia 数据集上学习的公共表示 的可视化 52
图 4-2 半监督的跨模态记忆库的总体框架 53
图 4-3 图像伪标签在跨模态记忆库中的学习过程 56
图4-4在5%标记数据的MS-COCO数据集上,不同仔和y条件下所 提方法的 MAP@ALL 和 MAP@50 值 62
图4-5在含有5%标记数据的Wikipedia数据集上,不同仔和y条件下 所提方法的 MAP@ALL 和 MAP@50 值 63
图 4-6 该方法在 MS-COCO 数据集上 I2T 的前5 个检索样本 67
图 4-7 该方法在 MS-COCO 数据集上 T2I 的前5 个检索样本 68
图 4-8 该方法在含 5%有标记数据的 MS-COCO 数据集上的原始特
征分布可视化 69
图 4-9 该方法在含 5%有标记数据的 MS-COCO 数据集上的原始特
征分布可视化 70
图 4-10 该方法在 Open-I 数据集上 I2T 的前5 个检索样本 71
图 4-11 该方法在 Open-I 数据集上 T2I 的前 5 个检索样本 72
图 5-1 基于检索的自适应融合策略的文本生成的框架示意图 77
图 5-2 跨模态检索模块的框架示意图 78
图 5-3 视觉注意力模块 79
图 5-4 肺部患者的疾病分布图 80
图 5-5 肺部患者的年龄范围分布图 81
图 5-6 性别百分比图 81
图 5-7 CNN+LSTM、V-L Retrieval 和本文方法的案例展示 87
图 5-8 V-L retrieval 方法和本文方法在不同评价准则上得分差异展
89
表目录
表 2-1 不同组织或器官的 Hu 值 18
表 2-2 研究目标的粉尘暴露特性 21
表 2-3 研究目标的性别和年龄特性 22
表 2-4 在尘肺数据集上不同方法的实验结果 24
表 2-5 不同方法的计算成本 25
表2-6在COVID-CT-MD数据集上不同方法的实验结果 26
表 3-1 实验中使用的多模态基准数据集的统计 39
表 3-2 在 Pascal sentence 数据集上不同相似性设置的消融实验 41
表3-3在Wikipedia数据集上不同相似性设置的消融实验 41
表 3-4 在 pascal sentence 数据集,Wikipedia 数据集和 XMediaNet 数
据集上 I2T 和 T2I 的 NDCG 评分方面的性能比较 43
表 4-1 实验中使用的多模态基准数据集的统计 59
表 4-2 在 MS-COCO 数据集上的消融研究 61
表 4-3 在 Wikipedia 数据集上的消融研究 61
表4-4 Wikipedia数据集上MAP@ALL结果的性能比较 64
表4-5 Wikipedia数据集上MAP@50结果的性能比较 64
表4-6 NUS-WIDE数据集上MAP@ALL结果的性能比较 65
表4-7 NUS-WIDE数据集上MAP@50结果的性能比较 65
表4-8 MS-COCO数据集上MAP@ALL结果的性能比较 66
表 4-9 MS-COCO 数据集上 MAP@50 结果的性能比较 66
表5-1在肺部CT数据集的消融研究 84
表 5-2 在肺部 CT 数据集上的性能比较 85
表5-3 不同方法的计算成本 86
表 5-4 在 Open-I 数据集上的性能比较 86
符号说明
英文缩写 英文全称 中文全称
CT Computed Tomography 电子计算机断层扫描
3D 3 Dimensions 三维
NDCG Normalized Discounted Cumulative Gain 平均归一化折损累积增益
LSTM Long Short-Term Memory 长短期记忆网络
CIDEr Consensus-based Image Description
Evaluation 基于共识的图像描述评估
CR Chest Radiograph 胸片
2D 2 Dimensions 二维
CNN Convolutional Neural Network 卷积神经网络
ResNet Deep residual network 深度残差神经网络
MAP Mean Average Precision 平均精度均值
MRI Magnetic Resonance Imaging 磁共振成像
X-ray x ray X 射线
US Ultrasound 超声成像
AI Artificial Intelligence 人工智能
AUC Area Under the Curve 曲线下面积
ViT Vision Transformer 视觉 Transformer
EEG Electroencephalogram 脑电图
DBN Deep Belief Network 深度置信网络
FCN Fully Convolutional Network 全卷积网络
BiLSTM Bidirectional Long Short-Term Memory 双向长短期记忆网络
Faster RCNN Faster Region-based Convolutional Network 基于区域的卷积神经网络
BERT Bidirectional Encoder Representation from
Transformers 基于 Transformer 的双向编 码器表示
GPT Generative Pre-trained Transformer 生成型预训练 Transformer
KNN K-Nearest Neighbors K 最近邻
ILO International Labor Office 国际劳工局
ResNext Suggesting the Next Dimensio 深度残差神经网络的变体
DenseNet Dense Convolutional Network 密集卷积网络
 
 
SE-ResNet Squeeze-and-Excitation Networks 深度残差神经网络的一种
变体
PEPX Projection-Expansion-Projection-Extension 投影-扩展-投影-延伸
TBFE Transformer-Based Factorized Encoder 基于 Transformer 的分解编 码器
Swin
Transformer Hierarchical Vision Transformer using
Shifted Windows 基于移动窗口的分层视觉
Transformer
MSA Multi-Headed Self-Attention 多头自注意力模块
LN Layer Normalization 归一化
MLP Multilayer Perceptron 多层感知机
DICOM Digital Imaging and Communications in
Medicine 医学数字成像和通信
FLOPs Floating-Point Operations Per Second 每秒浮点运算次数
PN Parameter Number 模型参数量
TT Testing Time 测试时间
CCA Canonical Correlation Analysis 典型相关性分析
MCMS Multi-Level Cross-Modal Similarity 多级跨模态相似性
KCCA Kernel Canonical Correlation Analysis 核典型相关性分析
DCCA Deep Canonical Correlation Analysis 深度典型相关性分析方法
SMLN Semi-supervised Multi-modal Learning
Network 半监督多模态学习网络
SCMB Semi-supervised Cross-modal Memory Bank 半监督的跨模态记忆库
RKHS Reproducing Kernel Hilbert Spaces 再生核希尔伯特空间
RAFS Retrieval-based Adaptive Fusion Strategy 基于检索的自适应融合策
HRGR-Agent Hybrid Retrieval-Generation Reinforced
Agent 混合检索-生成增强代理
KERP Knowledge-driven Encode、Retrieve、
Paraphrase 知识驱动编码、检索、解译
LRCN Long-Term Recurrent Convolutional
Network 长期循环卷积网络
BLEU Bilingual Evaluation Understudy 双语替换评测
METEOR Metric for Evaluation of Translation with
Explicit Ordering 显式排序的翻译评估指标
ROUGE_L Recall-Oriented Understudy for Gisting
Evaluation 基于召回的机器翻译评价
TF-IDF Term Frequency-Inverse Document
Frequency 词频-逆文档频率
 
第 1 章 绪论
随着医学成像设备的完善,大型医学影像数据集的可用性日益增加,正推动 医学影像智能化分析及诊断的发展。医学影像分析及诊断是根据 X 射线、磁共 振成像(Magnetic Resonance Imaging, MRI)、电子计算机断层扫描(Computed Tomography, CT)等医学影像,分析医学影像的视觉特征,进行分类、分割、目 标定位等任务。除此之外,医学影像分析及诊断还探索影像深层语义特征,结合 自然语言,实现医学影像的文本生成任务。本文主要研究医学影像的诊断分类和 基于检索的文本生成,旨在给定X射线、MRI、CT等医学影像,实现诊断分类, 并且结合检索文本生成相应的文本描述。该技术可以帮助医生快速、准确地分析 医学影像,提高诊断效率及准确性,对早期疾病的预防和治疗也有重要意义。当 前医学影像数据集相对较小,同一病灶下不同阶段的影像差异性较小,影像和文 本之间存在异质性差异,以及分析过程需要大量专业医学知识等,使得当前医学 影像分析及诊断算法仍难以做出精确的诊断和生成高质量的文本描述。本文在自 主构建医学影像数据集的基础上,一方面利用具有高分辨率的CT影像数据,解 决影像数据差异小的问题,展开医学影像的诊断分类研究;另一方面,研究跨模 态检索模型,借助宝贵的医学数据资源,检索与医学影像最相关的文本,之后结 合文本生成模型,展开基于检索的文本生成研究。具体地,本章首先阐述医学影 像分析及诊断的研究背景与意义,然后总结并归纳现有的研究,最后介绍本论文 的研究工作和各章节的内容安排。
1.1研究背景与意义
医学成像是利用各种成像方式来创建人体内部器官、组织和骨骼的视觉表征 的技术。早在19世纪80年代,物理学家威廉•康拉德•伦琴发现了 X射线[1], 第一次显露出手的骨骼的造影,这为医学影像分析及诊断奠定基础。 20 世纪 70 年代,阿兰•麦克莱德•科马克等人引入CT技术[2],该项技术可围绕人体的某 个部位进行断面扫描。由于扫描时间快、图像分辨率高, CT 影像常用于医学影 像分析及诊断。之后,1982年,MRI技术[3]也开始用于临床。MRI借助静磁场 和射频磁场反映人体器官失常和早期病变,由于 MRI 对软组织具有很好的分辨 力,常应用在运动相关伤害的诊断上。随着技术持续进步,超声成像[4(] Ultrasound, US)、放射性核素显像[5]等医学影像不断积累,进一步丰富医学影像数据。医学 影像可以提供有关器官、组织、细胞结构等影像信息,辅助医生识别异常,有助 于诊断疾病和监测治疗进展。
早期的医学影像分析及诊断方法主要基于人工分析,放射科医生或主治医生 需要对图像进行全面的理解。如图 1-1,当医学成像设备给出患者影像时,首先 需要助理医师或见习医师阅读影像,给出详细的描述和初步的诊断。之后,上级 医师(一般为放射科主任或主治医师)进行审核,若患者存在疑难杂症,该影像 统一提交上级医师进行集体讨论,最终给出文本描述及诊断结果。然而,人工分 析及诊断过程复杂,审核程序多,不仅耗时,并且极易融入医生的主观判断,同 时需要医生具备全面、完整的专业知识,不利于诊疗效率和准确性。据了解,在 新冠肺炎疫情期间,医院肺部CT检查需求量大幅上升,每天CT检查可达1500 次,而急诊CT检查量超过总量的50%,使得放射科医生全部处于“连轴转”的 状态。面对每天上千患者与放射科医生数量有限的矛盾,诊疗系统早已不堪重负。
 
图 1-1 医学影像人工分析流程图
Figure 1-1 Flow chart of manual analysis of medical images
 
随着人工智能在医学影像上的快速发展,大量医学影像分析与诊断技术获得 显著的成果。近年来,多家企业已成功获批 AI 医疗三类证[6],其中包括安德医 智的“颅内肿瘤 MRI 影像辅助诊断软件”、百度灵医智慧的首张青光眼 AI 三类 证“眼底病变眼底图像辅助诊断软件”、微识医疗的首张实时动态AI三类证“肠 息肉电子结肠内窥镜图像诊断检测软件”等。这些医学影像人工智能辅助诊断产 品切实推动医疗器械诊疗升级,提高就诊效率,同时可长期预防慢性病的发病率。 在中国政府印发的“公立医院高质量发展促进行动通知”中,明确将人工智能辅 助诊断列入重点建设行动,并且希望建设标准化,规范化水平智慧医院。因此, 利用人工智能对医学影像数据进行深度挖掘是发展智慧医疗的重要手段。
 
本研究致力于实现智能化医学影像分析及诊断,以医学影像的诊断分类和文 本生成为需求,即给出医学影像,计算机能够协助放射科医生将医学影像包含的 语义信息转化成自然语言描述,包括单词级别的疾病诊断结果及句子级别的分析 文本,示意图如图1-2所示。尽管人工智能在医学领域上已经取得了一些成果, 但医学影像的诊断分类和文本生成研究仍是计算机与医学影像结合的新兴交叉 方向。传统的医学影像诊断需要经验丰富的医生通过观察做出诊断,因人为主观 因素容易出现误诊或漏诊。使用人工智能技术对医学影像进行诊断分类,可以缓 解基层放射科医生短缺问题,减轻医生工作负担,同时提高诊断效率,对早期发 现并预防病情也具有重要意义。此外,文本生成过程中需要大量专业知识和大量 专业术语,传统的自然图像的文本生成模型所生成的文本很难直接用在医学描述 上。若能借助人工智能加现有医学影像文本资料库,利用检索手段,可推动医学 影像的文本生成进展,让医生有更多的时间专注于临床诊疗和患者护理。综上所 述,该项研究在智能化诊疗、医学辅助教育、互联网+医疗健康平台上都具有重
两肺透亮度增高,肺纹理增著,紊乱,两肺可见多发斑点及斑 片状模糊阴影,部分病灶较前减少,其内见小囊状透光区和双 征,以右中叶、左舌段及两下肺为著;右中叶部分不张同前;
下肺背段见一小结节状密影,较前缩小,现大小
。两肺 可见数个 结,大者短 , 未
见肿大的 结。 影无异常, 未见增 。
分析
慢支炎,肺气肿
诊断结果
图1-2 医学影像分析及诊断示意图
Figure 1-2 An illumination of the medical image analysis and diagnosis
1.2研究现状
医学影像的诊断分类和文本生成的目标是:给定一张医学影像(如X-ray图 像,CT影像等),使用自然语言的形式呈现医学影像中所包含的语义信息。通常, 放射科医生会对医学影像所见内容进行描述,同时给出初步诊断结果。本小节分 别对医学影像的诊断分类和文本生成涉及到的医学数据分类技术和图像描述生 成技术进行回顾和总结。
1.2.1医学数据分类
医学数据分类是将医学数据(如病人的病历、医学影像、生物标志物等,分 为不同的类别,进行医学诊断、治疗和研究。该任务已广泛应用在医学场景中, 如疾病诊断、影像识别、药物筛选、生物标志物预测等[7]。如何学习医学数据之 间的差异性,将其划分为不同的类别,是医学数据分类的主要挑战。按照数据类 型划分,医学数据分类可分为医学影像数据分类、医学信号数据分类、医学文本 数据分类。
医学影像数据分类是通过医学成像设备获取的 CT、MRI、X 射线等数据, 利用机器学习或深度学习的方法进行疾病诊断分类的过程。例如,Kodogiannis等 人[11]提取颜色分量直方图的内窥镜图像感兴趣区域的模 理光谱特征,包括色
彩和无色领域的 理特征,并且提出一种高级模 推理模型,结合模 系统和 向基函数,融合多个基于特定特征分类器的输出实现内窥镜图像分类,最终,总 体精确率为 91.43%,每个正确分类的置信度均在 0.55 以上。随着深度学习的发 展,神经网络模型已经在医学影像数据分类上发挥重要作用。Li等人[12]利用卷 积神经网络(Convolutional Neural Networks,CNN)对不同类型的肺实质疾病进 行分类。具体地,Li等人观察到肺部图像块更像纹理,没有明显的结构,导致深 层卷积神经网络的分类效果不佳。因此,Li等人采用偏向纹理特征提取的多分类 浅层卷积神经网络模型,在“正常、肺 肿、磨玻璃、纤维化,小结节”五分类 中浅层卷积神经网络模型的性能均优于对比方法。Shekoofeh等人[13]提出一种多 实例对比学习方法,该方法对患者病历中多个基础病例图像进行图像增强,增强 前的图像特征和增强后的图像特征进行自监督对比学习,最终在皮肤病学和 部 X射线分类上的top-1准确率和平均曲线下面积(Area Under the Curve, AUC) 分别提高了 6.7%的和1.1%。Zhang等人[14]提出了一种协同深度学习模型,该模 型构建了多个卷积神经网络分别提取图像特征,在分类损失和协同损失的监督下 实现端到端的学习,在ISIC-16测试数据集中该模型的精度达86.3%。近年来, 为挖掘医学影像块之间的远距离依赖关系,Vision Transformer^] (ViT)被引入 到医学影像中。相比卷积神经网络,ViT将图像划分成一系列补丁,从而学习图 像补丁之间的复杂关系。Gheflati等人[16]利用ViT模型,将乳房US图像切分成 一系列图像块后送入Transformer编码器实现三分类任务,在乳腺US数据集上 的分类精度达90%。Wang等人[17]提出一种基于Transformer的语义相关对比学 习方法进行组织病理学图像分类,该方法集成卷积神经网络和多尺度 Swin Transformer网络,利用全局、局部相似的图像对齐方式,来学习更适合组织病理 学的图像特征,之后通过对比学习方法对病理组织学图像特征进行自监督,实现 组织病理学的图像分类。
医学信号数据分类是指对人体内部获取的 电图、脑电 (Electroencephalogram,EEG)图等生理信号数据进行分类,这些数据包含人体 生理、病理状态的信息,是医学诊断和治疗过程中不可或缺的一部分。例如,Qu 等人[18吩别利用深度置信网络(Deep Belief Network,DBN)和卷积神经网络来 提升心电信号分类识别的准确率,具体地,Qu等人首先提出一种基于小波自适 应阈值去噪的 电预处理方法,去噪后的信号分别送入到深度置信网络和卷积神 经网络,在 MIT-BIH 率失常数据库中的 电数据集上的分类准确率分别为 98.46%和98.1%。对于一个EEG数据集,该数据通过一个二维矩阵(时间和通 道,表示,包含与特定任务条件相关的在头皮上记录的电位实数值,这种高度结 构化的形式使EEG数据适合机器学习。Velu等人[19]提出基于运动前的EEG记 录对步态意图进行分类,参与者走到指定的终点位置、指向指定的位置或站在起 始位置,并使用运动开始前 700 毫秒的 EEG 记录,根据方向( 、 、前,和 动作类型(行走、指向、站立)对预期动作进行预测。之后,Velu等人利用基于 正则化的线性判别分析方法对主成分分析方法得到的特征进行分类°Pyakillya等 人[20]使用预处理的时间序列 ECG 数据,采用一维卷积神经网络和全卷积网络 (Fully Convolutional Network, FCN)层进行分类,最终分类准确性约为86%。 Amin 等人[21]使用一种基于注意力的 CNN 网络和双向长短期记忆网络 (Bidirectional Long Short-Term Memory,BiLSTM)的混合模型提取 EEG 特征实 现运动想象,该模型在BCI Competition IV 2a数据集上的准确率为97.1%。
医学文本数据分类根据医学文本数据的主题或内容不同进行分类,它能帮助 医学专家迅速找到相关信息,做出更好的决策。医学文本数据分类主要通过自然 语言处理技术实现。与常见的自然语言不同,医学文本中包含大量详细的患者信 息,如疾病状况,实验室检测、用药、副作用和治疗方案等,而且医学文本的语 法通常不规范。如何结合机器学习、深度学习技术、专家知识和数据预处理方法 高效处理信息、实现分类是研究医学文本分类的挑战。Sunil等人[22]构建两个网 络对医学文本数据进行综合分析,包括:四通道混合长短期记忆网络和具有多头 注意力的混合式双向门控循环单元网络,最终分类准确率分别为96.72%和 95.76%。Guo等人[23]提出一种区域相邻嵌入模型,该模型通过上下文权重单元组 合来自不同区域的相邻单词以获取浅层上下文信息,同时使用自注意单元学习深 层的语义理解,最终在文本CNN和BiLSTM两个下游网络中实现分类。Yao等 人[24]提出一种新的疾病分类方法,该方法结合基于规则的特征和知识引导的深度 学习特征预测少量样本的类别,其中知识来源于统一医学语言系统[25]。
医学影像数据是目前医学数据中最常见的数据。了解医学影像技术的特点和 优势,提出有效的深度学习算法对推动影像数据在临床应用和科学研究中的发展 至关重要。目前,医学影像数据分类主要针对二分类或三分类任务,缺少对同一 种疾病的不同阶段的分类研究。此外,因X射线影像分辨率低、语义信息少,现 有基于X射线的方法无法正确区分影像数据之间的差异性。为了挖掘数据在底 层结构中更多的语义信息,本文主要在CT影像上进行诊断分类研究,探索医学 影像数据的判别性,提高医学影像数据诊断分类的准确性。
1.2.2图像描述生成
图像描述生成任务是通过分析图像的视觉特征,结合图像和文本两个模态的
信息,生成相应的自然语言描述。根据生成模型的不同,图像描述生成任务可分 为基于生成的图像描述生成方法和基于检索的图像描述生成方法。
基于生成的方法利用图像的视觉特征,结合编码器-解码器模型直接生成文 本描述。在编码器-解码器的选择中,Vinyals[26]等人提出一种基于深度学习的图 像描述生成方法,该方法先后使用卷积神经网络[27]提取图像特征和循环神经网络 [28]生成相应的自然语言描述,首次创建一个基于编码器-解码器的图像描述生成 的基准模型。随着视觉模型和自然语言模型的发展,编码器和解码器的组合形式 也日益丰富,如Vision Transformer[15]+ LSTM[29],快速的基于区域的卷积神经网 络(Faster Region-based Convolutional Network, Faster RCNN) +LSTM[30]等。
为提升解码器的性能,研究人员将注意力机制与编码器-解码器模型相结合。 例如,Xu等人[31 ]首次引入注意力机制对图像的显著性区域进行关注,利用局部 区域增强的方式更准确地生成图像描述。具体而言,该方法首先计算编码器输出 的图像特征图与 LSTM 解码器当前时刻的隐藏层状态单元之间的注意力权重, 之后,结合注意力权重与图像特征图生成具有上下文信息的加权特征向量,然后, 该方法结合加权特征向量和 LSTM 解码器当前时刻的隐藏状态单元来生成下一 时刻的输出,该输出将用于预测下一单词的概率,最终生成完整的图像描述序列。 基于注意力机制的图像描述生成方法可以在生成每个单词时自适应地关注图像 的不同区域,这有利于生成过程中对图像内容的理解,增强模型的可解释性。然 而,基于注意力机制的方法过度依赖输入的图像特征图,当图像质量较低时,生 成的描述将会受到影响。
此外,研究者们已经将强化学习和知识图谱引入到编码器-解码器基准模型 中。例如,Hou等人[32]基于胸部X射线图像,提出一种基于对抗强化学习文本 生成方法,该方法主要考虑诊断准确性和语言流畅度两个方面。具体地,该方法 计算准确率的判别分数和流畅度的判别分数,分别评估是否涵盖关键的 部区域 信息和是否符合专业医生口吻,之后将二者加权分数作为“奖励”,通过强化学 习来训练解码器oLiu等人[33]在不依赖成对的图像-文本数据的情况下提出一种基 于知识图谱自编码器方法,从而生成连贯的医学影像文本描述。具体地,知识图 谱自编码器由一个预构建的知识图、一个知识驱动的编码器和一个知识驱动的解 码器组成。知识驱动的编码器通过公共映射函数将图像和文本投影到同一潜在空 间中,之后通过知识驱动的解码器生成文本。
基于检索的方法根据已有的图像和文本进行多模态学习,建立检索库,之后 通过预定义的检索库辅助图像生成文本。随着检索算法的不断完善,基于检索的 图像描述生成方法已有显著进展。在这些方法中,有研究人员认为图像的描述可 以直接由描述库中检索到的描述决定。Ordonez等人[34]计算查询图像与大型图像 描述网络集合之间的全局相似度,对查询图像最相关的匹配图像进行检索,最终 将匹配图像对应的描述转移到查询图像上。仅使用检索文本的方法能够快速的生 成查询图像的文本,但这类方法适用于图像之间差异性大的数据集,否则检索到
的文本可能是同一个。
此外,研究人员在编码器-解码器模型的基础上,考虑如何从数据库中检索 类似的描述并使用这些描述指导最终生成的文本。例如,Fang等人[35]提出一种 基于检索的卷积神经网络和循环神经网络混合的图像描述生成方法,该方法在训 练集中检索与输入图像最相似的训练集图像,之后将检索到的训练集图像的描述 和输入图像特征同时送入解码器中。早在 ImageCLEF 2017[36]关于生物医学文献 的图像分析任务中,参与者就提出基于检索的方法来识别高度相关的图像,并且 使用检索的诊断文本作为候选文本生成的结果。其中,Liang等人[37]使用多个卷 积神经网络和长短期记忆的端到端网络分别学习图像和不同长度的文本的特征 表示,之后利用支持向量机来学习生成文本的特征表示。与此同时,Liang等人 通过最近邻方法在数据集中检索与图像相似的文本特征,最终检索文本特征和生 成文本的特征表示聚合作为最终的预测结果。Ramos等人[38]将图像和图像检索 到的文本同时输入到预训练视觉-基于Transformer的双向编码器表示 (Bidirectional Encoder Representation from Transformers,BERT)模型,之后利生 成型预训练 Transformer (Generative Pre-trained Transformer, GPT)网络对多模 态数据进行解码来生成文本。
基于生成的方法,其优点在于可以自动化地生成文本,并且适用于新类型的 图像;其缺点在于生成的文本可能存在不准确或不连贯的问题,并且在生成过程 中需要大量的训练数据来训练模型。基于检索的方法,其优点在于生成的文本通 常质量高和具有一致性,生产速度较快;其缺点在于该类方法在建立检索库时需 要大量人力投入,对于新类型的图像,需要手动添加新的文本,此外,图像之间 的差异性对模型性能有很大的影响。在文本研究中,医学文本中包含大量的医学 专业术语,仅使用生成模型生成的文本存在不标准、不连贯的情况。
 
 
 
 
 
图1-3 研究内容框架
Figure 1-3 Research Framework
因此,本文使用基于检索的方法对生成的文本进行优化和改进,使文本结构 更加规范化和标准化,可以有效地提高生成文本的准确性和连贯性。而且,检索 文本的使用也可以避免生成模型因样本量少,样本分布不均等导致的性能不佳的 问题。
1.3本文主要工作
本文研究医学影像的诊断分类和基于检索的文本生成,探索医学影像的语义 信息,对影像数据进行分类诊断,同时利用自然语言描述医学影像,使影像更具 有可解释性。在现有研究中,存在以下问题:1)在医学影像的诊断分类上,相 同疾病的不同阶段的影像数据差异性小,分类模型很难实现早期预防;2)在跨 模态检索的理论研究上,跨模态数据之间的异质性差距影响跨模态检索性能,医 学领域缺少对检索模型的探索,而检索性能影响生成文本的质量;3)检索文本 和生成模型融合策略不佳,导致生成文本中存在大量与影像不相关的冗余信息, 影响生成文本的质量。为解决以上问题,本文展开四个研究工作,整体的研究框 架如图1-3所示。
(1)如何改善图像分辨率,在疾病诊断分类中设计更具判别性的模型是解决 影像差异性小的重点。本文研究利用高分辨率的CT影像,提出基于Transformer 的分解编码器方法,充分学习CT切片数据之间的交互信息,探究影像数据的判 别性问题。
(2)如何利用跨模态数据之间的相关性,减小跨模态数据之间的异质性差距 是跨模态检索的一个重要挑战。本文构建一个统一视角下的多级跨模态相似性网 络,通过整合相同模态、不同模态之间的多级相似性,学习一个公共空间,从而 减小异质性差距。
(3)在缺少类别标签时,如何学习无标记数据的特征表示,以减小异质性差 距是半监督跨模态检索的一个关键。本文构建一个半监督的跨模态记忆库来学习 无标记数据的伪标签,最终利用伪监督探索无标记数据之间的相关性,从而学习 一个公共空间来减小异质性差距。
(4)如何设计检索文本和生成模型之间的融合策略是基于检索的医学影像文 本生成任务的重点。本文采用自适应融合方式,动态计算检索得分,减少融合过 程中的冗余信息。
本文主要内容包括:1)基于Transformer分解编码器的尘肺3D CT分类方 法;2)基于统一视角下的多级跨模态相似性的跨模态检索方法;3)基于半监督 的跨模态记忆库的跨模态检索方法;4)基于检索的自适应融合策略的医学影像 文本生成方法。第1 个工作用于医学影像的诊断分类。第2、 3个工作用于跨模 态检索模型的理论研究,当前研究缺少对医学影像-文本检索模型的探索,而自 然图像-文本检索模型已经取得一定成果,本文学习自然图像-文本检索模型,探 索能够提高检索模型性能的因素,最终将自然图像-文本检索模型中重要的思想 应用医学影像-文本检索任务中。第4 个工作用于医学影像的基于检索的文本生 成。具体内容如下:
(1)基于Transformer分解编码器的尘肺3D CT分类方法
与传统的X射线影像相比,CT影像能够提供全方位的影像信息,包括病变 区域的形态、大小、位置等特征,研究者们已经利用CT影像解决影像差异性小 的问题。然而,现有方法将CT划分为若干个CT切片送入卷积神经网络中提取 特征或将CT看成一个整体送入三维卷积神经网络中,因涉及大量卷积运算,计 算成本较高。除此之外,现有方法无法实现切片之间的远程交互,影响分类模型 的性能。本文提出一种基于Transformer分解编码器的方法,由两个Transformer 编码器组成。第一个 Transformer 编码器对同一 CT 切片内的特征图进行编码, 实现切片内交互。第二个Transformer编码器对不同CT切片间的特征图进行编 码,实现切片间交互。
(2)基于统一视角下的多级跨模态相似性的跨模态检索方法
近年来,研究者们通过跨模态数据之间的相关性来学习一个公共空间,试图 将不同模态的数据转换到这个公共空间中实现跨模态检索。然而,现有方法主要 在学习特征之间相关性时,很少关注跨模态数据之间的局部交互。除此之外,在 学习标签相似性时,现有方法将公共空间中的特征表示转换到标签空间中,分类 器累积的偏差影响检索模型的性能。为了整合多级跨模态相似性,本文构建一个 基于统一视角下的多级跨模态相似性模型,该模型整合跨模态数据之间的局部相 似性和全局相似性,增强跨模态数据在细粒度上的信息交互。之后,通过公共特 征表示和标签之间的相似性来获取跨模态数据之间的一对多的对应关系。
(3)基于半监督的跨模态记忆库的跨模态检索方法
半监督的跨模态检索方法旨在使用少量有标记数据和大量无标记数据来学 习公共空间。无标记数据具有更高的数据量和更复杂的数据分布,考虑如何有效 地利用无标记数据的相关性提高模型的性能是半监督跨模态检索的难点之一。由 于无标记数据缺少类别标签,现有方法的主流方向是利用无标记数据相关的数据 的特征分布来学习无标记数据的特征表示。这类方法通常使用K近邻(K-Nearest Neighbors,KNN)寻找与无标记数据相关的数据,由于每个无标记数据都预定义 K个相关的数据,导致该过程存在错误相关。本文构建一个半监督的跨模态记忆 库来学习无标记数据的伪标签。对于一个无标记数据,该记忆库存储来自另一个 模态数据的两种表示:公共空间中的特征表示和标签空间中的类概率。之后,将 特征表示之间的亲和度作为权重,对类概率施加权重以构建伪标签。随后,在跨 模态记忆库中,通过增强跨模态数据之间的相关性和有标记数据之间的相关性对 伪标签进行修正。
(4)基于检索的自适应融合策略的医学影像文本生成方法
基于检索的医学影像文本生成是利用检索文本完成文本生成过程。在融合过 程中,现有方法将检索到的文本特征和图像一起输入到生成模型中,或是简单的 将检索到的文本和生成的文本相结合,这些方法的融合过程复杂,融合的检索文 本会携带与影像不相关的冗余信息,而且相似度高的X射线影像所生成的文本 之间相似度也很高。本文提出一种自适应融合策略,根据检索文本和解码器当前 隐藏单元来获取检索得分,实现动态融合过程。除此之外,本文利用预训练的跨 模态检索模型获取公共空间中的图像特征和文本特征用于生成模型,以减小生成 模型中不同模态数据之间的异质性差距。
1.4创新之处
本论文从医学影像诊断分类和基于检索的医学影像文本生成任务出发,研究 医学影像分析及诊断技术。针对现有相关方法存在的问题,提出对应的解决方案, 提高医学影像分析及诊断的准确性。具体创新之处包括:
(1)本文构建高分辨率的尘肺CT数据集,利用完整的3D CT切片数据学习 影像的特征表示;构建一个基于Transformer分解编码器模型,首次应用在3D CT 影像的尘肺病分类中,同时学习CT在切片内和切片间的信息交互,提高模型的 判别性;除此之外,在Transformer分解编码器的特征输入上,考虑在公共肺部 数据集LIDC-IDRI上预训练一个3D卷积自编码器,使用其编码器提取具有底层 空间结构的CT特征,解决样本量少影响transformer性能的问题。
(2)本文构建一个统一视角下的多级跨模态相似性的跨模态检索模型,整合 多级跨模态相似性,包括相同模态间的全局-局部相似性,跨模态全局相似性、局 部相似性和语义相似性;在计算语义相似性时,本文直接在公共空间上衡量公共 表示和标签向量之间的相关性,避免公共表示转换到标签空间中分类器累积的偏 差。
(3)本文构建一个半监督的跨模态记忆库,学习无标记数据的伪标签,从而 实现伪监督;在跨模态记忆库中,本文增加图像-文本对之间的亲和度和具有相 同类别标签的数据之间的亲和度,以提高伪标签学习的准确性。
(4)本文汇总包含8种肺部疾病的CT影像文本描述数据集,同时加入健康 对照组;本文提出特定数据集下的跨模态检索模型,并将检索模型中的图像公共 表示作为生成模型的解码器的输入以减少文本生成过程中的模态差异性;本文提 出基于检索的自适应融合策略,利用检索文本和生成模型中隐藏状态特征之间的 相关性,计算检索得分,从而自适应融合检索文本和生成文本。
1.5论文结构安排
本文共有六章,详细安排如下: 第1章:绪论。首先介绍医学影像分析及诊断的研究背景及意义,之后总结 了论文研究涉及到的图像描述生成和医学数据分类相关的研究工作,最后介绍了 本论文的主要工作以及创新之处。
第2章:基于Transformer分解编码器的尘肺3D CT分类方法。本章介绍基 于Transformer分解编码器的分类模型,该模型在尘肺CT和COVID CT等不同 疾病诊断数据中进行了验证,证明了其有效性。
第3章:基于多级跨模态相似性的跨模态检索。本章详细介绍了包含多级跨 模态相似性的统一视角的网络,实验结果表明所提出的方法可提高检索模型的性 能。
第4 章:基于半监督的跨模态记忆库的跨模态检索。本章详细介绍学习伪标 签的跨模态记忆库,实验结果表明在半监督学习中跨模态记忆库学习无标记数据 的语义信息的有效性。
第5 章:基于检索的自适应融合策略的医学影像文本生成。本章详细介绍计 算检索得分的过程,从而实现检索文本自适应融合到最终生成文本中,并在CT、 X-ray 等不同模态的医学影像数据文本生成数据集上验证了模型的可行性。
第6 章:结束语。本章对前文工作进行总结,并对未来进一步的研究进行展 望。
第2章 基于Transformer分解编码器的尘肺3D CT分类
2.1引言
尘肺是一种全球职业性呼吸道疾病,主要因吸入二氧化硅引起[40][39]。一般情 况下,接触矿物粉尘(例如石棉和二氧化硅粉尘)或人造石引发矽肺病史的人可 能在数十年后才会患上尘肺病[41]。最近的研究结果表明,在某些情况下,尘肺病 可在短时间内形成[42]。鉴于该疾病不可逆转且无法获得有效治疗,早期发现尘肺 对采取预防措施和延缓病情发展至关重要。
长期以来,胸片(Chest Radiograph,CR) 一直被用作筛查尘肺的标准工具, 主要基于国际劳工局(International Labor Office, ILO)发布的国际标准[44]进行诊 断。此前,肺部诊断主要基于纹理分析方法[45],通过探索左右肺叶的上、中、下 区域的感兴趣区域进行人工提取特征。之后,这些特征经分类器进行疾病诊断分 类,包括多层感知机[48]、支持向量机[49]和随机森林[50]等。随着深度学习的发展, 研究者们使用卷积神经网络对肺部疾病展开深入研究,并取得不错的结果,这为 基于深度学习的尘肺CT诊断奠定基础。例如,Wang等人[51 ]基于ImageNet [52]数 据的预训练 ResNext50[53] ( Suggesting the Next Dimension,ResNext)网络提出一 种COVID网络(COVID-Net)。COVID-Net由轻量级的残差投影-扩展-投影-延 伸(projection-expansion-projection-extension,PEPX)模块组成,最终,COVID- Net 的准确率可以达到93.3%。Zheng等人[54]采用一系列卷积神经网络模型,例 如 LeNet[55]、ALexNet[56]和 GoogLeNet [57] (Inception-v1 和 v2)。之后,他们使用 卷积核分解的概念对模型进行重构。最终,当训练集的数据增加到 1600时,优 化模型GoogLeNet-CF可以实现约96.88%的精度。Wang等人[58]汇总一个包括 923张尘肺病CR图像和958张正常CR图像数据集,并且使用GoogleNet [12] (Inception-v3)模型检测尘肺病,最终AUC达到87.80%。Devnath等人[59]使用 两个卷积神经网络提取尘肺病CR图像中的特征,包括未经预训练的DenseNet [60]和预训练CheXNet[61]o混合CheXNet在尘肺病自动检测的准确率达到92.68%。 上述CR方法具有以下特征:1)以ImageNet[52]预训练模型作为模型训练的主干 网络;2)模型适用于二分类或三分类。尘肺病通常分为几个阶段,早期CR图 像差异很小,因此,mageNet[52 ]预训练模型不能很好地完成尘肺病的多分类任务。
胸部计算机断层扫描(Computed Tomography,CT)具有更高的分辨率,包含 更多有利的诊断信息,薄层CT已广泛用于评估肺部疾病,通常在疾病诊断中比 CR更敏感。例如Bhandary等人[62]在CT影像中提供两种特征提取方法,包括改 进的AlexNet技术和主成分分析技术,之后结合经改进的AlexNet技术和手工制 作提取的特征,并且利用支持向量机预测肺部肺炎和癌症。结果表明,该方法在 LIDC - IDRI数据集[63]上的准确率为97.27%。为了充分利用CT影像数据,研究 人员利用3D CT影像实现肺部疾病的分类。例如,Fallahpoor等人[64]组合一系列 3D卷积神经网络[65]进行新冠肺炎检测,包括3D残差神经网络(Residual Network, ResNet)、3D 密集连接卷积网络(Densely Connected Convolutional Networks, DensNet)等,最终系列3D卷积神经网络在Iranmehr和Moscow数据集上的准 确率分别达到91%和83%。本章尘肺病的分类研究借鉴上述研究,然而,现有方 法涉及大量的卷积操作,极大提高了计算成本,并且卷积神经网络无法实现长距 离远程交互。
ViT[15]由Transformer编码器组成,一般将图像补丁序列送入ViT。与卷积神 经网络相比,ViT在捕获补丁之间的长距离依赖性方面十分有效,并且计算成本 更低阿。因此,基于ViT的方法在肺部疾病方面表现优异。例如,Gao等人[68]将 3D CT影像分割为多个2D CT影像,并提出一种基于注意力模型和DenseNet网 络的ViT方法,用来学习新冠肺炎的分类。最终,该方法的F1得分为0.76,其 表现优于F1得分为0.72的DenseNet网络。Heidarian等人[69]将3D CT影像视 为一个整体,利用Transformer进行分类,然而该方法仅考虑同一切片内的关系, 而忽略不同切片之间(切片间)的关系,不适用于尘肺病在不同阶段之间的特征 学习。
本研究考虑利用 3D CT 影像对尘肺病进行分类,以提高尘肺在不同阶段的 分类精度。为构建切片间、切片内的关系,本文构建一个基于 Transformer 的分 解编码器(Transformer-Based Factorized Encoder,TBFE)预测尘肺病分期,这是 第一个在3D CT影像上对尘肺病进行分类的深度学习研究。具体而言,TBFE由 两个Transformer编码器组成,TBFE不仅捕获切片内关系,还捕获切片间关系, 实现切片之间的信息交互。为保存更多具有底层空间结构信息,本文基于一个公 共数据集LIDC-IDRI预训练一个3D卷积自编码器,并将其作为预训练网络。之 后,利用预训练网络的编码器提取尘肺CT的特征图。除此之外,本文同时保存 同一次入院期间患者的CT和CR的信息,便于CT分级。因样本量相对较小且 不平衡(特别是患有0期的患者),本文使用焦点损失(focal loss) [70]代替经典的 交叉熵分类损失以降低样本不平衡的影响。为证明所提方法的有效性,本文还在 公开肺部疾病数据集(COVID-CT-MD数据集[71])上进行验证。
综上所述,本章的主要贡献如下:
(1)构建一个基于Transformer的分解编码器,通过结合切片内和切片间的交 互信息,对3D CT影像上的尘肺病进行分类。
(2)在尘肺数据集和COVID-VT-MD数据集上进行大量实验,实验结果表明, 该方法具有较好的性能。
2.2相关工作
鉴于本文使用Transformer模型,因此,本节将简要介绍Transformer模型的 发展趋势。
Transformer模型诞生于自然语言处理任务,2017年,Vaswani等人[72]认为 基于卷积神经网络和循环神经网络相关的模型中,关联任意两个输入或输出位置 的数据所需的参数量会随着位置距离的增加而增长,使得卷积神经网络和循环神 经网络难以学习数据的远距离依赖关系。为了解决这个问题,Vaswani等人提出 一种命名为 Transformer 的网络结构,该网络结构完全依靠自注意力机制计算输 入和输出表示。在此基础上,Devlin等人[73]提出一种Bert框架,该框架在无标 记数据上双向预训练一个Transformer,关注单词的上下文关系,经微调后在大量 自然语言任务上取得最先进的性能。受自然语言领域的启发,近年来,研究者们 已经将Transformer应用到视觉领域[74]。Dosovitskiy等人[15]利用Transformer编 码器进行图像分类,将图像拆成若干个图像块,并且以线性嵌入序列的方式输入 到编码器中,实验结果证明Transformer编码器的性能优于卷积神经网络。之后, 目标检测,图像描述生成,语义分割等视觉任务也掀起了 Transformer的热潮[76]。 除此之外,研究者们也开始探索Transformer在医学领域的应用。例如,Xie等人 [78]提出基于Transformer的运动想象脑电信号分类模型,具体地,Xie等人对每 位受试者进行 14 次跑步实验,选取 3s 和 6s 的脑电数据,并且结合 Transformer 模型和脑电信号的时域、空域特征进行分类,最终在 3s 脑电数据的运动图像四 分类上精度达 64.22%。 Hatamizadeh 等人[79]将基于移动窗口的分层视觉 Transformer ( Hierarchical Vision Transformer using Shifted Windows , Swin Transformer)[80]模型的编码器和全卷积网络(Fully Convolutional Neural Networks, FCNN)相结合来实现脑肿瘤分割。具体地,Hatamizadeh等人利用4通道的3D 多模态MRI图像,创建图像的非重叠图像块,送入Swin Transformer编码器学习 多尺度上下文信息;为了保留更多上采样中高层特征图的高分辨率细节信息, Swin Transformer 编码器的输出经跳跃连接融合多个不同分辨率的特征,提高分 割精度。因为 Transformer 能捕获长距离依赖关系,本文的研究同样基于 Transformer模型。但由于Transformer模型通常适用于大规模的数据,小数据集 上的表现弱于卷积神经网络,作为小数据集的医学影像,纯Transformer模型的 表现通常不佳。因此,在使用Transformer模型前,本文预训练一个3D卷积自动 编码器,该自动编码器的输出作为Transformer的输入,以最大程度保留影像的 底层结构信息。
2.3尘肺分级
入选受试者符合以下标准:(1)被诊断为尘肺病,图像变化符合国际劳工组 织的标准[5]; (2)完整的病历,结合胸部CR(技术质量1级)和胸部CT的合格图 像数据。排除标准为:有严重肺部疾病史(如气胸、肺结核、肺炎或肺癌),肺部 结构仍有显著改变;另一种急性/亚急性严重肺病的并发症,可能会在图像上模糊 尘肺病的特征。请注意,本文没有排除结节病、肺气肿和其他慢性结构性肺病的 病例,因为这些疾病可能与尘肺病共存。
两名经验丰富的放射科医生根据国际劳工组织(2000)《尘肺病国际射线照 相分类》[81]的指示检查CR图像,他们各自独立工作,以标记肺野的不同区域(六 个互斥子区域:右上、左上、右中、左中、右下和左下)的异常(如混浊、胸膜 斑块等被视为尘肺病的重要证据)。根据中国职业性尘肺病的诊断标准[82],这些 不同水平的注释异常将用于确定尘肺病的最终阶段。该标准将尘肺病分为三个阶 段:I、II和III。并且本文进一步将比I级标准严重程度较低的异常,并伴有粉 尘暴露史的定义为0期。审查期间的任何分歧都由第三位专家解决,他重新评估 了图像并确定异常和最终阶段。具体CR分级标准如下:
1) 正常
符合以下要求:(1)清晰肺部区域。注意,允许出现一些轻微异常(例如,长 度<3 mm的结节)。(2)肺门及纵隔未见肿大淋巴结。(3)心脏形态和肺血管正常。 (4)无胸膜异常(如胸膜斑块、胸腔积液、气胸)。
2) 0期
满足以下要求之一:(1)一个子区域出现1级小阴影。(2)两个亚区存在0/1级 的小阴影。(3)小阴影比0/1级少。
3) I期
满足以下要求之一:(1)两个或更多子区域出现1级小阴影。(2)对于接触石 棉粉尘的患者)一个分区出现1级小阴影,并伴有胸膜斑块。(3)(对于接触石棉 粉尘的人)0级小阴影;不少于两个分区存在0/1级的小阴影,并伴有胸膜斑块。
4) II 期 符合下列条件之一:(1)在4个以上的分区域,小混浊呈2级丰富。(2) 4个
子区域均为3级大量小混浊。(3)(接触石棉粉尘者)4个以上亚区1级大量小混浊, 部分心脏边界或膈表面有胸膜斑块。(4)(对于暴露于石棉粉尘的患者)在四个亚区 出现2级丰富的小混浊,并存在胸膜斑块,累及部分心脏边界或膈表面。
5) III 期
满足以下要求之一:(1)最大尺寸超过20mm且最短尺寸超过10mm的大不 透明度。(2)在四个以上具有小不透明度聚集的亚区域中出现3级小不透明度。⑶ 在四个以上的亚区域中出现3级小阴影,具有较大的不透明度。(4)(对于暴露于 石棉粉尘的患者)在四个以上的分区中出现3级小阴影,存在单个/多个胸膜斑 块。单个胸膜斑块的长度或多个胸膜斑块的总长度超过侧胸壁投影的一半或涉及 心脏边界的胸膜斑块。
 
 
图2-1基于Transformer分解编码器的框架示意图
Figure 2-1 General framework of Transformer-based factorized encoder for 3D CT image
diagnosis
注:该框架对任意一个原始CT图进行预处理,提取仅包含肺部的CT影像;之后,将 CT送入预训练的3D卷积自动编码器的编码器中,提取具有底层空间结构信息的
CT特征图;然后,分解该CT特征图为系列CT切片特征图,并送到Transformer 分解编码器中,实现切片内和切片间的交互。最后,使用多层感知器MLP对CT 图像进行分类。
本文构建一个基于 Transformer 分解编码器框架。该框架包含三个部分,如 图2-1所示。给定一个CT数据集X = {%『,%}:],述是CT影像的灰度值, {0,1,2,…,b}是对应的类别,b是类别总数。首先,本文将CT影像好送入预处理 模块(肺部分割)。之后,本文将预处理过的CT影像勺依次送入到一个预训练3D 卷积自动编码器的编码器和一个基于 Transformer 的分解编码器中。最终,该模 型预测一个类别向量店。
2.4.1肺部分割
 
 
 
图2-2 肺部分割的框架示意图
Figure 2-2 General framework of lung segmentation
在医学影像诊断中,CT影像一般保存为医学数字成像和通信(Digital Imaging and Communications in Medicine, DICOM)格式,存储肺部及周围组织的所有信 息。为了避免周围组织信息对分类结果的影响,本文在训练前对CT影像进行一 些预处理,如图2-2所示,本文分割肺部来提高CT影像的分类性能。具体得, 本文分别在每个DICOM文件中获得CT扫描的灰度值打、重缩放斜率时和重 缩放截距时。之后,本文将灰度值妤转换为CT值如下:
对=妤*时+对 (2-1)
根据表2-1,本文保留CT值为(-1000HU, 200HU)以区分肺和周围组织信息。 此外,还使用标记控制的分水岭变换[83]来分割CT影像中每个切片的肺实质。
表2-1不同组织或器官的Hu值
Table 2-1 Hounsfield unit in different materials
组织或器官 Hu值范围
空气 -1000
-500 to -200
脂肪 -200 to -50
0
血液 25
肌肉 25 to 40
骨骼 200 to 1000
 
最终,本文将预处理的CT影像勺e rcxsxwxh输入到预训练的3D卷积自编 码器中。
2.4.2卷积自编码器
由于CT数据集小且每个CT的切片数量较多,应用迁移学习提取CT特征 图有助于获取医学影像中的有用信息,而3D卷积自动编码器[84]可以最大限度地 探索用于特征提取的空间结构信息,因此本文首先在预处理的LIDC-IDRI [63]上 预先训练3D卷积自动编码器,并使用重构损失作为预训练模型的损失函数。如 图2-2显示3D卷积自动编码器的框架,包含以下模块:(1)编码器:4个3D卷 积层(其中Conv3D1、Conv3D2. Conv3D3.和Conv3D4的输出通道数分别为16、 32、96、1,它们的核大小分别是3、3、2、1); 4个最大池化层(其中Pool3Di、 Pool3D2、Pool3D3、和Pool3D4的核大小分别为2、3、2、2,并且它们的步长分 别是2、3、2、2); 1个全连接层。(2)解码器:1个全连接层;4个3D反卷积 层(其中DeConv3D1. DeConv3D2. DeConv3D3、和DeConv3D4的输出通道数分 别为96、32、16、1,它们的核大小分别是1、2、3、3);4个最大反池化层(其
 
中unPool3Di>、rnPool3D2、unPool3D3、和unPool3D4的核大小分另U为 2、3、2、 2,并且他们的步长分别是2、2、3、2)。
之后,将尘肺数据输入到上述预训练的3D卷积自动编码器中,并且固定编 码器的权重参数。最终,保存编码器的最后一个卷积层的输出,将其作为尘肺数 据的CT特征图用于Transformer分解编码器。为了表述方便,提取的CT特征图 定义为可={#}:] g RCoXSoXWoXH。,其中C0 = i是通道数,So是切片数量,v/e 是第丿•个切片的特征图。
 
注:3D卷积自动编码器包括一个编码器和一个解码器,本文使用预处理后的LIDC- IDRI数据集[142]对该框架进行训练。其中原始CT图和重构后的CT图使用重构 损失进行约束。黑色箭头方向表示“编码过程”而蓝色箭头方向表示“解码过 程”。对于重构损失,“M”指的是LIDC-IDRI数据集的数据量。
2.4.3基于 Transformer 的分解编码器
最近,许多研究人员已经证实 Transformer 在视觉模型中的潜力,对于视觉 Transformer 模型,研究人员将图像划分成一系列图像块,将其作为输入送到 Transformer 编码器中,该编码器捕获图像块的远程关系并动态计算自注意力权 重以进行自适应建模。本文提出一种基于Transformer分解编码器的3D CT分类 方法,以学习3D CT影像的同一切片(切片内)和不同切片(切片间)之间的交 互信息,它包括两个串联的Transformer编码器模块。第一个Transformer编码器 探索同一切片中若干个切片块转换的标记之间的交互,学习每个切片的潜在表示; 第二个 Transformer 编码器将每一个切片作为一个整体块,对不同切片之间的交 互进行建模。如图2-1所示,来自预训练模型输出的图像特征图vi = {v^ e ^CoXSoXWoXHo被划分成若干个切片特征图。分解编码器的具体细节如下:
第一个Transformer编码器:对于一个切片特征图#,首先提取P个非重叠的 特征块将其馈送到全连接层中。之后,将所有切片块展平为“令牌” (token) T? e Rl0Xh^,其中“ = ^0x^00是切片“令牌"的长度。输入到第一个Transformer编
0 h w
码器的token序列Z?如下:
Zl = [zilSJ;Ti]+El (2-2)
其中z"lSj是第丿•切片特征图的可学习的分类“令牌”,并且该位置通过第一个 Transformer编码器的输出作为最终的切片特征表示。e]是第i切片特征图的可学 习位置嵌入。
最后,tokens序列Z?被送到第一个Transformer编码器,该编码器包括多头 自注意力模块 ( Multi-Headed Self-Attention , MSA ) [72]、归一化模块( layer Normalization, LN) [85]和多层感知机(Multilayer Perceptron,MLP)模块,最终输出 特征讨如下所示:
Z( = MSA(LN(ZI)) + Z( (2-3)
pl = MLP(LN(z] )) + Z[ (2-4)
第二个Transformer编码器:具体地,本文合并由第一个Transformer编码器 学习到的所有CT切片特征,以光栅扫描顺序将这些切片特征细分为“令牌”序 列心e RSM。输入到第二Transformer编码器的“令牌”序列如下:
Ki = [k严;Pi] + Pt (2-5)
其中kfs是可学习的分类tokeno Pi是可学习的位置嵌入。
之后,将“令牌”序列送入第二个Transformer编码器,模型分类输出兀如下 所示:
K; = MSA(LN(Kj) + 治 (2-6)
rt = MLP(LN(K; )) + K; (2-7)
最后,使用MLP头来预测类别耳,用于CT分类。具体地,本文将分解编码 器的输出兀送到归一化层和两个全连接层中,如下所示:
li = softmax(MLPhead(rd) (2-8)
其中softmax是一种激活函数。
2.4.4损失函数
作为交叉熵损失的扩展,本文使用焦点(focal)损失[70]进行CT分类,通过 测量难以分类和易于分类的样本对总损失函数的贡献来解决类别失衡问题。为了 便于表示,预测的标签向量定义为li = %,l2i,…,lbi] e Rb。如果第i实例属于第 m类(真正的标签% = m),则血=lmi。首先计算权重因子如下:
nm
at = Norm(1 —盲) (2-9)
其中,九和为第m类样本总数,N为样本总数,Norm表示对每个类别的权重 因子进行归一化。
最终,焦点损失定义如下:
N
L =肓〉,—ai(1 — ui)Y log(ui)
i=1
其中(1 —均卩是调制因子,y=2是可调聚焦参数。
表2-2 研究目标的粉尘暴露特性
Table 2-2 Characteristics of dust exposure of the study subjects
正常 阶段0 阶段I 阶段II 阶段III
接触粉尘类型(n, %)
煤炭 NA 18 (51.4) 17 (28.3) 11 (25.6) 29 (34.5)
混合硅或纯硅 NA 12 (34.3) 35 (58.3) 22 (51.2) 40 (47.6)
焊工 NA 3 (8.6) 2 (3.3) 0 (0) 1 (1.2)
其他 NA 2 (5.7) 6 (10.0) 10 (23.2) 14 (16.7)
暴露时间(中位数,IQR)
(年) NA 10 (8.5-20) 10 (6.75-20) 10 (6-19.75) 10 (5-13.5)
注:“煤炭”表示每个阶段的粉尘暴露类型为煤的患者数以及占该阶段患者总数的百分 比;“混合硅或纯硅”表示每个阶段的粉尘暴露类型为混合硅或纯硅的患者数以及 占该阶段患者总数的百分比;“焊工”表示每个阶段从事焊工的患者数以及占该阶 段患者总数的百分比;“其他”表示每个阶段其他类型的粉尘暴露史的患者数以及 占该阶段患者总数的百分比;“暴露时间(中位数, IQR) (年)”表示每个阶段患者粉 尘暴露时间范围。
2.5实验结果与分析
2.5.1数据集
本研究采用的尘肺病数据集(CR和CT),该数据集被医院伦理委员会批准, 所有入选被试者均放弃CR和CT的知情同意。本文的研究使用两个数据集。第 一个数据集是343名受试者,包括121名(35.3%)健康对照组、 35名(10.2%) 0 期、60 名( 17.5%) I 期、43 名( 12.5%) II 期和 84 名(24.5%) III 期尘肺病患 者。患者的具体信息如表2-2和表2-3所示。此外,图2-4对尘肺不同阶段的CR 和CT影像进行比较。
 
为了验证本文方法也适用于其他肺部疾病,本文对公开数据集 COVID-CT- MD[71]进行验证。其中COVID-CT-MD数据集包含169名新冠肺炎阳性患者、60 名其他肺炎患者和76名正常患者。
表2-3 研究目标的性别和年龄特性
Table 2-3 Characteristics of gender and age of the study subjects (n = 3 3)
总数(男性) 年龄(均值 ± 标准差) (年)
正常 121 (34) 36.97 ± 9.14
阶段0 35 (35) 49.68 ± 9.97
阶段I 60 (60) 48.95 ± 7.50
阶段 II 43 (43) 46.02 ± 11.88
阶段 III 84 (84) 51.66 ± 9.55
注:“总数(男性)”表示每个阶段的患者总数以及男性患者人数;“年龄(均值 ± 标准 差) (年)”表示每个阶段的年龄范围。
 
 
 
 
图2-4尘肺在不同阶段的CR和CT对比图
Figure 2- Comparisons of CR and CT images corresponding to different stages of
pneumoconiosis
注:(a): 0期尘肺,DR图像(CR)上两个分区出现0/1级小阴影;(b):薄层CT扫 描显示少量分布稀疏的微模块;(c): I期尘肺,DR图像上超过两个亚区出现1级 小阴影;(d):薄层CT扫描显示分散、对称分布的微模块;(e):尘肺病II期, DR图像(CR)上超过四个亚区域出现2级小阴影;(f):薄层CT扫描显示广泛、 对称分布的微模块;(g):尘肺病III期,DR图像中上部区域双侧大阴影;(h): 薄层CT扫描显示双侧上叶进行性大量纤维化病变。
 
2.5.2评价指标
依据真阳性(True Positive,TP)、真阴性(True Negative,TN)、假阳性(False Positive,FP)和假阴性(False Negative,FN),本文使用几种统计措施[86]评估所 有训练模型的性能。其中包括准确率(正确分类的病例的百分比)、召回率(正 确预测为阳性的真实阳性案例的百分比,精确性(预测阳性病例中正确为真实阳
性的百分比)、F1得分(精确性和召回率的调和平均值)。具体公式如下:
 
其中对于召回率Recall、精确性Precision和F1得分,本文首先对每个类别的TP、
FP、FN和TN进行统计。然后本文计算了每个类别的Recall、Precision和F1值。
最后,将所有类别的评估结果相加并平均作为最终结果。
2.5.3实验细节
本文使用ADAM优化器[88],以10-4的学习率和(0.5 - 0.999)的指数衰减率 进行训练,迭代次数为50。此外,本文应用了10折交叉验证[89],包含不同训练 集和测试集的十组数据,用于训练模型并计算测试精度。在每次划分数据集时, 90%的数据用于训练,剩下 10%用于测试。最终,本文选择10组测试结果的平 均值作为最终结果。
CT和CR采集过程:本文通过平板探测器,使用125 kV的高压技术和自动 mAs (曝光时间小于0.1 s)、180 cm的源到图像距离和15:1的散射抑制栅格(完 全吸气屏息),对每个参与者进行后-前投影数字胸部x光检查(德国西门子)。 数字照片使用数字射线照相(DR)工作站(Crealife technology,中国)显示。使 用多层螺旋CT (西门子Somatom,德国)从肺尖到肺底采集CT影像,管电压 为120 kV,管电流为250 mAs,俯卧位时螺距为1.0,呼吸保持正常。使用高分 辨率算法(肺核)对切片厚度为1.5mm的薄层CT影像和切片厚度为5mm的厚 截面CT影像进行图像重建,减少了同侧肺的视野。这些图像经过校准,以满足 医学数字成像和通信的标准。
2.5.4对比方法
为了与尘肺CT数据集上的分类任务保持一致,本文对常用的3D-CNN模型
的分类层进行修改,并作为对比方法[64,186],包括ResNet18、ResNet34、ResNet50、
DenseNet121、DenseNet 169、ResNext50、ResNext101、SE-ResNet50、SE-ResNet 101、SE-ResNext50和SE-ResNext101。本文将尘肺CT相对应的CR图像应用到 两种CR方法(CheXNet[61]和COVID-Net[52])中进行对比。
2.5.5对比实验
为了全面评估本文方法,本部分分别进行定量分析和定性分析。
2.5.5.1定量分析
为了确保对比实验的公平性,在所有模型进行训练之前都进行了肺分割的预 处理操作。表2-4和表2-5分别显示在尘肺数据集上本文方法、其他3D-CNN方 法和两种最先进的CR方法的准确性、召回率、精度、F1分数和计算成本(包括 每秒浮点运算次数(Floating-Point Operations Per Second, FLOPs)、模型参数量 (Parameter Number, PN)和测试时间(Testing Time, TT))。表 2-5 显示在 COVID- CT-MD数据集上本文方法与其他3D-CNN方法以及COVID-CT-MD数据集上的 两种最先进的CR方法的准确率、召回率、准确率和F1得分。
表2- 在尘肺数据集上不同方法的实验结果
Table 2- Results of different methods on the Pneumoconiosis dataset
方法 准确率 召回率 精度 F1得分
CheXNet 85.29% 58.95% 42.13% 46.00%
COVID-Net 94.12% 91.33% 80.00% 81.61%
ResNet18 88.24% 78.00% 55.00% 60.28%
ResNet34 91.18% 66.67% 64.85% 59.05%
ResNet50 88.24% 70.28% 60.00% 63.17%
ResNet152 91.18% 85.61% 70.00% 74.13%
DeseNet121 85.29% 81.61% 64.44% 67.63%
DenseNet169 91.18% 71.33% 76.36% 73.14%
ResNext50 91.18% 71.33% 68.00% 67.33%
ResNext101 91.18% 66.67% 67.18% 61.87%
SE-ResNet50 88.24% 57.89% 50.00% 52.22%
SE-ResNet101 94.12% 73.33% 63.33% 66.67%
SE-ResNext50 79.41% 60.56% 57.78% 57.06%
SE-ResNext101 88.24% 78.95% 64.00% 66.13%
TBFE 97.06% 89.33% 90.00% 93.33%
注:加粗部分为最优结果。
 
在表2-4中,尽管本文方法的召回率低于COVID Net,但本文方法的准确率、
精度和F1得分比COVID-Net分别提升了 2.94%、10%和11.72%。在计算成本方
 
面,所提出的方法的PN低于除DesNet121和DesNet169之外的其他3D-CNN方 法。然而,所提出的方法的FLOP和TT是最低的。因此,该方法可以提高分类 的准确性,同时降低计算成本。
Table 2-5 表2-5 不同方法的计算成本
Computation cost of different methods
方法 FLOPs (G) PN (M) TT (s)
CheXNet 185.343 6.959 4.930
COVID-Net 13.076 37.667 4.922
ResNet18 397.288 33.163 2.615
ResNet34 685.573 63.472 3.734
ResNet50 515.358 46.165 3.829
ResNet152 1091.745 117.370 6.539
DeseNet121 537.673 11.248 4.578
DenseNet169 555.987 18.551 4.946
ResNext50 427.935 25.879 4.798
ResNext101 572.075 47.534 4.812
SE-ResNet50 255.511 49.710 2.591
SE-ResNet101 395.519 91.003 4.118
SE-ResNext50 177.784 29.377 3.499
SE-ResNext101 255.464 53.279 4.056
TBFE 29.198 19.453 2.196
 
注:FLOPs: Floating-Point Operations Per Second 每秒浮点运算次数,PN: Parameter number参数量,TT表示Testing time测试时间。加粗部分为最优结果。
2.5.5.2定性分析
除上述定量分析外,本小节还显示在尘肺CT测试集和COVID-CT-MD测试 集上本文方法、3D-CNN方法以及两种最先进的CR方法CheXNet[61]和COVID- Net[52]的定性结果。具体而言,本文使用混淆矩阵来可视化测试数据集的分类结 果。在实验中,本文在每个阶段选取训练集和测试集时是按照相同比例选取,因 样本数量不平衡,本小节中测试集部分阶段样本数较少。
图2-5展示在尘肺CT数据集和COVID-CT-MD[71 ]数据集上本文方法的可视 化结果。图2-6显示在尘肺CT数据集上的两种最新CR可视化结果。其中,右 侧进度条的颜色(白色到蓝色)表示预测标签的数量,并占该类中实际标签数量 的比例(小到大)。我们可以发现,本文方法在正常、第一阶段和第二阶段的预 测结果和实际结果是相同的。此外,如图2-5(a)所示,在第0阶段,TBFE可以 达到66.67%o并且,图2-5(a)中,可以观察到本文方法的性能明显优于其他3D- CNN 方法。特别是,阶段 0 的诊断,这表明本文方法可以更好地预防早期尘肺 病。
 
表2-6在COVID-CT-MD数据集上不同方法的实验结果
Table 2-6 Results of different methods on the CO ID-CT-MD dataset
 
方法 准确率 召回率 精度 F1得分
ResNet18 63.33% 82.54% 70.63% 66.62%
ResNet34 86.67% 75.08% 79.19% 76.72%
ResNet50 70.00% 55.32% 65.76% 58.76%
ResNet152 83.33% 73.49% 77.68% 75.17%
DeseNet121 80.00% 78.65% 72.05% 74.80%
DenseNet169 90.00% 95.24% 85.71% 88.34%
ResNext50 86.67% 70.00% 87.50% 75.55%
ResNext101 76.67% 77.06% 68.68% 71.79%
SE-ResNet50 76.67% 66.90% 73.94% 69.81%
SE-ResNet101 73.33% 53.49% 75.33% 55.31%
SE-ResNext50 73.33% 58.57% 62.83% 59.39%
SE-ResNext101 76.67% 63.49% 46.58% 53.03%
TBFE 96.67% 98. 1% 93.33% 95. 8%
注:加粗部分为最优结果。
图2-5在尘肺CT数据集和COVID-CT-MD数据集上本文方法的混淆矩阵
Figure 2-5 Confusion matrix of the proposed method on Pneumoconiosis CT and CO ID-
CT-MD dataset
注:进度条颜色的深浅表示预测每个阶段样本数量占测试集中该阶段实际人工标注样 本总数的占比大小,颜色越深表示预测正确率越高。(a)表示尘肺CT数据集上本 文的不同阶段上的混淆矩阵,(b)表示公开数据集COVID-CT-MD上本文的不同类 别的混淆矩阵。
 
 
图2-6在尘肺CR图像上2D CNN方法的混淆矩阵
Figure 2-6 Confusion matrix of 2D CNN methods on Pneumoconiosis CR images
注:(a)表示在尘肺CR图像上CheXNet方法的混淆矩阵,(b)表示表示在尘肺CR图像 上COVIDNet方法的混淆矩阵。
 
 
 
(d) 3D ResNet152
图2-7在尘肺CT影像上3D ResNet方法的混淆矩阵
Figure 2-7 Confusion matrix of 3D ResNet methods on Pneumoconiosis CT images
注:(a-d)表示在尘肺CT图像上不同3D ResNet方法的混淆矩阵。因测试集少,部分 阶段数量有限。
 
 
图2-8在尘肺CT影像上3D DenseNet方法的混淆矩阵
Figure 2-8 Confusion matrix of 3D DenseNet methods on Pneumoconiosis CT images
注:(a)表示在尘肺CT图像上3D ResNet121方法的混淆矩阵,(b)表示在尘肺CT图像 上3D ResNet169方法的混淆矩阵。
 
(b) 3D ResNext 101
图2-9在尘肺CT影像上3D ResNext方法的混淆矩阵
Figure 2-9 Confusion matrix of 3D ResNext methods on Pneumoconiosis CT images
注:(a)表示在尘肺CT图像上3D ResNext50方法的混淆矩阵,(b)表示在尘肺CT图像 上3D ResNext101方法的混淆矩阵。
 
 
图2-10在尘肺CT影像上3D SE-ResNet方法的混淆矩阵
Figure 2-10 Confusion matrix of 3D S -ResNet methods on Pneumoconiosis CT images
注:(a)表示在尘肺CT图像上3D SE-ResNet50方法的混淆矩阵,(b)表示在尘肺CT图 像上 3D SE-ResNet101 方法的混淆矩阵。
 
 
图2-11在尘肺CT影像上3D SE -ResNext方法的混淆矩阵
Figure 2-11 Confusion matrix of 3D S -ResNext methods on Pneumoconiosis CT images
注:(a)表示在尘肺CT图像上3D SE-ResNext50方法的混淆矩阵,(b)表示在尘肺CT 图像上3D SE-ResNext101方法的混淆矩阵。
 
 
图2-12 在COVID-CT-MD CT影像上3D ResNet方法的混淆矩阵
Figure 2-12 Confusion matrix of 3D ResNet methods on CO ID-CT-MD CT images
注:(a-d)表示在COVID-CT-MD数据集上不同3D ResNet方法的混淆矩阵。
 
 
图2-13 在COVID-CT-MD CT影像上3D DenseNet方法的混淆矩阵
Figure 2-13 Confusion matrix of 3D DenseNet methods on CO ID-CT-MD CT images
注:(a)表示在COVID-CT-MD数据集上3D DenseNet121方法的混淆矩阵,(b)表示在 COVID-CT-MD数据集上3D DenseNet169方法的混淆矩阵。
 
图2-14 在COVID-CT-MD CT影像上3D ResNext方法的混淆矩阵
 
 
 
图2-15 在COVID-CT-MD CT影像上3D SE -ResNet方法的混淆矩阵
Figure 2-15 Confusion matrix of 3D S -ResNet methods on CO ID-CT-MD CT images
 
 
 
图2-16 在COVID-CT-MD CT影像上3D SE-ResNext方法的混淆矩阵
Figure 2-16 Confusion matrix of 3D S -ResNext methods on CO ID-CT-MD CT images
2.6本章小结
本章工作是首次在3D尘肺CT影像上诊断尘肺分类的可行性研究。在过去 十年中,传统的机器学习在CR影像上的异常分类方法已经取得良好的性能㈤]。 最近,深度学习算法已成功评估肺部图像上的异常[58]。在这些研究中,大部分都 是基于CR影像。尽管CR是诊断尘肺病的标准模态,但CT通常提供肺部病变 的更多细节。由于缺乏标记尘肺病病变的CT分级标准,本文采用公认的基于CR 的分级系统进行分类,将分类结果对应到相应的CT影像上。在同一入院期间同 时患有CT和CR的患者入选,导致样本量相对较小且不平衡(尤其是0期患者)。 为了解决这种不平衡,本文采用 10折交叉验证,并使用焦点损失函数来优化模 型。
本文提出一种基于Transformer分解编码器来进行尘肺病在3D CT影像上的 诊断,该编码器探索切片内和切片间的交互信息,在这个过程中可同时获得CT 影像的同一切片之间以及不同切片间的长距离关系,有效实现切片内和切片间信 息的融合,以合理的性能对尘肺病的严重程度进行分类。除此之外,本文提出在 公共 LIDC-IDRI 数据集上训练一个卷积自动编码器,之后保存预训练模型并使 用3D卷积自动编码器的编码器提取具有潜在空间结构信息的CT特征图。这也 解决了基于Transformer分解编码器因数据量小而不稳定的问题。
实验表明,在算法复杂度低、测试时间短的情况下,本文方法可以有效地实 现3D CT影像上尘肺病的分类。混淆矩阵可视化图可以观察到,所提出方法在0 和1阶段的准确率分别达到66.67%和100%,在临床实践中本文方法可以促进基 于CT影像(特别是高分辨率CT)的尘肺病早期诊断。此外,与主流的基于CT 对比方法DenseNet169相比,该方法的准确率、召回率、精度和f1得分分别提 高了 5.88%、18%、13.64%和 20.19%。与主流基于 CR 的 COVID-Net 相比,本 文方法的准确率提升了2.94%。
未来,需要进一步优化模型,并将其扩展到其他疾病的3D医学影像分类任 务中。并且,期望整合其他模态,提供更全面的细节信息(CT/MRI),建立一个 多模态模型实现疾病诊断。
第3章 基于统一视角下的多级跨模态相似性的跨模态检索
3.1引言
随着社交媒体的快速发展,人们使用大量多模态数据(如图像、文本、声音 等)来描述所观察到的世界。跨模态检索任务通过给定查询数据来检索与之相关 的其他模态的数据。因为应用广泛,跨模态检索任务正受到越来越多研究人员的 关注[95]。然而,不同模态的数据分布是不一样的(异质性差距),这导致无法直 接度量不同模态数据之间的相似性。为减少异质性差距,现有的跨模态检索方法 [98]将多模态数据投影到一个公共表示空间(公共空间)中,通过探索跨模态数据 特征之间的相似性或学习基于标签的判别性特征,进而学习多模态数据的公共表 示,计算数据之间的相似度。跨模态检索方法可分为两类:基于特征的方法[101] 和基于标签的方法。本文关注两个检索任务:给定查询图像检索相关文本和给定 查询文本检索相关图像。
基于特征的方法旨在利用跨模态数据的特征表示之间的相似性,找到与多模 态数据高度相关的公共空间。例如,典型相关性分析(Canonical Correlation Analysis, CCA) [32]利用线性组合系数来学习公共空间。然而,CCA预测的图像 -文本对在公共空间中的特征分布仍然表现出较大差异,导致多模态数据的相关 性系数较低。为了提升相关性系数,研究者们利用生成对抗网络进行相关性分析 学习[102]。具体地,生成器将多模态数据特征直接生成公共表示,判别器判别同 一模态内和不同模态之间的相关性。此外,研究人员还采用学习排序技术调整学 习的公共空间[104]。尽管基于特征的方法表现优异,但学习到的公共表示缺少可 解释性的语义信息,并且无法捕获一对多的对应关系。基于标签的方法旨在将特 征向量映射到标签空间,通过真实标签学习特征之间的语义相似性。例如,Wei 等人[106]构建两个独立的深度网络,将图像和文本转换为公共语义空间,同时使 用真实标签解决多标签的跨模态检索问题。然而,这类基于标签的模型过度依赖 分类精度,任何在模型学习过程中引入的偏差都会累积。
最近,研究人员已经开始探索多级跨模态相似性,旨在同时利用成对的跨模 态数据和真实标签学习公共空间[107]。例如,Wen等人[109]提出一种独立语义关系 模块和一个联合语义关系模块,以增强图像区域之间的关系和图像全局与文本全 局信息之间的关系。Yang等人[110 ]提出一种具有相关性对齐的共享语义空间方法, 其通过相关性对齐[111 ]约束深度神经网络中多模态数据分布的非线性相关性。 Zhen等人[112]通过最小化全局特征之间的相似性,将全局特征映射到线性分类器 中,以测量跨模态数据的语义相似性。尽管多级跨模态检索方法已经展现出许多 优势,上述方法仍有不足之处:1)忽略图像区域特征和单词特征之间的相似性 (称为局部相似性)。不同模态之间的细粒度信息对于跨模态检索十分重要,即 使有研究人员关注到这个问题,但所提出的算法需要单独训练多级相似性网络 [113],严重影响计算效率。2)在测量基于标签的相似性时,上述方法需要将公共 空间中的特征向量转换到标签空间,由于涉及分类,在训练过程中难免存在偏差。
为了解决上述问题,本文提出一种统一视角下多级跨模态相似性(MultiLevel Cross-Modal Similarity,MCMS)方法,该方法利用跨模态数据的特征之间 (特征级)和标签之间(标签级)关系,进一步对多级跨模态相似性进行建模。 对于特征级相似性,将跨模态数据之间的局部相似性与同一模态数据的特征向量 之间的相似性合并,丰富细粒度跨模态交互。同时,在不转换特征空间的情况下, 本文计算公共空间中的特征向量与标签之间的相似度,学习公共空间中一对多的 对应关系。最终,使用circle loss[127]将特征级相似性和标签级相似性集成为多级 跨模态相似性。
综上所示,本文主要贡献如下:
(1)提出一种多级跨模态相似性的统一视角方法,该方法在同一个公共空间 下,整合多模态数据之间的多级相似性。
(2)在公共空间中测量跨模态数据之间的局部相似性,实现不同模态数据之 间的细粒度交互。
(3)在不转换到标签空间的情况下,实现特征向量和标签之间相似度的最大 化,不仅能够获得跨模态数据之间的一对多关系,还能够避免分类器累积偏差。
3.2相关工作
本文对跨模态检索方法进行回顾,按照公共空间学习中探索的数据相似性方 式,可将跨模态检索分为基于特征的跨模态检索方法和基于标签的跨模态检索方 法。
基于特征的方法侧重图像和文本特征之间相关学习,该类方法将整幅图像和 文本映射到同一个公共空间,以衡量多模态数据之间的相似性。例如,Hwang等 人[114]使用核典型相关性分析(Kernel Canonical Correlation Analysis,KCCA)改 善线性映射不足的问题。Andrew等人[115]提出一种深度典型相关性分析方法 (Deep Canonical Correlation Analysis,DCCA),学习不同视图的线性特征向量, 以实现高度线性相关。Zeng等人[116]提出一种基于集群CCA的三元神经网络, 以实现音频和视频之间的跨模态检索。Zhu等人[91 ]在模态转换过程中,利用生成 对抗网络方法学习一个公共空间,该公共空间关注图像-文本对。Ngiam等人[117] 提出一种受限玻尔兹曼机方法学习公共空间oWang等人[118]使用两种类型的卷积 神经网络分别将图像-文本对映射到潜在空间,以进行图像和文本的跨模态检索。 Peng等人[119]提出两个学习阶段:首先,使用堆叠自编码器和深度置信网络分别 对来自相同模态和不同模态的数据的相关性进行建模;然后,采用分层学习策略 学习公共空间。
基于标签的方法通过探索高级语义信息求解公共语义空间。Chaudhuri等人 [120]提出一种具有判别性的共同空间,以利用高分辨率(VHR)图像和基于语音 的标签注释之间的关系。Ma等人[121 ]提出一种基于全局和局部语义保留的深度哈 希方法用于跨模态检索。具体而言,通过增加相似哈希码和不同哈希码间的距离 学习局部可辨别哈希码,然后,通过使用全局多级相似性探索标签信息生成保留 语义的哈希码。Zhang等人[122]提出广义半监督学习用于跨模态检索,实现了更 具有辨别性的多模态数据转换,并为无标记数据预测了更准确的标签。Peng等 人[123]提出多粒度融合方法学习多模态数据的融合特征,然后,使用分层网络在
 
Figure 3-1 The overall architecture of multi-level cross-modal similarity for cross-modal retrieval
 
注:图像经特征提取模块分别提取图像特征和图像区域特征,文本经特征提取模块提 取单词特征和文本特征;之后计算局部相似性,特征相似性和标签相似性;最终该 框架整合多级跨模态相似性送入circle loss损失函数。“GAT”表示图注意力网络 (Graph Attention Network, GAT)。
3.3统一视角下的多级跨模态相似性的跨模态检索框架图
给定数据集X = {竝呂“,其中竝是第i样本。Xt包括一个图像%,一个文本血 和相应的类别向量q = [c1t,c2t, ^,cdi] G Rd,其中d是最终输出的公共表示的维 度。如果xt属于类别/ G {1,2, .^,p},则c“ = 1,反之Cu = 0。
如图3-1所示,统一视角下的多级跨模态相似性的总体架构主要包含三个部 分:1)特征提取器模块;2)多级跨模态相似性模块;3)损失函数。具体而言,
多个特征提取器分别提取全局和局部图像(文本)的特征。然后,全局图像特征 和局部图像特征被送到图注意力(Graph Attention Network, GAT)网络和全连接 层以学习图像特征向量。类似地,本文采用另一个图注意力网络和全连接层来学 习文本特征向量。之后,本文分别计算全局跨模态特征相似性,局部跨模态特征 相似性和标签相似性,汇总后将其送入Circle-loss损失函数中。
3.3.1特征提取模块
本部分包含图像特征提取和文本特征提取。对于图像特征提取,首先,本文 将图像送入到ImageNet预训练的ResNet152[124]网络中,保留最后一个卷积层的 特征作为输出。之后,本文将输出的特征送到一个全连接层中,并将全连接层的 输出作为图像全局特征匕9gR49x2048。此外,每个图像可通过Visual-Genome[125] 预训练的Faster-RCNN[126]来提取图像区域特征犀e "6x2048。
图注意力网络能捕捉图像局部特征和全局特征之间的关系,通过注意力机制
为不同的邻近节点分配不同的权重[109]。本文应用一个图注意力网络来学习具有 全局和局部关系的图像特征。首先,本文将图像全局特征If与区域特征相结 合输入到图注意力网络G = (Li,Ej,其中厶:=是节点特征,Ei是边的注 意力系数的集合。其中,图像注意力系数计算如下:
 
其中即,舉es, %和%是可学习参数。 之后,获得新的图像节点特征如下:
泸=BN(ReLuC£ 孙"%罕)) (3-2)
neN
其中BN是批归一化,ReLU是激活函数,N图中节点的数量,%是可学习参数。 最终,通过一个全连接函数办学习到图像特征向量e R512,具体如下: z『=/i(+》炉;纭) (3-3)
meN
其中纭是九的可学习参数。
同理,对于文本特征提取,本文使用Bert模型来提取单词特征S e肿768,
其中厶是所有本文长度的最大值。之后,单词特征S送入图注意力网络Hi = (Ui,Di),其中研是文本节点特征,Di是节点之间的注意力系数。具体得,文本的 注意力系数0孑计算如下:
带=呵论严学灯) (3-4)
其中,時,讪eg,wu,Wj是可学习参数。
之后,新的文本节点特征计算如下:
 
 
= BN(ReLU(^ptcj WuUj))
JGN
其中BN是批归一化,ReLU是激活函数,Wu是可学习参数,0孑是文本的注意力 系数。
最终,通过一个全连接函数/2学习文本特征zf G R512如下:
=f2(1YUi';Yf)
kGI
zi
(3-5)
(3-6)
其中%是可学习参数。
3.3.2 多级跨模态相似性
在所提出的方法中,本文计算图像和文本之间的局部相似度,并结合图像和 文本具有全局信息的特征向量之间的相似度,以提供更全面的细粒度跨模态数据 关系度量。首先,注意力权重力通过计算图像区域特征之间的相似度来获得〃= {r^.r2, 和单词特征Ut = {uj.u2, .^.u-},其中M是图像区域的数量,/是单词数。
跨模态数据之间的局部相似性定义如下:
bfq = Softmax(Wprf (Wqu^)T)
定义每个图像区域和所有单词之间的相似性如下:
R(rq, bpq) = £》bpq (Wfuq)
qGi
之后,定义第i图像和第i文本之间的局部相似性如下:
Srt = log (I e Xp(R(rq, bpq)))
qGM
(3-7)
(3-8)
(3-9)
因此,本文能计算同时具有来自同一模态的全局和局部信息的图像特征向量 z« G R512和文本特征向量Zf G R512之间的相似性,具体如下:
a fT
- ziz\
C . =
少 llzfll || zf II 本文将跨模态数据之间的局部相似性添加到具有相同模态数据之间细粒度 信息的特征向量之间的相似性中,最终,定义图像文本对之间的特征级相似性如 下:
(3-10)
Set = Sgt + Sri (3-11)
除此之外,为了避免分类偏差,在不转换到标签空间时计算特征向量和标签 之间的相似度。具体地,定义图像模态的标签级相似性如下:
=zfcj
Vt = Ilzf Illlctll
同理,文本模态的标签级相似性计算如下:
(3-12)
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
S 一 zfcj
3.3.3 损失函数
为了整合多级跨模态相似性,采用 Circle 损失[127]使无关跨模态数据之间的 相似性变小,使相关跨模态数据间的相似性增大。首先,图像-文本对之间的相似 度定义为Si = {Sci,Sui,Svi},该相似性Si划分为相关相似性s『和不相关的相似性s『, 其中s『包括图像文本对之间的特征级相似度得分和来自图像模态和文本模态的 标签级相似度得分,包括来自不同类别的图像和文本之间的特征级相似性分数。 Circle 损失定义如下:
L = log[1 + ^ exp (yq"(s『-编))
(3-14)
〉,exp (-洌(sf —牛))]
ieH
其中依据[58],编=m是类间阈值,= 1 — m是类内阈值,碍=[s^+m]+和 即=[1 + m — sf]+是权重,m是一个松弛因子,控制决策边界的半径,y是尺度 因子。
3.4实验结果与分析
3.4.1 数据集
本节实验使用三个自然图像-文本的多模态基准数据集,包括Pascal sentence 数据集[128]、Wikipedia 数据集[129]和 XMediaNet 数据集[130]。
(1)Pascal sentence 数据集:包含1000 个图像,每个图像对应 5个句子,而 且每个图像属于20个类别中的一个类别。实验随机选择800个样本对进行训练, 100个样本对用于验证, 100个样本对用于测试[113]。
(2)Wikipedia数据集:由2866个图像-文本对组成,每个图像-文本对对应一 个图像和一个文档。该数据集有10个大类。数据集随机分成2173个样本对进行 训练, 231个样本对用于验证, 462个样本对用于测试[113]。
(3)XMediaNet 数据集:由 5 种模态的数据组成,包括文本、图像、视频、 音频和3D模型。从WordNet中选择200个类别用于训练,以确保该数据集的语 义层次结构。根据[113],所提出的方法仅使用 2 种模态(图像/文本),并且选择 32000个样本对用于训练, 4000个样本对进行验证, 4000个样本对进行测试。
除此之外,我们还将提出的方法应用到公开的医学影像-文本数据集 Open-I 中,Open-I数据集有7470张胸部x光片和3955份放射学文本。在本文实验中, 仅使用了正面视图的样本和对应的完整的分析文本。根据[179],本文使用相同的 方法,在 MeSH 标签中提取 20 个最常发现的关键词作为疾病类别,分别为: “normal / no indexing,cardiomegaly,scoliosis / degenerative, fractures bone, pleural effusion,thickening,pneumothorax,hernia hiatal,calcinosis,emphysema / pulmonary emphysema,pneumonia / infiltrate / consolidation, pulmonary edema, pulmonary atelectasis,cicatrix,opacity,nodule / mass,airspace disease,hypoinflation / hyperdistention,catheters indwelling / surgical instruments,tube inserted / medical device。”最终使用2902个案例用于本文实验。
详细信息如表4-1所示。
表3-1 实验中使用的多模态基准数据集的统计
Table 3-1 The statistics of the multi-modal benchmark datasets used in the experiments
数据集 类别数 训练/验证/测试 文本类型
Pascal sentence 20 800/100/200 句子
Wikipedia 10 2173/231/462 文档
XMediaNet 200 32000/4000/4000 文档
Open-I 20 2322/290/290 句子
 
综上所述,在文本类型上,Wikipedia数据集和XMediaNet数据集是文档, Pascal sentence语句数据集是句子。此外Pascal sentence数据集、Wikipedia数据 集和XMediaNet数据集中的类别数量分别为20、10和200。
3.4.2对比方法
为评估所提出方法的有效性,本文选择八种最先进的方法用于对比实验。
(1)CCA[129]:典型相关分析方法,旨在学习线性组合系数,试图将特征向量 转换到公共空间。
(2)VSE++[131]:基于铰链的三元组排序损失,提出带有“硬消极”的视觉语 义嵌入方法,以解决跨模态检索中样本“硬消极”问题。
(3)VSRN[132]:提出视觉语义推理模型,使用区域关系推理模型和全局语义 推理模型来学习图像表示。
⑷TERN[133]:提出基于Transformer编码器的推理网络,分别对图像模态和 文本模态进行推理,并通过共享更深Transformer层的权重来学习公共空间。
(5)Deep SM[106]:提出深度语义匹配模型,利用单标签或多标签的多模态数 据学习一个语义空间。
(6)DSCMR[112]:提出基于权重共享策略的深度监督跨模态检索模型,最小
化标签空间和公共空间中的判别损失和模态不变损失,从而学习公共空间。
(7)MAVA[113]:提出基于多路径细粒度网络的多级自适应视觉文本对齐模型, 该模型分别从图像和文本在全局、局部和关系上的相似度入手,分别训练相似性 模型用于跨模态检索。
(8)DSRAN[109]:提出双重语义关系注意力网络,同时建模独立的语义关系模 块和联合语义关系模块,分别学习图像-文本对的区域级关系、图像的区域和全 局关系。
3.4.3评价指标
归一化折损累积增益(Normalized Discounted Cumulative Gain,NDCG) [134] 通常用于测量和评估信息检索算法。据我们所知,这是其第一次用于评估跨模态 检索方法的多级相关性。
给定图像作为查询样本,本文将图像-文本对的相关性设置为2,不同类别的 图像和文本的相关性设置成0,属于相同类别但不存在一一匹配关系的图像和文 本的相关性设置为1。在跨模态检索中,首先对检索到的文本按照相关性进行排 序。在等式3-15中计算DCG,以及排名。然后,本文利用真实排序计算IDCG 分数,计算方式与DCG分数相同。最后,我们在等式2-15、2-16中计算NDCG, 最终取所有查询集的NDCG得分的平均值。对于NDCG而言,高相关性排名对 最终得分的影响大于一般相关性排名。换句话说,具有良好相关性的跨模态数据
排名较高时,NDCG得分较高。
 
3.4.4实验细节
本文首先提取ImageNet上预先训练的ResNet152[124]网络的最后一个卷积层 的输出,维度为2048。之后,通过Visual-Genome[125]预训练的Faster-RCNN[126] 提取图像区域特征,维度为2048。其次,使用Bert模型提取单词特征,维度为 768。最终,学习的公共空间的维度为512。实验以2e-4的学习率和(0.5 - 0.999) 的指数衰减率进行训练,迭代次数为30。
表3-2在Pascal sentence数据集上不同相似性设置的消融实验
Table 3-2 Ablation experiments on different similarity settings on the Pascal sentence
dataset
方法 相似性设置 I2T T2I 平均值
局部 特征级 标签级
1 0.743 0.723 0.733
2 / 0.748 0.726 0.737
3 / 0.727 0.695 0.711
4 0.768 0.7 1 0.755
 
注:“局部”表示计算局部相似性用于公共空间的学习,“特征级”表示计算成对跨模态 数据的公共表示之间的相似性用于学习公共空间,“标签级”表示计算公共表示与 标签向量之间的相似性用于学习公共空间。加粗部分为最优结果。
表3-3在Wikipedia数据集上不同相似性设置的消融实验
Table 3-3 Ablation experiments on different similarity settings on the Wikipedia dataset
方法 相似性设置 I2T T2I 平均值
局部 特征级 标签级
1 0.705 0.715 0.710
2 / 0.666 0.675 0.670
3 / 0.670 0.672 0.671
4 0.711 0.733 0.722
 
注:“局部”表示计算局部相似性用于公共空间的学习,“特征级”表示计算成对跨模 态数据的公共表示之间的相似性用于学习公共空间,“标签级”表示计算公共表 示与标签向量之间的相似性用于学习公共空间。加粗部分为最优结果。
3.4.5消融实验
为评估在特征学习过程中局部相似性和标签级相似性的重要性,本文对模型 的四种表现进行探讨:1)跨模态数据之间不衡量局部相似性;2)不衡量标签级 相似度;3)仅衡量单一模态内的局部特征之间的相似性;4)多级跨模态相似性。 表3-2和表3-3分别对Pascal sentence数据集和Wikipedia数据集进行I2T和T2I 的消融实验。“local”表示跨模态数据之间的局部相似度。“feature”指跨模态数 据的公共表示之间的相似性。“label-level”是指利用特征向量与标签向量之间的 相似性。
 
 
图3-2 y和m在不同取值下的NDCG得分
Figure 3-2 The NDCG scores of parameters y and m with different value
注:(a): y取值范围为[32, 64,128,256,512,1024]; (b): m取值范围[-0.25,-
0.2,-0.15,-0.1,-0.05,0,0.05,0.1,0.15,0.2,0.25,0.3]。
表3-2所示,没有“local”相似性的模型在I2T和T2I上的NDCG结果比本 文方法分别低2.5%和1.8%,这说明跨模态局部相似性的重要性。并且,本文方 法在I2T和T2I上的NDCG结果比没有“label-level”相似性的模型的结果高出 2%和1.5%,实验结果再一次证明在跨模态检索中衡量语义相似性的必要性。
除此之外,仅包含单一模态的局部相似性的模型在I2T和T2I上的NDCG 结果均小于任意一种情况的消融实验,这说明在跨模态检索中仅使用单一模态的 局部相似性无法学习跨模态数据的所有细粒度信息。
当使用多级跨模态相似性时,在I2T和T2I上的NDCG结果可达76.8%和 74.1%,这证明本文方法能更好的提高检索集与查询数据之间的相关性。
3.4.6参数分析
本文探索公式3-14中超参数y和m的影响,图3-2展示Pascal Sentence数据 集[59]在I2T和T2I上的参数分析。首先,本文将尺度因子y的范围设定为[32, 64, 128, 256, 512, 1024], y的最佳NDCG如图3-2(a)所示。然后,本文将松弛因 子m的范围设为[-0.25, -0.2, -0.15, -0.1, -0.05, 0, 0.05, 0.1, 0.15, 0.2, 0.25, 0.3], m的最佳NDCG如图3-2(b)所示。本文可以观察到,随着y的增大,本文方 法在NDCG结果上呈先增大后降低的趋势;而且随着m的增大,本文方法在I2T 上的NDCG的变化趋势更明显。最终,当y=512, m=0.25时,本文方法最优。
3.4.7对比实验
3.4.7.1定量分析
本节比较本文方法和对比方法的性能,分别在 Pascal sentence 数据集、 Wikipedia 和 XMediaNet 数据集上衡量 I2T 和 T2I 的 NDCG 得分。表 3-4 所示, 所提出的方法展现出I2T和T2I的最佳NDCG结果,该方法的平均NDCG比主 流的基于双重语义关系网络的DSRAN方法分别提升了 3.6%、3.7%和6.5%。这 证实了结合跨模态局部关系和标签级别关系来学习跨模态相似性的可行性。事实 上,在学习公共空间时,基于跨模态局部相似性比全局相似性更有效。此外,可 以看出,同时计算特征向量之间和标签之间的相似性有利于图像和文本的一对多 关系的建立。
表3-4 在pascal sentence数据集,Wikipedia数据集和XMediaNet数据集上I2T和T2I的
NDCG评分方面的性能比较
Table 3- Performance comparison in terms of NDCG scores on pascal sentence dataset,
Wikipedia dataset, XMediaNet dataset for I2T and T2I
方法 Pascal Sentence Dataset Wikipedia Dataset XMediaNet Dataset
I2T T2I 平均值 I2T T2I 平均值 I2T T2I 平均值
CCA 0.210 0.223 0.217 0.335 0.334 0.335 0.458 0.452 0.455
VSE++ 0.532 0.528 0.530 0.576 0.574 0.575 0.498 0.480 0.488
VSRN 0.661 0.664 0.663 0.579 0.573 0.576 0.501 0.503 0.502
TERN 0.682 0.684 0.683 0.633 0.632 0.633 0.514 0.515 0.514
Deep-SM 0.684 0.650 0.667 0.534 0.453 0.494 0.704 0.708 0.706
DSCMR 0.746 0.729 0.738 0.704 0.726 0.715 0.774 0.772 0.773
MAVA 0.716 0.689 0.703 0.680 0.683 0.682 0.716 0.732 0.724
DSRAN 0.729 0.708 0.719 0.686 0.684 0.685 0.728 0.744 0.736
MCMS (ours) 0.768 0.7 1 0.755 0.711 0.733 0.722 0.819 0.782 0.801
注:加粗部分为最优结果。
 
3.4.7.2案例研究
图 3-3 和图 3-4 分别展示本文方法在 I2T 和 T2I 中 Pascal sentence 数据集上 的可视化结果。随机选择5张图片和5个文本作为查询对象,每个查询样本展示 前5个检索结果。标红部分是与查询样本最匹配的检索样本。图3-3和图3-4能 观察到本文的方法可优先找到与查询数据最匹配的数据。
 
检索的文本Top-5
1.A darkened desk with a desktop PC and a lamp.
2.A man sitting in a chair with a laptop on his lap watching a T set in the corner.
3.A computer on the floor.
.A home office set up complete with a can of soda.
5.A black and grey striped cay lying on a comforter looking toward the camera.
1.A backpack standing beside a train.
2.A blue train in a mountainous area.
3.A long American freight train near a station.
.A ondon Underground train in a siding next to a ondon Overground train. 5. An electric streetcar is on train tracks.
1.A cruise ship in a harbor with rain clouds overhead.
2.A couple enjoying a sunny day on the top deck of a cruise ship.
3.Couple sailing in a small sailboat.
. Airplanes flying in formation over boats in a body of water.
5. A photo from the air of four people in a thin canoe.
1.A black cow and a brown bull eat hay and graze on a remote farm.
2.A black and white cow in a pen with hay.
3.Brown and white cows are looking ahead.
.A black and white cow looking through the fence.
5.A brown and white calf laying down on the hay in a barn.
1.A passenger aircraft with landing gear down.
2.A gray jet parked near the building.
3.A close up of a man on a passenger plane.
. A fighter jet on display.
5. A black and white photo of the right side of a small propeller-driven airplane.
图3-3该方法在Pascal sentence数据集上I2T的前5个检索样本
Figure 3-3 The Top-5 retrieved samples of the proposed method on the Pascal sentence for
I2T
 
查询文本
A blue and green bottle on the sides of an empty bottle.
 
 
 
Couple sailing in a
small sailboat.
A black and white cow
looking through the
fence.
A black and cream bus
is parked near other
buses.
图3-4该方法在Pascal sentence数据集上T2I的前5个检索样本
Figure 3- The Top-5 retrieved samples of the proposed method on the Pascal sentence for
T2I
3.4.7.3特征分布可视化分析
T-SNE能够直观的展示特征表示在特征空间中分布情况。如图3-5和图3-6 所示,“o”表示测试图像特征,“△”表示测试文本特征。首先,本小节定义初始图 像特征为4096维的向量,文本特征表示为768维的向量。图3-5(a)(b)分别为图 像和文本的原始特征分布。图4-8(c)将图像和文本特征原始特征分布展现在同一 空间中。图3-6(a)-图3-6(c)可以观察到,经过训练后,图像和文本被映射到一个 512维的公共空间。可视化结果表明本文方法可以缩短图像和文本的特征之间的 距离,减小跨模态数据的异质性差距。
 
 
 
(a)(b)
 
 
(c)
图3-5该方法在Pascal sentence数据集上的原始特征分布可视化
Figure 3-5 isualization of original feature representation of the proposed method on the
Pascal sentence dataset
注:“o”代表图像模态的测试数据,“△”代表文本模态的测试数据。这些类用不同的颜色 表示。(a:由图像模态得到的原始特征分布。b:文本模态的原始特征分布。c:图 像和文本在同一空间的原始特征分布。
 
 
(c)
图3-6该方法在Pascal Sentence数据集上的原始特征分布可视化
Figure 3-6 isualization of original feature representation of the proposed method on the
Pascal sentence dataset
注:“o”代表图像模态的测试数据,“A”代表文本模态的测试数据。这些类用不同的颜色 表示。a:图像共同表示的特征分布。b:文本公共表示的特征分布。c:图像和文 本公共表示在公共空间中的特征分布。
3.4.7.4医学影像-文本检索 为了验证本文方法在医学影像-文本检索中同样有效,本小节将统一视角下 的多级跨模态相似性网络的输入替换为公开数据集Open-I,来研究医学影像-文 本检索。图3-7和图3-8分别展示本文方法在I2T和T2I中检索的可视化结果。
随机选择 5 张图片和 5 个文本作为查询对象,每个查询样本展示前 5 个检索结 果。实验结果展示该方法在医学影像-文本检索中同样有效。
 
Cardiac and mediastinal contours are within normal limits. The lungs are clear. Bony structures are intact.
Cardiac and mediastinal contours are within normal limits. The lungs are clear. Bony structures are intact.
Cardiac and mediastinal contours are within normal limits. The lungs are clear. Bony structures are intact.
Cardiac and mediastinal contours are within normal limits. The lungs are clear. Bony structures are intact.
Cardiac and mediastinal contours are within normal limits. The lungs are clear. Bony structures are intact.
图3-7该方法在Open-I数据集上I2T的前5个检索样本
Figure 3-7 The Top-5 retrieved samples of the proposed method on the Open-I dataset for
I2T
 
查询样本
Cardiac silhouette and pulmonary vascularity are normal. There is mild bibasilar focal atelectasis. No evidence of pleural effusion or pneumothorax. Minimal atherosclerotic changes are present in the thoracic aorta.
The trachea is midline. The cardio mediastinal silhouette is normal. The superior thoracic spine is again noted, unchanged from prior. ucent pulmonary parenchyma is consistent appearance with emphysema and appears unchanged from prior examinations. No evidence of pneumothorax. No focal airspace disease or pleural effusion. ague density in the medial right lung apex most XXXX representing overlying shadows of bony structures, which is stable.
图3-8该方法在Open-I数据集上T2I的前5个检索样本
Figure 3-8 The Top-5 retrieved samples of the proposed method on the Open-I dataset for
T2I
3.5本章小结
本章重点研究跨模态数据之间的多级相关性完成跨模态检索任务,提出一种 统一视角下的多级跨模态相似性方法。在公共空间学习中,将相同模态和不同模 态的数据之间的细粒度信息合并以实现细粒度交互。其次,在不考虑将公共表示 映射到语义空间的情况下度量标签级的相似性,有效防止因分类器产生的偏差。 相比主流双重语义关系网络DSRAN,本文在Pascal Sentence、Wikipedia和 XMediaNet三个数据集上分别提升了 3.6%、3.7%和6.5%。在未来的工作中,将 通过半监督学习进一步探索跨模态数据之间的相似性。
第 章 基于半监督的跨模态记忆库的跨模态检索
4.1引言
随着多模态数据(如文本、图像和视频)的快速增长,描述同一事件的形式 越来越丰富。目前,多模态数据分析,如图像字幕[136]、视觉问题解答[138] 和跨模 态检索[140],已成为研究热点。跨模态检索是在跨模态数据中检索与查询相关的 样本。然而,来自不同模态的数据存在不一致分布问题,导致“异质性差距”, 这使得查询数据和检索数据之间不能直接度量相似性。
近年来,跨模态检索算法试图建立不同模态之间的相关性来学习公共空间。 这些算法可分为三类:有监督方法、无监督方法和半监督方法。主流的监督方法 假设相同类标签的多模态数据具有潜在相关性,利用类标签可以学习区分相关和 不相关数据的判别性公共空间[142]。例如,Wang等人[142]利用分类器来预测公共 空间中多模态数据的分类概率,然后采用交叉熵损失作为判别损失,学习特征投 影后的数据的判别性。Zhen等人[112]最小化均方误差,减小在标签空间上多模态 数据的类概率与真实标签向量之间的距离。这些有监督的方法已经证明,学习判 别性公共空间有助于跨模态检索。然而,具有判别性的公共空间的性能取决于有 标记数据的数量,注释所有多模态数据既费时又费力。因此,无监督学习和半监 督学习对跨模态检索具有重要意义。在没有真实标签的情况下,无监督方法研究 多模态数据之间的关系,包括来自相同模态的和来自不同模态的关系。例如, Rasiwasia等[129]使用图像文本对的线性组合系数将特征表示映射到公共空间。然 而,由于缺少监督信息,这些无监督的跨模态检索方法难以实现一对多的映射。 因此,本文研究的重点是基于半监督学习的跨模态检索。
半监督方法可以利用少量的有标记数据和大量的无标记数据来学习公共空 间中数据的相关性。现有的半监督方法利用多模态相似性矩阵来学习多模态数据 的公共表示。当计算无标记数据与其他数据之间的相似性时,现有的方法假设无 标记数据与预定义的K-NN相关。例如,Peng等人[143]提出一种统一补丁图正则 化的半监督的跨模态检索方法。首先,该方法将图像划分成若干个图像块,之后, 映射图像和相应的图像块到联合特征空间中,创建一个联合图。最终,组建一个 超图正则化学习潜在特征的语义信息。在这个联合图中,边由顶点的k最近邻与 一个顶点(图像或其对应的补丁)之间的相似性得分组成。Zhang等人[122]构建一 个广义半监督结构化子空间模型,尝试在特征映射到标签空间之前和之后增加特 征表示之间的相似性分数。同时,该框架预测无标记数据的类概率,并使用KNN 构造一个图来学习相同模态数据之间的相关性。Hu等人[144]学习一个半监督多模 态学习网络(Semi-supervised Multi-modal Learning Network, SMLN), SMLN 根 据标记和无标记的数据计算相似度矩阵,并将该矩阵与平衡谱分解相结合,以学 习公共空间。相似矩阵由同一模态数据之间的相关性(模态内相关性)和不同模 态数据之间的相关性(模态间相关性)组成,通过K-NN约束模态内和模态间相 关性。假设每组无标记数据都有k相关数据,然而实际情况中存在两组完全不相 关的数据被误认为相关。因此,模型不能有效区分多模态数据之间的关系(图 4- 1(a))。由于伪标签可以为无标记数据提供伪监督信息,因此本文设计伪标签来监 督无标记数据,使模型在跨模态检索时更具判别性(图 4-1(b))。
 
(a) (b)
图4-1从包含5%有标记数据的Wikipedia数据集上学习的公共表示的可视化
Figure -1 isualization of common representation on the Wikipedia dataset with 5 %
training labelled data
 
注:每个“o”形状表示测试集中一个的图像特征,每个“A”形状表示一个文本特征。 不同颜色表示不同类别。a: SMLN方法,b:本文的方法。
在探索无标记数据与其他数据之间的关联时,标签空间上的无标记数据应该 和与其相关的来自相同或不同模态的数据接近。由于无标记数据缺少真实标签, 在训练过程中很难直接建模无标记数据之间的相关性。成对的跨模态数据之间的 相关性是预先定义的,因此可以利用成对的跨模态数据的类概率来学习伪标签。 同时,其他有标记的数据的类概率可用于平滑标签,这也是无标记数据学习伪标 签的关键。如图4-2所示,本文构建一个半监督的跨模态记忆库(Semi-supervised Cross-modal Memory Bank, SCMB),该记忆库存储一种模态的多个小批量数据。 对于图像模态,SCMB使用先进先出策略存储两种文本特征表示:公共空间中的 文本特征表示(文本公共表示)和标签空间中的类概率。值得注意的是,SCMB 的大小大于训练过程中一个批次的数据的大小,并且该记忆库将有标记文本的类 概率替换为有标记文本的真实标签向量。然后,通过加权求和的方式结合图像类 别概率与存储文本的类别概率,从而获得每个无标记图像的伪标签,其中权重是
公共图像表示与存储公共文本表示之间的亲和度。随后,为突出与无标记图像最 相关的类,保留计算出的图像伪标签向量的最大值,其他项设置为软因子。最终, 利用交叉熵损失对无标记图像进行伪监督。类似地,无标记文本的伪标签是通过 与公共空间中的图像公共表示和标签空间中的图像类概率相互作用获得。此外, 在跨模态记忆库中,最大限度地提高成对跨模态数据之间的亲和度和具有相同类 标签的多模态数据之间的亲和度,以提高伪标签的可靠性。
综上所示,本章主要贡献如下:
(1)提出一种半监督的跨模态记忆库来学习无标记数据的伪标签,为无标记 数据提供伪监督信息。
(2)增强图像-文本对之间的亲和度和具有相同类别标签的多模态数据之间 的亲和度,以提高伪标签估计的可靠性。
(3)在基准数据集上进行大量的实验,实验结果表明,本文方法的性能优于 现有方法。
 
图 -2 半监督的跨模态记忆库的总体框架
Figure -2 The overall training framework of the proposed SCMB
注:首先,每个图像和文本经特征提取器分别学习图像公共表示和文本公共表示。之 后,将图像公共表示和文本公共表示映射到标签空间分别学习图像类概率和文本 类概率。其次,对于有标记数据,利用有标记数据的类概率,经分类损失学习有 标记数据的判别性。对于无标记数据,利用无标记数据的类概率,经跨模态记忆 库学习伪标签,最终利用无标记数据的类概率和伪标签,经分类损失学习无标记 数据的判别性。在伪标签学习中,我们还利用跨模态相关性增强图像公共表示和 文本公共表示之间的相似性。
4.2相关工作
4.2.1跨模态检索
跨模态检索旨在缩小跨模态数据之间的异质性差距,计算跨模态数据之间的 相似度。现有跨模态检索方法分为有监督学习方法、无监督学习方法和半监督学 习方法。本文提出的方法属于半监督学习。
有监督的跨模态检索方法利用类标签探索多模态相关性。例如,Wei等人[106] 学习一个语义空间,表示具有一个或多标签的多模态数据。Hu等人[145]提出一种 深度监督跨模态检索方法,该方法使用线性分类器在公共空间投影跨模态数据后 预测语义标签。然后,最小化语义标签与真实标签之间的均方误差,学习具有判 别性的公共空间。Peng等人[36]提出一种多级自适应视觉-文本对齐方法,设计一 个多层次细粒度网络,从全局和局部获取图像-文本对之间的相似度分数。尽管 有监督的跨模态检索方法表现优异,但其检索结果依赖于准确且完整的类标签。 当数据中存在噪声标签或数据缺少标签时,这些方法的准确性会迅速下降。
为避免标签对检索精度的影响,无监督跨模态检索方法将跨模态数据作为自 我监督的样本,利用自监督学习来探索跨模态相关性。例如,Hardoon等人[101]提 出典型相关分析的变体,将“核”思想引入典型相关分析框架中。具体地,Hardoon 等人学习一个再生核希尔伯特空间(Reproducing Kernel Hilbert Spaces, RKHS) [146],利用两个非线性变换学习跨模态数据的相关性。Zhang等人[147]从局域角度 探讨多模态邻域结构,提出一种高阶亲和度方法,在保持模态不一致性的基础上 减小模态差距。Liu等[148]利用无监督对比学习探索模态内和模态间的相关性,学 习更具判别性的表征。无监督方法试图优化跨模态相关性,但由于缺少真实标签 (提供公共空间中公共表示的语义信息),导致性能不佳。
研究人员研究半监督的跨模态检索方法利用类标签的同时避免对类标签的 依赖,其目标是根据少量的有标记数据和大量的无标记数据来缩小跨模态异质性 差距。例如,Hu等人[144]构建一个有标记和无标记数据中的相关矩阵,包含跨模 态相关、判别相关和模态内相关。然后,Hu等人[149]创建一个多模态鲁棒的学习 框架,利用聚类和多模态对比损失进行带噪声标签的跨模态检索研究。上述方法 通过学习多模态数据之间的相关性缩小异质性差距,但无标记数据的判别能力仍 然不佳。此外,在训练过程中,这些方法假设每组无标记的数据都与预定义的 K 近邻相关,这造成无标记数据之间的相关性存在误判,从而降低学习模型的判别 能力,影响跨模态检索的准确性。
4.2.2伪标签学习
伪标签学习方法利用类概率生成无标记样本的伪标签,使无标记数据具有可 解释性。Berthelot等人[150]提出一种名为MixMatch的半监督学习方法,该方法统 一一致性正则化方法[151]、熵最小化方法[154]和通用正则化方法[156]的思想。具体 而言,MixMatch对有标记和无标记的数据执行数据增强。然后,在熵最小化的 影响下,对预测结果进行夏普比率运算,以降低标签分布的熵。随后,MixMatch 使用MixUp[158]( —个数据增强例程)随机配对无标记数据,并对数据进行标记。
在提出MixMatch 后, Berthelot等人[159]发现对于无标记的数据,最大化模型 输入和输出之间的互信息可提升伪标签准确性。于是Berthelot等人引入分布对 齐和增强锚定,提出一种命名为Re-MixMatch的改进方法。Re-MixMatch鼓励来 自无标记数据的预测更接近实际标签,同时每个输出接近相同输入的增强数据。 尽管上述方法都取得很好的效果,但在训练过程中仍会引入不可靠估计的误差传 播。当存在不准确、不可靠的标签时,分类器的误差会不断累积。
预训练的自监督学习方法(如对比学习)可以利用自增强数据之间的相关性 进行建模。最近,一些方法将两种方法结合起来实现伪标签学习。如Li等人[160] 提出一种命名为CoMatch对比图正则化方法。CoMatch联合学习数据的类概率 和低维特征表示。具体地,在类概率上施加低维特征表示来提高伪标签的预测能 力,伪标签通过基于图的对比学习来调整低维特征表示。Zheng等人[161 ]提出一 种相似匹配学习方法,在语义水平和实例水平上应用一致性正则化,使得同一实 例的不同模态具有相同的类预测和紧密的特征关联。然后,使用标签记忆库来缩 小真实标签和伪标签在语义和实例上的相似度差距。本文方法为跨模态数据引入 CoMatch的思想,构建用于生成伪标签的跨模态记忆库。
4.3基于半监督的跨模态记忆库的跨模态检索方法
4.3.1问题描述
该方法适用于图像和文本两种模态的数据。本文重点研究从图像中检索文本 (I2T)和从文本中检索图像(T2I)。由于跨模态数据存在异质性差距,不同模态 数据之间的相似性无法直接测量。为减小跨模态数据的异质性差距,本文方法结 合有标记数据和无标记数据的监督信息,学习一个公共空间,总体框架如图4-2。
给定多模态训练数据D = {D,D},包括有标记数据D = {(^Ci.yi.Zi)}^,无标 记数据D = {区,刃)}甞,其中倉和久分别为第i个有标记图像和文本,岔e Rd是对 应的真实标签向量,d为类别数,龟和刃分别表示第i个无标记的图像和文本。在 接下来的部分中,N和“N分别表示训练过程中一小批的有标记的数据量和无标记 的数据量。为评估跨模态数据之间的相似性,跨模态检索方法学习一个图像转换 函数代旳;〜)和文本转换函数g(yj;Bj),分别将图像和文本映射到公共空间,其中 可 e {Xi,X2,-,xN,Xi,X2,- ,X^N], yj e {%,%,•••,%,%,%,•••,%“},3j 和 Oj 分别 表示传输函数f和g的训练参数。最终,定义图像公共表示为V = {Vi}^N = %,巧,…,^N,%,莎2,…,莎“N,其中{Vi}i =]表示有标记的图像公共表示,{仇}甞表示 无标记的图像公共表示。类似地,定义文本公共表示为U = {均}:;;""= Ui,U2,—,UN,Ui,U2,—,U^N,其中{Ui}^表示有标记的文本公共表示,仏}=1表示 无标记的文本公共表示。在检索过程中,计算图像公共表示{Vi}^+ N与文本公共 表示{血}譽"之间的相似度,根据相似度进行评分和排序。最终,对排名高的检 索样本进行优先输出。
 
图 -3 图像伪标签在跨模态记忆库中的学习过程
Figure -3 The learning process of image pseudo-labels by cross-modal memory bank
 
注:首先,计算无标记图像公共表示与所有存储在记忆库中的公共表示之间的亲和度, 将其作为权重与存储的对应的类概率结合。之后,将无标记数据的类概率与记忆 库中的带有权重的类概率进行加权求和,以学习该无标记数据的伪标签。“DA”是 指分布对齐操作。对于图像跨模态记忆库,它包括一些有标记文本的公共表示、一 些有标记文本的真实标记向量、一些无标记文本的公共表示以及一些无标记文本 的类概率。“a”表示无标记图像与每个文本之间的亲和度。
4.3.2跨模态记忆库
如图4-3,本文利用无标记数据的类概率学习无标记数据的伪标签,具体地, 将无标记的图像和文本公共表示映射到标签空间中学习类概率,如下所示:
Pi = softmax(WTVi + b) (4-1)
= softmax(WTUi + b) (4-2)
然后,为保证无标记的类预测不偏向某个特定的类,本文使用分布对齐 (Distribution Alignment, DA)思想[98]。对于一个训练批次的样本,无标记图像和 文本的平均类概率为Apm,其中m为第m训练批次。DA中无标记数据的有效类 概率如下所示,本文将其定义为伪标签的初始状态:
 
(4-3)
pf= u
1 y"N 了 pi、
”N3=i(4pJ
其中4p和=代=i"和表示B个训练批次的平均类别概率。B表示DA更新训 D
练批次的频率。
为学习一个无标记数据的伪标签,本文提出半监督的跨模态记忆库,该库包
含两种跨模态数据表示,即公共表示和类概率。存储的公共表示用于计算无标记 数据与其他数据之间的亲和度。具体来说,对于一个无标记图像Xi,跨模态记忆 库中包括文本公共表示Re = {il1, u2,^,uR, ii1, u2,^, uS}和文本类概率= {pF,p?,…,p%,Zi,Z2,…,Zs},其中R是存储的无标记文本的数量,S是存储的有标 记文本的数量。同样,对于一个无标记文本刃,跨模态记忆库存储图像公共表示 Oe = {%,莎2,…,莎R,%,於2,…,%}和图像类概率。’ ={pf,pf,…,pR,Z],Z2,…,Zs}。
首先,作为类概率的权重,本文计算无标记图像与跨模态记忆库中每个文本 的公共表示之间的相似度,将其定义为无标记图像与每个文本之间的图像亲和度
af,如下所示:
f _ eXp(cos 仇,h:)
a'k = SR+SeXp(cos vi,h(:)
其中,竝表示跨模态记忆库中存储的第k文本公共表示。
同理,计算无标记文本和每个图像的公共表示之间的相似度,将其定义无标 记文本与跨模态记忆库中每个图像之间的文本亲和度a化,如下所示:
eXp(cosUi,o:)
a,—
山 ZR+S eXp(cos Ui,o:) 其中,o:是跨模态记忆库中存储的第k图像公共表示。
在生成伪标签时,伪标签应与相关数据的类概率相似。具体优化目标如下:
XR+S
J(Qi) = (1-a)> 此 llqf-汕 |12 + 创呼
厶k=1
/(q$) = (i-Q)〉嘘 llq$ —0綁2 + 创评 厶k=1
其中席和评分别表示无标记图像和文本生成的伪标签。
由于喙和一个哦被归一化(k项值的和为1),最小化优化目标/(qf)和/(q『) 时,qf和q$定义如下:
R+S
qf = apf + (1-a)〉 afk 汕 (4-9)
厶k=1
 
R+S
q$ = a评 + (1-a)> 嘘 Ofc
k=1
然后,为了突出无标记数据的伪标签所代表的类,本文保留伪标签向量的最 大值,其余值设为软因子。最终,最小化无标记数据的分类损失,如下所示:
^uniabeiied =—万〉(^(I(max q$), p?) + e) (log 评)
R 厶 i=l
—万〉 5(1(曲"$),時)+ e)QogpF)
R 1=1
其中血呦(这种机制称“胜者通吃”),表示伪标签q?和谪的最大值设为1,其 他设为0;讥,)是逐元素相乘,e = e-8是软因子。
此外,为提高伪标签在训练过程中的可靠性,本文最小化成对的公共表示之 间的对比损失来增强记忆库中不同模态之间的亲和度。同时,本文最小化有标记 数据的交叉熵损失,以提高其他有标记数据之间的亲和度。具体而言,图像公共 表示和文本公共表示之间的对比损失如下:
_ _ 1 丁+s exp(cos®i,Ui) /t)
contr R+S〉i=i Og^fc+f exp(cos(vt,Ui) / t)
其中,T是一个温度参数。
为度量跨模态记忆库中其他有标记数据之间的亲和度,本文分别学习有标记 图像和文本的类概率,如下所示:
Pi = softmax(WTVi + b) p¥ = softmax(WTUi + b) 有标记数据的交叉熵损失定义如下:
^labelled = ^〉 Z^logpf}-〉 岔(log p辛)
、厶 i=1 、厶i=i
最终,本文总损失函数为:
^total = ^labelled + P^contr + Y^unlabelled
其中,0和y分别表示增强成对跨模态数据和无标记数据的相似性的贡献。
4.4实验结果与分析
4.4.1 数据集
如表 4-1 所示,本文使用三个自然图像-文本的多模态基准数据集进行对比 实验,包括Wikipedia、NUS-WIDE和MSCOCO数据集。此外,本文方法也被拓 展到公开数据集Open-I 上,下面提供这些数据集的详细信息。
Wikipedia[129]的介绍见第 341。
NUS-WIDE[162]:由260,648个图像-文本对组成,包含来自81个概念标签的 一个或多个概念标签,每个文本包含标签。根据参考文献[94],选择 21 个最常见 的概念对应的图像-文本对。基于参考文献[94],本文实验中使用71602个图像-文 本对,每个图像-文本对的类标签只对应于21个最常见的概念中的一个。在本文 的实验中,这个数据集分成训练集42941个图像-文本对,验证集5000个图像- 文本对,测试集23661个图像-文本对。
MS-COCO"4】:包含123287个图像-文本对,80个类别,文本由句子组成。 在本文的实验中,选择82081个图像-文本对进行训练, 5000个图像-文本对进行 验证, 5000个图像-文本对进行测试。
Open-I的介绍见第341。
表 -1 实验中使用的多模态基准数据集的统计
Table -1 The statistics of the multi-modal benchmark datasets used in the experiments
数据集 类别数 训练/验证/测试 特征
Wikipedia 10 2173/231/462 4096D VGG
5000D BOW
NUS-WIDE 21 42941/5000/23661 4096D VGG
1000D BOW
MS-COCO 80 20000/2500/2500 4096D VGG
2026D BOW
Open-I 20 2322/290/290 4096D VGG
768D Bert
4.4.2 对比方法
为证明所提方法的有效性,本文方法SCMB与9种最先进的跨模态检索方
法进行比较,包括 DCCA(2013)[115]、 DCCAE(2015)[165]、 DSCMR(2019)[112]、
S3CA(2020)[110] 、 JRL(2013)[166] 、 GSS-SL(2017)[122] 、 SMLN(2020)[144] 、
MRL(2021)[149]和 SCLss(2022)[148]。其中 DCCA 和 DCCAE 是无监督的跨模态检 索方法,DSCMR和S3CA是有监督的跨模态检索方法,JRL、GSS-SL、SMLN、 MRL、SCLss是半监督的跨模态检索方法。
4.4.3评价指标
本文选择平均精度均值MAP@K (Mean Average Precision, MAP)作为实验 的评价指标,评估跨模态检索方法的性能,其中K分别设置为K = 50和K = ALL。 MAP@K是最常用的跨模态检索评价指标[167],主要利用类别标签衡量前K个检 索样本的平均精度。
4.4.4实验细节
本文首先提取ImageNet上预先训练的VGG19[170]网络的Fc7层图像特征, 然后利用TF-IDF的词袋模型提取文本特征。然后,本文使用维度为1024维和 512维的两个全连接层将图像特征和文本特征转换到公共空间,同时针对全连接 层的每层的输出使用一个Relu[102]激活函数。此外,在本文方法SCMB的参数设 置中:a = 0.9, t = 0.5, e = 1e — 8,跨模态记忆库的大小为2500。而且,每 次记忆库更新时,类概率的均值都会初始化,即B = 0o
实验使用PyTorch框架在两个NVIDIA 3090Ti图形处理器上实现,此外,本 文在训练过程中,设置学习率为e-2,优化器为Adam,指数衰减率为(0.5 - 0.999), 迭代次数为200o对于Wikipedia数据集,GSS-SL的MAP@ALL分数引用自 SCLss。其他对比方法均为复现结果。此外,“-”表示对比方法无法在相应的数据 集上复现。
4.4.5消融实验
本小节评估本文方法的每个损失函数的贡献,表 4-2 和表 4-3 分别展示在 MS-COCO 数据集和 Wikipedia 数据集上无标记数据占比 5%时,在 Image2Text 和 Text2Image 上的消融实验。在表 4-2 和表 4-3 中,“the SCMB without labelled loss”表明本文未单独增强跨模态记忆库中具有相同类标签的数据之间的相似度。
“The SCMB without contrastive loss”表明本文未单独增强跨模态记忆库中成对 跨模态数据之间的相似度。“The SCMB without unlabelled loss”表明本文未使用 伪标签进行无标记数据的伪监督。
在表 4-2 中,“the SCMB without labelled loss” 的平均 MAP@ALL 值和平均 MAP@50值分别约为53%和68%,与SCMB相比分别降低约29%和20%。同样 得,表 4-3 中,“the SCMB without labelled loss” 的平均 MAP@ALL 值和平均 MAP@50值分别比SCMB降低了约8%和8%。实验说增强跨模态记忆库中相同 类标签的数据之间的相似度有利于跨模态检索。
表 4-2 中,'‘the SCMB without contrastive loss ” 在平均 MAP@ALL 值和平均 MAP@50值上比本文方法分别降低约5%和3%o同样,表4-3可以看出,“the SCMB without contrastive loss” 的平均 MAP@ALL 值和平均 MAP@50 值分别约 为43%和49%,与表4-3中本文的方法相比,分别下降约5%和7%。实验结果展 示增强跨模态记忆库中成对跨模态数据的相似度是可行的。
此外,表4-2和表4-3也表明使用无标记数据的伪监督可以提高半监督跨模 态检索的性能。例如,在表4-2中,“the SCMB without unlabelled loss”的平均 MAP@ALL值和平均MAP@50值分别约为76%和86%,与本文方法SCMB相 比大约下降6%和2%o
 
表4-2在MS-COCO数据集上的消融研究
Table -2 Ablation study on the MS-COCO dataset
方法 I2T MAP@ALL I2T MAP@50
T2I 平均值
T2I 平均值
SCMB without labelled loss 0.530 0.526 0.528 0.675 0.675 0.675
SCMB without contrastive loss 0.772 0.765 0.768 0.839 0.869 0.854
SCMB without unlabelled loss 0.761 0.761 0.761 0.854 0.858 0.856
SCMB 0.81 0.819 0.817 0.876 0.890 0.883
注:“the SCMB without labelled loss”表示本文方法不考虑有标记数据的分类损失,“the SCMB without labelled loss ”表示本文方法不考虑对比损失,“ SCMB without unlabelled loss”表示本文方法不考虑无标记数据的分类损失。加粗部分为最优结 果。
表4-3在Wikipedia数据集上的消融研究
Table -3 Ablation study on the Wikipedia dataset
方法 map@all MAP@50
I2T T2I 平均值 I2T T2I 平均值
SCMB without labelled loss 0.403 0.394 0.399 0.467 0.486 0.476
SCMB without contrastive loss 0.461 0.391 0.426 0.503 0.471 0.487
SCMB without unlabelled loss 0.481 0.427 0.454 0.521 0.527 0.524
SCMB 0.517 0. 0. 81 0.560 0.529 0.562
注:“the SCMB without labelled loss”表示本文方法不考虑有标记数据的分类损失,“the SCMB without labelled loss ”表示本文方法不考虑对比损失,“ SCMB without unlabelled loss”表示本文方法不考虑无标记数据的分类损失。加粗部分为最优结 果。
4.4.6参数分析 半监督的跨模态检索方法在学习跨模态数据之间的相关性都会考虑有标记
数据的监督。因此,在本小节中,本文设置有标记数据的交叉熵损失的贡献为1。 本小节仅讨论在跨模态记忆库中对比损失和无标记数据的分类损失的贡献。首先, 本小节研究公式4-16用来增强成对跨模态数据之间相似性的超参数0的影响。设
Y — 1, 0设为{0, 0.001, 0.01, 0.1, 1, 10, 100, 1000}。图 4-4 (a)(b)分别显示 MS-COCO 数据集上 I2T、T2I 和 average 的 MAP@ALL 值和 MAP@50 值。图 4-5(a)(b)分别显示 Wikipedia 数据集上 I2T、T2I 和 average 的 MAP@ALL 值和 MAP@50值。结果表明,当0在{100, 1000}范围内变化,本文方法的性能最佳。 之后,本文分析无标记数据中利用伪标签进行数据监督的超参数y的影响。设0=1, y的范围设在{0, 0.001, 0.01, 0.1, 1, 10, 100, 1000}。图 4-4(c)(d)和图 4-5 (c)(d) 分别是 MS-COCO 数据集和 Wikipedia 数据集 I2T、T2I 和 average 的检索结果。 可以看出,当y = 0.1时,本文方法的性能最好。在图4-4(c)中,当y大于1后, 模型减小对有标记数据的分类损失和成对的跨模态数据的对比损失的关注,跨模 态记忆库中相关的不同模态的数据之间的亲和度降低,影响检索性能,导致检索 结果下降。尽管当7=100到y=1000时,T2I的结果有短暂上升,但整体仍是下降
 
图4-4在5%标记数据的MS-COCO数据集上,不同"和y条件下所提方法的MAP@ALL 和MAP@50值
Figure 4-4 The MAP@ALL and MAP@50 values of the proposed method with different 仔 and y on the MS-COCO dataset with 5% labelled data
 
注: MS-COCO数据集上的表现。(a):当卩=1时,不同0时所提方法的MAP@ALL值。
(b): y = 1时不同B时所提方法的MAP@50值。(c): ft = 1时不同y条件下所 提方法的MAP@ALL值。(d): ft = 1时不同y条件下所提方法的MAP@50值。
 
 
MAP@ALL 和 MAP@50 值
Figure 4-5 The MAP@ALL and MAP@50 values of the proposed method with different 仔 and y on the Wikipedia dataset with 5% labelled data
 
注: Wikipedia数据集上的表现。(a):当厂1时,不同0时所提方法的MAP@ALL值。
(b): y = 1时不同B时所提方法的MAP@50值。(c) : 0 = 1时不同y条件下所 提方法的MAP@ALL值。(d) : 0 =1时不同y条件下所提方法的MAP@50值。
4.4.7对比实验
4.4.7.1定量分析
为比较所提方法与对比方法的性能,表4-4-表4-9分别展示I2T和T2I在 Wikipedia、NUSWIDE 和 MS-COCO 数据集上的 MAP@ALL 和 MAP@50 值, 监督率(有标记数据占总数据的比例)分别为5%、10%和30%。试验结果表明 监督率降低时,所有监督方法和半监督方法的性能都有所下降,其中监督方法的 性能受到的负面影响最大。例如,监督率为5%时,DCCAE的MAP@ALL平均 值为23.4%,与表4-6中监督率为30%时相比下降15.7%。表4-6中,监督率为 5%的S3CA的MAP@ALL平均值比监督率为30%的S3CA的MAP@ALL平均 值降低了 12.5%o表4-8中监督率为5%的DSCMR方法的MAP@ALL平均值相 对监督率为30%的DSCMR降低10.7%o
而且,表4-4-表4-9也反映所提出的SCMB方法在任意监督率上都优于其他 对比方法。例如,监督率为5%时,本文方法的MAP@ALL得分比表4-4中I2T 最先进的半监督方法(SCLss,排名第二)的MAP@ALL值高约2%。
表4 -4 Wikipedia数据集上MAP@ALL结果的性能比较
Table - The performance comparison in terms of MAP@A results on the Wikipedia
dataset
MAP@ALL
方法 监督率5% 监督率10% 监督率30%
I2T T2I 平均值 I2T T2I 平均值 I2T T2I 平均值
DCCA 0.191 0.229 0.210 0.191 0.229 0.210 0.191 0.229 0.210
DCCAE 0.292 0.233 0.263 0.292 0.233 0.263 0.292 0.233 0.263
DSCMR 0.256 0.212 0.234 0.305 0.261 0.283 0.421 0.362 0.391
S3CA 0.280 0.313 0.297 0.317 0.347 0.332 0.362 0.411 0.387
JRL 0.297 0.284 0.291 0.298 0.316 0.307 0.350 0.327 0.339
GSS-SL 0.258 0.244 0.251 0.307 0.274 0.291 0.345 0.306 0.326
SMLN 0.360 0.320 0.340 0.381 0.341 0.361 0.465 0.402 0.433
MRL 0.373 0.337 0.355 0.385 0.344 0.365 0.435 0.385 0.410
SCLss 0.469 0.421 0.445 0.477 0.436 0.457 0.495 0.476 0.485
Ours(SCMB) 0.517 0. 0. 81 0.525 0. 7 0.500 0.53 0. 99 0.517
注:加粗部分为最优结果
 
表4-5 Wikipedia数据集上MAP@50结果的性能比较
Table -5 The performance comparison in terms of MAP@50 results on the Wikipedia
dataset
MAP@50
方法 监督率5% 监督率10% 监督率30%
I2T T2I 平均值 I2T T2I 平均值 I2T T2I 平均值
DCCA 0.201 0.188 0.194 0.201 0.188 0.194 0.201 0.188 0.194
DCCAE 0.291 0.176 0.234 0.292 0.176 0.234 0.291 0.176 0.234
DSCMR 0.348 0.325 0.336 0.386 0.398 0.392 0.495 0.512 0.504
S3CA 0.301 0.376 0.339 0.362 0.457 0.409 0.404 0.523 0.464
JRL 0.265 0.362 0.314 0.313 0.345 0.329 0.433 0.439 0.436
GSS-SL[ - - - - - - - - -
SMLN 0.442 0.441 0.441 0.443 0.467 0.455 0.490 0.533 0.511
MRL 0.437 0.454 0.446 0.438 0.462 0.450 0.462 0.511 0.486
SCLss 0.537 0.517 0.527 0.544 0.535 0.540 0.547 0.570 0.559
Ours(SCMB) 0.560 0.529 0.5 5 0.567 0.565 0.566 0.593 0.607 0.600
注:加粗部分为最优结果
 
表4-6 NUS-WIDE数据集上MAP@ALL结果的性能比较
Table -6 The performance comparison in terms of MAP@A results on the NUS-WID
dataset
MAP@ALL
方法 监督率5% 监督率10% 监督率30%
I2T T2I 平均值 I2T T2I 平均值 I2T T2I 平均值
DCCA 0.225 0.217 0.221 0.225 0.217 0.221 0.225 0.217 0.221
DCCAE 0.301 0.258 0.280 0.301 0.258 0.280 0.301 0.258 0.280
DSCMR 0.555 0.569 0.562 0.577 0.581 0.579 0.593 0.582 0.588
S3CA 0.513 0.510 0.512 0.545 0.528 0.537 0.587 0.553 0.570
SMLN 0.477 0.499 0.488 0.523 0.529 0.526 0.580 0.588 0.584
MRL 0.570 0.557 0.564 0.564 0.559 0.562 0.572 0.574 0.573
SCLss 0.608 0.611 0.610 0.617 0.621 0.619 0.633 0.634 0.634
Ours(SCMB) 0.622 0.631 0.627 0.637 0.642 0.6 0 0.653 0.652 0.653
注:加粗部分为最优结果
 
表4-7 NUS-WIDE数据集上MAP@50结果的性能比较
Table -7 The performance comparison in terms of MAP@50 results on the NUS-WID
dataset
MAP@50
方法 监督率5% 监督率10% 监督率30%
I2T T2I 平均值 I2T T2I 平均值 I2T T2I 平均值
DCCA 0.225 0.217 0.221 0.225 0.217 0.221 0.225 0.217 0.221
DCCAE 0.301 0.258 0.280 0.301 0.258 0.280 0.301 0.258 0.280
DSCMR 0.732 0.728 0.730 0.759 0.750 0.755 0.773 0.758 0.772
S3CA 0.690 0.604 0.647 0.711 0.676 0.694 0.740 0.762 0.751
SMLN 0.657 0.631 0.644 0.681 0.620 0.651 0.681 0.621 0.651
MRL 0.672 0.612 0.642 0.673 0.616 0.644 0.669 0.622 0.645
SCLss 0.738 0.723 0.731 0.756 0.735 0.746 0.756 0.739 0.748
Ours(SCMB) 0.754 0.738 0.7 6 0.766 0.761 0.76 0.779 0.766 0.773
注:加粗部分为最优结果
 
表4-5、表4-7和表4-9可以观察到,在监督率为10%的Wikipedia、NUS- WIDE 和MS-COCO三个数据集上,本文方法的平均精度@50比SCLss分别提升 了 2.6%、1.8%、4.9%。监督率为30%时,本文方法的MAP@50得分比表4-9中 T2I的SCLss的MAP@50得分高5%左右。除此之外,在表4-6中,与目前最先 进的监督率为10%的无监督方法(DCCAE)相比,I2T和T2I的MAP@ALL得分 分别提高33.6%和38.4%。
 
表4-8 MS-COCO数据集上MAP@ALL结果的性能比较
Table -8 The performance comparison in terms of MAP@A results on the MS-COCO
dataset
MAP@ALL
方法 监督率5% 监督率10% 监督率30%
I2T T2I 平均值 I2T T2I 平均值 I2T T2I 平均值
DCCA 0.276 0.224 0.250 0.276 0.224 0.250 0.276 0.224 0.250
DCCAE 0.322 0.242 0.282 0.322 0.242 0.282 0.322 0.242 0.282
DSCMR 0.693 0.652 0.673 0.745 0.712 0.728 0.791 0.770 0.780
S3CA 0.670 0.611 0.641 0.723 0.700 0.712 0.771 0.719 0.745
JRL 0.489 0.472 0.481 0.560 0.569 0.565 0.658 0.647 0.653
SMLN 0.621 0.629 0.625 0.697 0.696 0.697 0.702 0.703 0.703
MRL 0.754 0.765 0.759 0.776 0.788 0.782 0.828 0.843 0.835
SCLss 0.772 0.779 0.776 0.781 0.789 0.785 0.786 0.793 0.789
Ours(SCMB) 0.814 0.819 0.817 0.829 0.840 0.83 0.850 0.863 0.857
注:加粗部分为最优结果
 
表4-9 MS-COCO数据集上MAP@50结果的性能比较
Table -9 The performance comparison in terms of MAP@50 results on MS-COCO
dataset
MAP@50
方法 监督率5% 监督率10% 监督率30%
I2T T2I 平均值 I2T T2I 平均值 I2T T2I 平均值
DCCA 0.276 0.224 0.250 0.276 0.224 0.250 0.276 0.224 0.250
DCCAE 0.322 0.242 0.282 0.322 0.242 0.282 0.322 0.242 0.282
DSCMR 0.802 0.798 0.800 0.843 0.843 0.843 0.868 0.877 0.873
S3CA 0.778 0.747 0.763 0.826 0.830 0.828 0.830 0.866 0.848
JRL 0.506 0.536 0.521 0.571 0.628 0.600 0.721 0.740 0.731
SMLN 0.803 0.845 0.824 0.821 0.861 0.841 0.832 0.843 0.838
MRL 0.803 0.851 0.827 0.809 0.863 0.836 0.837 0.900 0.868
SCLss 0.835 0.866 0.851 0.838 0.870 0.854 0.856 0.883 0.869
Ours(SCMB) 0.876 0.890 0.883 0.893 0.913 0.903 0.906 0.926 0.916
注:加粗部分为最优结果
 
4.4.7.2案例研究
图4-6和图4-7分别展示本文方法在I2T和T2I中MS-COCO数据集上的可 视化结果。从查询集中随机选择5张图片和5个文本作为分析对象,然后展示前 5个检索结果。标红部分是与查询最相关的成对样例。图4-6和图4-7能观察到
本文的方法可提高半监督跨模态检索的准确性,并优先找到与查询数据最相似的 数据。然而,本文的方法也存在一些不足。例如,在图4-7中的第三个文本,虽 然检索到的前5张图片都包含关键目标花瓶,但有些图片只包含一个花瓶,无法 正确描述查询文本。图4-7中的第五个文本,检索到的前5个图像包括关键目标 消防栓,但部分图片中消防栓的颜色为黄色或蓝色,与文本中提到的“红色消防 栓”不一致。结果表明,由于缺乏颜色、数字等属性,所学习的模型的细粒度信 息不够精确。
检索的文本Top-5
1.A cat looks tired while wearing a small plastic hat
2.A cat laying on a table that shows off it s reflection
3.A cat sitting by a window watching the rain.
. A striped cat sitting in a windowsill.
5. Cat lying on small red rug in middle of room.
1.A piece of chocolate cake with three different colored icing drops on it.
2.A cake topped with white frosting flowers with chocolate centers.
3.A single piece of chocolate cake is on the plate.
. Give candles to light a decorative cake with white frosting.
5. Cake with a lot of lit candles and a message that says, Happy Birthday Brandon.
1.Herd of zebras grazing on tall grass in wide open range.
2.A zebra standing on a dry grass-covered field.
3.A zebra grazing on the lush green grass next to trees.
. A herd of zebra standing on a field.
5. A zebra looking alertly at the camera while in the field.
1.An old bus is driving along down a street lined with trees.
2.A white bus driving past a tall building.
3.there is a bus that is stopped and is very dark
. A white bus parked on the side of a road.
5. A white bus on the street on a cloudy day.
1.A brown duck floats by itself on the water.
2.There is a bird standing on a rocky shore.
3.A black and white duck swims in the water.
. A small bird sitting on top of a lush green field.
5. A black bird sitting on top of the piece of stone.
图4-6该方法在MS-COCO数据集上I2T的前5个检索样本
Figure -6 The Top-5 retrieved samples of the proposed method on the MS COCO dataset
for I2T
注:红色框表示检索到的样本在语义上与查询样本最相似。
 
查询文本
A bench sitting on the beach near the ocean.
图4-7该方法在MS-COCO数据集上T2I的前5个检索样本
Figure -7 The Top-5 retrieved samples of the proposed method on the MS COCO dataset
for T2I
注:红色框表示检索到的样本在语义上与查询样本最相似。
4.4.7.3特征分布可视化分析
T-SNE用于可视化特征分布,可以更直观的展现本文方法在特征分布中的变 化。以5%标签数据的MS-COCO数据集为例,如图4-8和图4-9所示,“o”表示 测试图像特征,“△”表示测试文本特征。首先,本小节定义初始图像特征为4096 维的向量,文本特征表示为2026维的向量。图4-8(a)(b)分别为图像和文本的原 始特征分布。图4-8(c)将图像和文本特征原始特征分布展现在同一空间中。图 4-8(a)-图4-8(c)可以观察到,一开始图像和文本的特征分布是不同的。经过训练 后,图像和文本被映射到一个512维的公共空间。图4-9(a)(b)分别展示本文方法 所学习到的公共表示的特征分布。图4-9(c)对图像和文本共同表示的特征分布进 行合并。图4-9可以看出,本文方法能够更好的区分具有潜在相关性的多模态数 据,并且,可视化结果表明本文方法可以缩短来自不同模态的具有相关性的图像 和文本之间的距离,减小跨模态数据的异质性差距。
 
 
(c)
图4-8该方法在含5%有标记数据的MS-COCO数据集上的原始特征分布可视化
Figure -8 isualization of original feature representation of the proposed method on the
MS-COCO dataset with 5 % labelled data
注:“o”代表图像模态的测试数据,“A”代表文本模态的测试数据。这些类用不同的颜色 表示。(a:由图像模态得到的原始特征分布。b:文本模态的原始特征分布。c:图 像和文本在同一空间的原始特征分布。
 
 
 
(a) (b)
 
 
(c)
图4-9该方法在含5%有标记数据的MS-COCO数据集上的原始特征分布可视化
Figure -9 isualization of original feature representation of the proposed method on the
MS-COCO dataset with 5 % labelled data
注:“o”代表图像模态的测试数据,“△”代表文本模态的测试数据。这些类用不同的颜色 表示。a:图像共同表示的特征分布。b:文本公共表示的特征分布。c:图像和文 本公共表示在公共空间中的特征分布。
4.4.7.4医学影像-文本检索 为了验证本文提出的半监督跨模态检索方法在医学影像-文本检索中同样有 效,本小节模型的输入替换为公开数据集Open-I,来研究医学影像-文本检索。
图4-10和图4-11分别展示本文方法在I2T和T2I中检索的可视化结果。随机选
 
 
择5张图片和5个文本作为查询对象,每个查询样本展示前5个检索结果。实验
结果展示该方法在医学影像-文本检索中同样有效。
查询样本
1.
The heart size and pulmonary vascularity appear within normal limits. A large hiatal hernia is noted. The lungs are free of focal airspace disease. No pneumothorax or pleural effusion is seen. Degenerative changes are present in the spine.
Cardiac and mediastinal contours are within normal limits. The lungs are clear. Bony structures are intact.
2.
3.
5.
1.
2.
3.
.
5.
检索的文本Top-5
Chest. Heart size within normal limits. No focal airspace disease. No pneumothorax or effusions. Mild degenerative changes throughout the thoracic spine. Right knee. There has been prior ligamentous repair. There is tricompartmental joint space narrowing and marginal osteophyte formation which is severe in the medial compartment. No knee joint effusion. No fractures or dislocations.
The trachea is midline. The cardio mediastinal silhouette is normal. The lungs are clear, without focal consolidation or effusion. There is no pneumothorax. The visualized bony structures reveal no acute abnormalities. ateral view reveals mild degenerative changes of the thoracic spine. No layering pleural effusion or pneumothorax seen on decubitus exam.
Normal heart size and mediastinal contours. No focal airspace consolidation. No pleural effusion or pneumothorax. Stable postoperative and degenerative changes ofthe XXXX. Stable degenerative disc disease of the thoracic spine.
There is mild blunting of the right costophrenic XXXX which may represent a small right pleural effusion. No focal consolidation or pneumothorax identified. Cardio mediastinal silhouette demonstrates stable mild tortuosity of the thoracic aorta, and heart size within normal limits and stable. No acute osseous abnormality. There is redemonstration of mild multilevel degenerative disc disease of the thoracolumbar spine. Old, healed left rib fractures are noted.
Heart size is normal. There is tortuosity of the thoracic aorta, stable compared with prior. No focal airspace disease or effusion. No pleural effusions or pneumothoraces. Degenerative changes in the thoracic spine.
The lungs are clear bilaterally. Specifically, no evidence of focal consolidation, pneumothorax, or pleural effusion. Cardio mediastinal silhouette is unremarkable. isualized osseous structures of the thorax are without acute abnormality. Specifically, no evidence ofrib fractures.
Heart size and pulmonary vascularity appear within normal limits. The lungs are free of focal airspace disease. No pleural effusion or pneumothorax is seen. No nodules or adenopathy is identified.
The lungs are clear bilaterally. Specifically, no evidence of focal consolidation, pneumothorax, or pleural effusion. Cardio mediastinal silhouette is unremarkable. isualized osseous structures of the thorax are without acute abnormality.
The lungs are clear bilaterally. Specifically, no evidence of focal consolidation, pneumothorax, or pleural effusion. Cardio mediastinal silhouette is unremarkable. isualized osseous structures of the thorax are without acute abnormality.
The lungs are clear bilaterally. Specifically, no evidence of focal consolidation, pneumothorax, or pleural effusion. Cardio mediastinal silhouette is unremarkable. isualized osseous structures of the thorax are without acute abnormality.
图4-10该方法在Open-I数据集上I2T的前5个检索样本
Figure -10 The Top-5 retrieved samples of the proposed method on the Open-I dataset for
I2T
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
查询样本 Top-5
The lungs are clear bilaterally. Specifically, no evidence of focal consolidation,
pneumothorax, or pleural effusion. Cardio mediastinal silhouette is unremarkable. isualized osseous structures ofthe thorax are without acute abnormality.
The trachea is midline. The cardio mediastinal silhouette is normal. The superior thoracic spine is again noted, unchanged from prior. ucent pulmonary parenchyma is consistent appearance with emphysema and appears unchanged from prior examinations. No evidence of pneumothorax. No focal airspace disease or pleural effusion. ague density in the medial right lung apex most XXXX representing overlying shadows of bony structures, which is stable.
H
 
图4-11该方法在Open-I数据集上T2I的前5个检索样本
Figure -11 The Top-5 retrieved samples of the proposed method on the Open-I dataset for
T2I
4.5本章小结
本章构建一个半监督的跨模态记忆库学习无标记数据的监督信息,即伪标签。 根据图像-文本对的潜在相关性,无标记图像的伪标签除了与其配对文本的类概 率相关,还与其相似的文本的类概率相关。本文将图像的类概率和与之相关的带 权重的文本的类概率相加,以学习无标记图像的伪标签。同时,利用有标记文本 的类概率对图像的伪标签进行平滑处理。此外,在训练过程中增加了图像-文本 对之间以及同类有标记数据之间的特征表示的权重,以提高伪标签的准确性。在 三个基准数据集上进行大量实验,当监督率为 10%时,相比最优的半监督相关学 习方法,本文方法在 Wikipedia、NUS-WIDE 和 MS-COCO 数据集上的平均 MAP@50 分别提高了2.6%、1.8%、4.9%,实验结果证实提出的半监督的跨模态 学习方法的有效性。在未来,将研究如何使用更加细粒度的信息去学习无标记数 据的特征表示。
第 5章 基于检索的自适应融合策略的医学影像文本生成
5.1引言
随着医学成像设备的发展,智能化医学影像分析利用不同成像方式的医学影 像(X射线,CT, MRI等)[172],帮助专业医生进行疾病诊断。医学文本生成旨 在通过分析医学影像自动生成对应的文本描述,该过程涉及到图像和自然语言两 种模态的数据。对于医学影像文本生成而言,医学影像和专业文本的复杂性不容 忽视。医学影像文本生成按照不同的生成方式,可分为基于生成的方法和基于检 索的方法。
基于生成的方法涉及自然语言处理技术和机器学习模型。这类方法需要规模 更大的数据集和更复杂的算法。 2016年, Shin 等人[175]首次使用图像生成描述中 经典的 CNN-RNN 模型,用于医学影像文本生成,从此开启了基于“编码器-解 码器”模型的医学影像文本生成研究。然而,编码器和解码器之间仅通过图像的 特征向量连接,导致解码器的输入中图像的语义信息不充足。于是,研究者们在 “编码器-解码器”中引入注意力机制模块、强化学习、知识图谱等以提高生成文 本的准确性。Zhang等人[176]改进ResNet,提出集成连接,即ResNet在最后一层 卷积中集成多尺度表示,同时,图像特征在多个症状描述引导的注意力机制下分 别送入到多个LSTM,实现单一症状描述句的生成;使用“软”注意力机制对每 个描述句进行加权处理;最终在膀胱癌病理影像的文本生成任务中取得较好的性 能。然而,基于生成的方法通常需要更大的数据集和更复杂的算法。并且医学文 本涉及大量专业性描述名词,医学影像之间差异性小,甚至X-ray图像间也具有 较高的相似性,导致每张影像生成的文本往往趋向于统一的表述。
基于检索的方法根据图文之间或图图之间的相似度,检索与图像最相似的文 本或与之最相似图像所对应的文本,并使用这些文本引导最终的文本生成。例如, Wang 等人[177]将异常医学术语增强的图像特征输入到关系主题编码器中生成主 题向量,并计算终止控制得分,即是否停止主题生成进程。然后,Wang等人利 用自适应网络学习自适应决策策略,即选择最终输出的文本为生成的主题向量或 直接复制检索库中的文本。在训练过程中,Wang等人同时约束了异常多标签分 类损失、停止信号预测损失、句子的模板分类损失以及单词分布上的预测损失, 在 IU X-ray 数据集和 CX-CHR 数据集上最终的 BLEU-4 得分分别为 0.168 和 0.548。Zhang等人[178]利用序列到序列模型生成文本单词的预测概率,之后提出 指针生成网络,该网络除了通过生成概率从词汇表中生成一个单词外,还能够通 过复制概率从输入文本中直接复制单词。最终,该方法在Zhang等人提出的数据 集上的ROUGE-L得分为47.06。Yang等人[179]提出一种基于分层检索的医疗文 本生成模型,该模型包括两个检索子模块:视觉-语言检索模块,语言-语言检索 模块。首先,该模型使用视觉-语言模块检索与影像最相似的若干文本,经过多查 询注意力机制将影像和检索到的文本进行融合,分层语言解码器利用融合特征生 成第一个句子。之后,根据语言-语言检索模型检索与上一个生成句子最相似的 若干个文本,通过多查询注意力机制将检索到的文本和上一个句子融合,并作为 到分层语言解码器的输入。最终,在Open-I数据集和MIMIC-CXR数据集上的 BLEU-4得分分别达到0.166和0.164。基于检索的方法已经在医学影像文本生成 任务中表现优异。大量的方法已证明:通过检索模型可以快速、有效地检索到相 似的文本,提高最终生成文本的质量。因此,本文的研究同样基于检索的方法展 开。然而,基于检索方法的文本生成质量一方面取决于检索模型的性能优劣,另 一方面取决于在医学影像文本生成过程中检索文本的使用策略。现有方法通常侧 重研究检索文本的使用策略,很少关注特定的医学影像-文本检索模型,而且现 有方法的使用策略过于复杂。除此之外,现有方法大部分使用2D图像进行分析, 而2D图像的语义信息较少,不利于文本生成。
针对以上问题,本文收集2011 年1 月至2022年11 月期间八种不同诊断结 果(包括不同类型的肺部疾病或者不同阶段的尘肺病)的医学CT影像和相应的 文本,并且提出一种基于检索的自适应融合策略的医学影像文本生成方法 (Retrieval-based Adaptive Fusion Strategy, RAFS)。该模型包含三个子模块:1) 肺部分割模块;2)跨模态检索模块;3)自适应融合策略模块。具体地,本文在 一个特定数据集下训练跨模态检索模型,同时关注模态间相似性和模态内相似性, 使得医学影像能够检索到更相似的文本。为减少生成过程中图像和文本之间的模 态差异,本文将检索模型中间层的图像特征作为生成模型中解码器的输入,将中 间层文本特征作为解码器的检索特征用于引导生成任务。最终,本文利用检索特 征与生成的固定词汇之间的相似性计算检索得分,并将该得分作为检索权重,提 出自适应融合策略计算固定词汇的检索概率和生成概率加权求和。
综上所述,本章的主要贡献如下:
(1)提出一种基于检索的自适应融合模型用于医学影像文本生成,动态计算 检索得分,实现固定词汇在生成和检索上的概率分布的自适应融合。
(2)构建一个肺部医学影像文本生成数据集,首次使用完整 CT 影像为医学 影像文本生成提供更多的图像语义信息。
(3)在影像生成模型中使用预训练跨模态检索模型的中间层图像特征和文本 特征,减少生成过程中的跨模态差异。
 
The bilateral compages of the thorax are symmetrical. Thin-section CT...
检索文本
图5-1 基于检索的自适应融合策略的文本生成的框架示意图
Figure 5-1 General framework of the proposed RAFS
注:RAFS由三部分组成:首先第i个图像经肺部分割模块保留肺部区域。其次,经预 训练CT-文本检索模块提取CT图像特征作为具有注意力机制的LSTM解码器的 输入,学习生成文本概率;同时,检索与CT图像相关的文本特征,与LSTM解 码器隐藏单元特征结合学习检索得分和固定词汇的检索文本概率。最终动态融合 生成文本概率和检索文本概率预测文本单词。“黑色箭头”过程为生成过程,“橙色 箭头”过程是加入检索文本过程。“FC”表示全连接层。
5.2基于检索的自适应融合策略的医学影像文本生成方法
本部分提出基于检索的自适应融合策略的医学影像文本生成的主要框架。如 图5-1,给定一个医学影像文本数据集X = {xf,yi,z^=i,为CT影像的灰度值, %为图像相对应的分析文本,彳为图像相对应的诊断结果,N为数据集的大小。 对于第i个CT影像好,经预处理后的图像竝被送入到特定数据集的预训练CT -文 本检索模型中。一方面,提取中间层特征可作为生成模型的输入。另一方面,检 索得到最相关的文本,并将其在预训练跨模态检索模型中间层的文本特征作为检 索特征用于引导生成概率。之后,图像特征闪被送入到包含注意力机制的LSTM 解码器中得到每个词汇在词表中的生成概率。最终通过自适应融合策略将检 索特征所对应的词汇的检索概率u仁与生成概率0伍加权求和,作为该词汇的输出 概率。
5.2.1肺部分割
参考2.4.1肺部分割方式,本文分别在每个 DICOM 文件中获得 CT 扫描的 灰度值妤,之后利用重缩放斜率对和重缩放截距对,获得肺部CT值,公式如下: 对=妤*时+对 (5-1)
其中保留CT值为(-1000HU, 200HU)以区分肺和周围组织信息。
之后根据标记控制的分水岭变换[83]来分割CT影像中每个切片的肺实质。最 终,本文将预处理的CT影像竝e rcxsxwxh送入到预训练的跨模态检索模型中。
 
 
图5-2 跨模态检索模块的框架示意图
Figure 5-2 General framework of cross-modal retrieval module
注:第i个CT图像和文本分别送入预训练的MedicalNet和ERNIE-Health模块提取图像 特征和文本特征。之后,经全连接层映射学习图像公共表示和文本公共表示。最 终,使用跨模态相关损失进行约束。“FC”表示全连接层。
5.2.2跨模态检索模块
本文在 CT 数据集上训练一个跨模态检索模型。第 3、4 章内容已经证明在 跨模态检索中,跨模态数据之间的相关性和语义性对提升模型性能同等重要。根 据这一发现,本文对CT-文本之间的相关性以及单模态数据的判别性进行约束。 具体地,如图5-2,在图像模态上,本文将预处理的CT影像^gRCxsxwxh送入 一个预训练的Medical-3D模型[23 ],保留最后一个卷积层的特征作为图像特征坊。 为了将图像特征映射到公共表示空间中,经过两个全连接层将图像特征琲转换成 图像公共表示可,具体如下:
Vi = f2(GELU(fi(x[))) (5-2)
其中GELU是激活函数,九,E为全连接层函数。
同理,在文本模态上,为了提取富含专业医学知识的底层信息,本文使用一 个预训练的ERINE-Health[24]模型提取文本特征耳。然后经过两个全连接层将文本 特征映射到公共空间中。具体如下:
Ui = g2(GELU(gi(tJ)) (5-3)
其中均为文本公共表示,gi,的为全连接层函数。
之后,图像公共表示q和文本公共表示均进行全局平均池化,得到的图像特 征向量玩e Rd和文本特征向量瑞e Rd用于跨模态检索。为了减少模态异质性,
最终跨模态检索相关损失函数如下:
T
1 pN exp(v-u^ )
S =—石〉lOg( 」 亍)
N 乙i 1 + 君 exp(v[ufJ)
1 n i N
+ N》W —乩+亓》严
其中,z'iERd为图像所对应诊断类别彳的特征中心。
5.2.3 自适应融合策略
在图像生成文本中,图像在送入预训练的跨模态检索模型后,检索若干个相 关的文本用于引导文本生成过程。为了减少模态异质性对生成过程的影响,预训 练的跨模态检索模型的中间层图像特征可用作生成任务中解码器的输入。并且检 索文本在预训练的跨模态检索模型中对应的中间层文本特征均被用作引导解码 器的检索特征。本文提出一种自适应融合策略,融合解码器生成的文本和检索到 的文本。包括两部分:1)注意力机制下的解码器;2)自适应融合模块。
二 I_ 增加维度
隐藏状态旷―|fc层I
特征^elu激活 西 fa^F器]耐一 图像特征巩 —Hfc层I ► 
图5-3 视觉注意力模块
Figure 5-3 isual attention module
注意力机制下的解码器。具体地,如图5-3,首先根据前一个隐藏状态h:- 和图像特征可来获取视觉上下文特征c--1如下:
c--1 = Att(h-1, V[, Vi; 0V) (5-5)
其中,Att(query, key, value; 0)是参数为0”的标准注意力机制模块[24]。
然后,LSTM聚合前一个生成文本单词的嵌入特征ef-1和视觉上下文特征 cf-1来生成当前隐藏状态h:,具体如下:
hf = LSTM([e--1, cf-1], h--1; e) (5-6)
其中,&是LSTM的参数。
最终生成当前文本单词如下:
Pi = %hf + ba (5-7)
其中,%和ba是可学习参数。
自适应融合模块。在每个解码步骤t中,计算检索文本特征血和当前隐藏状 态的检索的单词概率分布sf,以及检索文本的上下文特征rf,具体如下:
s-, rf = Att(hl,Ui,Ui; 6U) (5-8)
其中,久为标准注意力机制模块的参数。
之后将检索的单词概率分布sf映射到词表空间中,如下:
谚=%sf + bs (5-9)
其中,%和bs是可学习参数。
检索文本中存在许多冗余信息,本文计算检索得分提取检索文本中可用的信 息,融合到生成文本中,检索得分由检索文本上下文特征和解码器当前隐藏状态 决定。具体如下:
d- = Sigmoid((WpTi + 切)+ (U^h- + by)) (5-10)
其中,Wp、bp、好和如是可学习参数。Sigmoid是激活函数。
当前步骤t下的基于检索的生成文本单词在词表空间中的概率分布如下:
oi = (1—苦)pi + dfqi (5-11)
5.2.4 损失函数
基于检索文本生成的文本概率分布Oi = {o1,o2,^,ol}趋近于原始真实文本 yi = {yi,y2, — ,yi}-本文使用Cross-entropy损失最小化二者之间的距离。
N
L2 = — > yiiog(Oi) (5-12)
i=1
5.3实验结果与分析
5.3.1 数据集
为评估本文方法的性能,本文使用两个数据集。
(1)肺部 CT 数据集。目前用于医学影像文本生成任务的 CT 数据集通常是 选取CT数据的若干个2D CT影像,缺少完整的CT数据。本文在中国西部地区 最大的职业病鉴定中 开展研究,该中 是一家学术型三级转诊医院。在此过程 中,本文检索2011年1月至2022年11月的CT影像和对应文本数据。采集CT 影像方式及尘肺分级的标准见2.3小节。最终筛选出符合研究条件的 505例患者 进行分析。其中包括57例空洞型肺结核(Pulmonary tuberculosis with Cavity)患 者,38例尘肺伴空洞(Pneumoconiosis with Cavity )患者,84例尘肺III级患者, 43例尘肺II级患者,60例尘肺I级患者,35例尘肺0级患者,37例肺泡蛋白沉 积症(Pulmonary alveolar proteinosis )患者,30 例粟粒型肺结核(Military tuberculosis)患者和121例正常。本文对这些9类患者进行详细统计,包括肺部 患者的疾病分布,肺部患者的年龄分布,以及性别百分比,如图 5-4、图 5-5 和 图5-6所示。
 
 
 
 
 
Count of samples
图5-5 肺部患者的年龄范围分布图
Figure 5-5 The age distribution of patients with lung disease
Gender
 
■ Male ■ Female
图5-6 性别百分比图
Figure 5-6 The gender percentages
 
(2)Open-I 数据集,详细介绍见3.4.1。
5.3.2 对比方法
 
首先,本小节利用现有的最先进、公开的方法进行肺部CT数据集上的对比 实验,来证明本文方法的有效性。对比方法包括基于生成的方法 CNN-RNN、 CoAtt[180]和基于检索的方法V-L Retrieval-在肺部CT数据集上使用的CNN-RNN 方法来源于预训练Medical-3D模型[23]和LSTM的组合。V-L retrieval方法通过使 用本文提出的检索模型,将最终检索到的最相关的文本作为生成结果。
除此之外,本文使用基于生成的方法 CNN-RNN[26]、LRCN[181]、Tie-Net[182]、 CoAtt[180]、MvH+AttL[183]和基于检索的方法 V-L Retrieval、HRGR-Agent[184]、 KERP[185]、MedWriter[179]在公开数据集Open-I上评估本文方法的性能。除V-L retrieval,评估结果均来源于 MedWriter[179]。
具体方法如下:
(1)CNN-LSTM方法:经典的“编码器-解码器”组合,具体地,使用一个预 训练的CNN网络作为编码器,提取图像的特征表示,之后送入LSTM网络中生 成文本描述。
⑵LRCN方法:提出一种基于长期循环卷积网络(Long-Term Recurrent Convolutional Network, LRCN)方法,该方法叠加LSTM作为解码器,学习时间 动态和卷积感知表示,以生成可变长度的文本。
(3)Tie-Net方法:在编码器上,结合注意力编码器的文本嵌入模块提取的图 像特征和显著性加权的全局平均池化的特征。之后,结合后的特征送到全连接层 中构建多标签分类损失。最后,送入LSTM解码器生成文本。
(4)CoAtt方法:与Tie-Net方法相似,CoAtt方法首先使用CNN提取图像特 征,之后送入多标签分类网络预测相关文本标签。其次,融合预测的文本标签表 示和CNN提取的图像特征,作为具有注意力机制的LSTM的输入。
(5)MvH+AttL方法:与之前使用的ImageNet预训练的CNN不同,MvH+AttL 方法使用来自同一模态的大规模胸部X射线影像进行预训练,以捕获特定数据 集下的影像特征。在这个过程中,融合同一患者正面和侧面的影像特征,并且将 融合后的特征送入分层LSTM解码器中生成影像文本。
(6)Clinical-BERT 方法:一个视觉语言预训练模型,提供三个特定领域的任 务:临床诊断,掩蔽医学主题词建模,图像-主题词匹配,并结合一个通用的掩蔽 语言模型,对模型进行预训练。
(7)V-L Retrieval 方法:在检索数据库中检索与影像最相关的文本作为影像 文本生成的结果。
(8)KERP 方法:提出一种知识驱动编码、检索、解译( Knowledge-driven Encode、Retrieve> Paraphrase, KERP)方法生成高质量的文本。具体地,KERP 利用CNN模型,结合正面、侧面影像提取图像特征。之后,将图像特征输入图 Transformer (Graph Transformer, GTR)编码为异常图。该异常图输入到检索GTR 中解码为模板序列,由解译 GTR 解译为序列单词作为生成的文本。除此之外, 该异常图送入一个分类器预测类别。
(9)MedWriter方法:提出一种基于分层检索的医学影像文本生成方法,具体 地,使用视觉-语言检索模块检索与给定图像的最相关文本,将该图像特征和检 索文本特征融合送入 LSTM 解码器中生成文本。之后,利用语言-语言检索模块 检索与生成文本最相似的文本,并和第一步生成的文本融合送入 LSTM 解码器 中生成最终的文本。
5.3.3评价指标
(1)双语替换评测(Bilingual Evaluation Understudy, BLEU)
 
BLEU用来评估生成文本的质量。根据n-gram (连续n个词)重叠来计算生 成文本与真实文本之间的相似度,利用惩罚因子BP对最终BLEU结果进行约 束。一般包括四个变体:BLEU-1、BLEU-2、BLEU-3和BLEU-4,分别评估1- gram、2-gram、3-gram和4-gram序列的重叠。BLEU得分范围从0到1,得分越 高表示生成的文本与真实文本之间的单词匹配度越好。计算方式如下:
BP = [e,f>>l (5-13)
BlEU = BP ・ exp(^ Wn log Pn) (5-14)
其中, n=1
l为真实文本的长度,k为生成文本的长度。wn为权重,通常取均匀权重,
即w” = 1。%为真实文本与生成文本在n-gram上的精确率。
 
(2)显式排序的翻译评估指标(Metric for Evaluation of Translation with Explicit Ordering,METEOR)
METEOR 在评估真实文本和生成文本相似性时引入对齐机制,考虑单词的 词形,同时扩充同义词集。使用单元精度、召回率和基于对齐的度量的组合衡量 句子级别的生成文本的质量。计算公式如下:
METEOR = (1 — Pg)Fm (5-15)
其中,Fn=^话力是单元词组对齐后的准确率P和召回率R的调和平均。Pg = 是惩罚项°ch是组块的数量,m生成文本中能被匹配的一元词组的数量。 m
a = 0.9, y = 0.5, B = 3均为超参数。
(3)基于召回的评价(Recall-Oriented Understudy for Gisting Evaluation, ROUGE_L)
ROUGE_L 是利用生成文本和真实文本的最长公共子序列计算召回率。分别
计算LCS的准确率Pcls和召回率Rlcs,然后求加权的调和平均。主要衡量生成文 本基于召回率的质量。计算公式如下:
 
(4)基于共识的图像描述评估得分(Consensus-based Image Description
Evaluation,CIDEr)
CIDEr是基于共识的评价标准,关注生成文本的流畅度。计算生成文本Y和 真实文本X = {X±,X2,-,Xm}之间基于n-gram的分数的加权几何平均值。首先, CIDEr将n-gram在真实文本中出现频率编码进来,之后通过TF-IDF计算每个n- gram 的余弦距离作为权重。计算公式如下:
pN
CIDEr = ) wnCIDErn(X, Y) (5-17)
 
 
5.3.4实验细节
针对第一个肺部CT数据集,本文的初始CT影像维度为100 X 1 X 224 X 224。 针对第二个公开数据集Open-I,本文使用预训练的DenseNet201[170]的最后一个 卷积层的输出作为跨模态检索模型的图像特征时。使用预训练的Bert模型[118]作 为跨模态检索模型的图像特征耳。在跨模态检索模型中,用于检索相似性度量的 图像特征向量珑和文本特征向量u的维度分别为512o用于生成文本模型的输入 的图像特征可和用于引导生成的检索文本的特征血的维度为512o
在文本生成模型中,LSTM有512个隐藏单元,且注意力机制的维度均为 512o在测试过程中本文使用[CLS]作为起始符,参与第一个词汇的生成。当生成 文本中出现[SEP],生成词汇过程将自动停止。此外,本文在训练过程中,设置学 习率为e-3,优化器为Adam。
5.3.5消融实验
本小节评估检索文本、检索模型中预训练的图像特征和融合策略对生成文本 质量的影响,表5-1展示在肺部CT数据集上是否使用检索文本、预训练图像特 征和带有权重的融合策略的消融实验。“RAFS without retrieval text”表示生成模 型中未使用检索文本。“RAFS without retrieval feature”表示生成模型的输入未利 用检索模型中预训练的图像特征,而选择使用预训练的Medical-3D模型。“RAFS without fusion strategy”表示基于检索的文本生成过程中没有自适应融合策略,选 择检索概率和生成概率直接相加的策略。
表5-1在肺部CT数据集的消融研究
Table 5-1 Ablation study on the lung cT dataset
方法 B-1 B-2 B-3 B-4 M R C
RAFS without retrieval text 60.6 52.4 46.3 41.7 31.2 54.7 62.2
RAFS without retrieval feature 58.9 50.3 44.1 39.4 29.7 51.4 60.1
RAFS without fusion strategy 59.3 52.9 48.0 44.0 31.9 57.0 63.4
RAFS 60.3 5 .0 9. 5.8 32.9 59.1 79.3
注:“B-1, B-2, B-3, B-4, M, R, C” 分别表示评价指标 BLEU-1, BLEU-2, BLEU-3, BLEU-4, METEOR, ROUGE_L, CIDEr。加粗部分为最优结果。
 
如表5-1所示,“RAFS without retrieval text”中BlEU1得分比本文方法高出 0.3%,说明在单个单词序列重叠上“RAFS without retrieval text”优于本文方法。 但“RAFS without retrieval text”的其他指标中低于本文方法,如CIDEr,相较于 本文方法降低17.1%o本文方法的CIDEr比“RAFS without fusion strategy”提升 了15.9%,说明本文生成的文本流畅度,更接近于人工评价。实验验证使用检索文 本、预训练图像特征和融合策略在医学影像文本生成中具有重要的价值。
5.3.6对比实验
5.3.6.1定量分析
表 5-2 和表 5-4 分别展示不同方法在本文的肺部 CT 数据集和公开数据集 Open-I 的 BLEU、METEOR、ROUGE_L、CIDEr 评分。前者使用医学 CT 影像, 后者关注医学X-ray影像。由于缺少公开源代码,在提出的医学CT影像文本数 据集中仅使用2种生成方法和1种检索方法进行对比。表5-3展示本文方法和部 分对比方法的计算成本。
如表5-2所示,本文方法在B-1、B-2、B-3、B-4、M、R和C上的结果比仅 使用检索文本的方法所对应的结果分别高出7%、 11.2%、 13.7%、 14.7%、 6.5%、 13.3%和41.4%;比仅使用生成模型的方法对应的结果分别高出8%、2.9%、4.3%、 5.4%、2.4%、5.3%和51.4%,这表明,本文提出的基于检索的自适应融合策略有 效的将检索中关键的信息融合到生成模型中,提高传统生成模型和传统检索模型 的生成文本的质量。其中本文方法的CIDEr得分高达79.3%,结果说明本文方法 帮助生成模型有效提高了文本的流畅度,更符合人工分析结果。
在表5-4中,基于检索的方法普遍要比基于生成的方法性能好,这证明在医 学影像分析中结合检索文本是值得被考虑的。
除此之外,对比表 5-2 和表 5-4,本文发现,检索模型性能的好坏和文本生 成质量成正比。例如,相较于Open-I数据集上的V-L retrieval方法的BLEU-1得 分,在肺部CT数据集中V-L retrieval的BLEU-1得分高出21%。而最终生成的 文本的BLEU-1得分为60.3%,比Open-I数据集上的最终生成文本的BLEU-1得 分高出9.7%。
表5-2在肺部CT数据集上的性能比较
Table 5-2 The performance comparison on the ung cT dataset
模型类型 方法 B-1 B-2 B-3 B-4 M R C
Generation CNN+LSTM 59.5 51.1 45.1 40.4 30.5 53.8 27.9
CoAtt 40.0 30.0 23.9 20.0 22.1 29.3 34.4
Retrieval V-L retrieval 53.3 42.8 35.7 31.1 26.4 45.8 37.9
RAFS 60.3 5 .0 9. 5.8 32.9 59.1 79.3
注:B-1, B-2, B-3, B-4, M, R, C 分别表示评价指标 BLEU-1, BLEU-2, BLEU-3, BLEU-4, METEOR, ROUGE_L, CIDEr。加粗部分为最优结果。
 
 
表5-3 不同方法的计算成本
Table 5-3 Computation cost of different methods
模型类型 方法 Flops/G Parameters/M
Generation CNN+LSTM
CoAtt 527.2814
352.685 16.3196
110.6134
Retrieval V-L retrieval
RAFS 410.8194
481.3612 100.3577
101.9656
注:加粗部分为最优结果
 
 
表5-4在Open-I数据集上的性能比较
Table 5- The performance comparison on the Open-I dataset
模型类型 方法 B-1 B-2 B-3 B-4 M R C
CNN+LSTM 21.6 12.4 8.7 6.6 - 30.7 29.4
LRCN 22.3 12.8 8.9 6.8 - 30.7 28.5
Generation Tie-Net 28.6 16.0 10.4 7.4 - 22.6 27.9
CoAtt 45.5 28.8 20.5 15.4 - 36.9 27.7
MvH+AttL 45.2 31.1 22.3 16.2 - 35.1 22.9
V-L retrieval 32.3 21.6 16.2 12.8 15.5 24.3 12.9
HRGR-Agent 43.8 29.8 20.8 15.1 - 32.2 34.3
Retrieval KERP 48.2 32.5 22.6 16.2 - 33.9 28.0
MedWriter 47.1 33.6 23.8 16.6 38.2 34.5
RAFS 50.6 39.9 32.7 27.5 25.3 39.2 35.8
注:B-1, B-2, B-3, B-4, M, R, C 分别表示评价指标 BLEU-1, BLEU-2, BLEU-3, BLEU-4, METEOR, ROUGE_L, CIDEr。加粗部分为最优结果。
 
5.3.6.2案例研究
图5-6分别展示CNN+LSTM方法、V-L Retrieval方法和文本方法在肺部CT 数据集上的两个案例,可视化案例包括医学CT影像中的部分切片图像、来自放 射科医生的人工分析文本以及模型生成的分析文本。其中,部分切片图像为截取 范围在25到75的预处理后的CT影像,截取间隔为5。黄色部分是生成的分析 文本与放射科医生所描述的文本中相似的部分。
-L Retrieval
增厚粘连
 
真实文本
胸廓对称。双肺纹理清晰,肺野透光度未见异常,左肺下叶前 内基底段胸膜下见小结节影,长径约0.5cni,边界清楚;右肺 中叶外侧段小结节状致密影。气管、主支气管、叶、段支气 管未见狭窄、闭塞及异常扩张。纵隔居中,双肺门及纵隔内 未见增大淋巴结。心脏未见增大,心包未见积液。双侧胸腔 未见积液。
 
右肺上叶尖段钙化灶;右肺上叶前段、左下叶背段见浅淡 片状影,边缘隐约可辨。右肺中叶内侧段、左肺上叶尖后段 见小结节,直径约0.3cm;中叶内侧段见条索影。气管、主 支气管、叶、段支气管未见狭窄、闭塞及异常扩张。肺门 大小、位置未见异常。纵隔及双肺门未见确切肿块及增大 淋巴结。心脏大小未见异常,心包未见积液。双侧未见胸腔 积液。扫及肝右叶见稍低密度影,直径约0.6crm
胸廓对称。双肺纹理清晰,肺野透光度未见异常,双肺野未见 确切异常密度影。气管、主支气管、叶、段支气管未见狭 窄、闭塞及异常扩张。纵隔居中,双肺门及纵隔内未见增大 的淋巴结。心脏大小未见异常,心包未见积液。双侧未见胸 腔积液。扫及肝右叶钙化灶。
真实文本
胸廓对称。双肺纹理增多、紊乱,肺野透光度增加。双肺可 见弥漫结节影,边界清楚,分布对称,部分病灶融合形成稍高密 度软组织影,其内散在钙化,边缘可见纤维条索影,灶周气肿。 右肺上叶融合块内可见厚壁空洞形成,周围肺组织见斑片、 实变影。纵隔右偏,气管向右移。双肺门、气管前间隙、血 管前间隙、主肺动脉窗、气管隆突下可见多个增大淋巴结, 部分钙化。主动脉及左冠状动脉壁散在钙化灶,心脏大小未 见明显异常,心包未见积液。右侧胸膜腔少量积液,双侧胸膜
 
(b)
图 5-7 CNN+ STM 、 - Retrieval 和本文方法的案例展示
Figure 5-7 Cases for CNN+ STM, - Retrieval, and the proposed methods
注:黄色部分是生成文本符合真实文本描述的文本。(a)和(b)为随机挑选的案例。
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
图5-6展示,相比CNN+LSTM方法和V-L Retrieval方法,本文方法利用检 索文本所生成的文本更规范,而且文本描述的内容更详细、准确,与放射科医生 人工分析的文本基本一致。然而,本文方法也存在一些不足:例如,人工分析的 文本中案例1提到结节影“长径为0.5cm”和案例2提到“纵隔右偏,气管向右 移”,这些人工描述中包含具体的量化描述“0.5cm、右偏、右移”,而本文方法 所生成的结果无法得出这些量化描述。除此之外,本文生成的文本存在一些对疾 病的错误描述,目前的结果离临床实践仍有距离。
5.3.6.3放射科医生的主观评价
为了评估生成文本的质量,三位放射科医生分别在仅使用跨模态检索技术的 V-L retrieval 方法和本文提出的基于检索的自适应融合策略的文本生成方法上, 对肺部CT测试数据集生成的文本进行了主观评价。影像描述的评价准则如表5- 4。
我们分别在每项评价准则上对三位放射科医生的评价结果取平均值,之后将 本文方法与V-L检索方法的平均值做差,进行数据统计分析。如图5-8所示,图 5-8(a)-(g)表示在准则1-7上二者平均值做差的可视化结果,图5-8(f)表示综合评 价上的二者平均值做差的可视化结果,其中蓝色是本文方法优于 V-L 检索方法 的影像描述,橙色部分是平均值相等的影像描述,灰色部分是V-L检索方法优于 本文方法的影像描述。根据评价结果可以观察到,V-L检索方法使用检索文本作 为影像描述结果,可以使影像描述更全面,条理更清楚,这是因为检索文本来源 于影像资料库,本质上仍属于人工分析结果,而本文方法使用生成模型生成的文 本不属于影像资料库。然而,本文方法更有利于发现病灶信息,减少错误描述。
表5- 影像描述的评价准则
Table 5- The evaluation criteria of image caption
准则 内容要求 满分
1 描述全面,条理清楚 15
2 描述疾病或器官顺序恰当 15
3 病灶部位及累及范围描述准确 20
4 病灶数目、大小准确测量并规范描述 20
5 病灶形态、边界及特殊征象描述准确 20
6 重要阴性征象描述 10
根据产生后果严重程度打
7 存在错误描述 分,即无轻中重分别记为
0、-10、-30、-50
 
 
2
1
0
-1
-2
-3
-
-5
-6
-7
20
15
10
5
0
-5
-10
-15
20
15
10
5
0
-5
-10
-15
0
30
20
10
0 -10 -20 -30 - 0 -50
 
(h)
图5-8 - retrieval 方法和本文方法在不同评价准则上得分差异展示
Figure 5-8 visualization of the result difference between - Retrieval and retrieval
methods on different evaluation criteria
注:蓝色部分是本文方法优于基于检索方法的样本,橙色部分是本文方法评价得分等 于基于检索方法评价得分的样本,灰色部分是基于检索方法优于本文方法的样本。
(a)-(g)分别为不同评价准则的得分差异,(h)为综合评价的得分差异。
 
5.4本章小结
医学影像文本生成是医学影像分析中的一个关键挑战,该任务与自然语言相 结合,利用影像更丰富的语义信息,生成高质量的描述文本。本章提出一种基于 检索的自适应融合策略完成医学影像文本生成。具体来说,本文训练一个特定数 据集下的预训练的跨模态检索模型,通过检索模型检索与影像相关的文本。在生 成模型中,使用预训练的跨模态检索模型中获取的图像公共表示和文本公共表示 分别作为解码器中图像的输入和检索文本特征。之后,在每一步词汇生成中,学 习生成词汇和检索词汇在词汇表中的概率,通过计算检索词汇和每个词汇生成过 程中的特征之间的相关性来学习检索得分,作为检索词汇每一步所占的权重。最 终,利用加权和操作整合检索概率和生成概率。在公开数据集 Open-I 上与现有 方法的原文实验结果相比,本文方法的 BLEU-1、BLEU-2、BLEU-3、BLEU-4、 ROUGE_L 和 CIDEr 评分分别提高 3.5%、6.3%、8.9%、10.9%、1%和 1.3%,实 验结果证明本文方法的有效性。此外,在使用自适应融合策略时,本文方法的 CIDEr比没有权重的融合检索方法提升了 15.9%,实验证明本文方法提出的自适 应融合策略的有效性。
不足之处,医学影像文本描述中存在量化表述,这些量化结果目前还无法生 成,尽管模型性能有所提高,但本文方法直接用于临床实践仍有难度。在未来, 本文希望能够利用结构化的文本,展开关于量化指标表述的研究,通过检索的方 法学习更具体的描述,减少错误的疾病描述信息。
第 6 章 总结与展望
医学影像技术的日趋完善与大规模医学影像数据集可用性的日益增加,正推 动医学影像分析及诊断的进一步发展,同时也给实现高质量的医学影像自动化分 析与处理带来机遇与挑战。
6.1总结
本文从医学影像诊断分类和基于检索文本的医学影像文本生成两个角度出 发,首先,通过考虑CT切片的多重交互关系,解决相同疾病的不同阶段的判别 性问题。之后,解决检索模型影响文本生成质量的问题,分别从数据之间相关性 和无标记数据问题,提出不同的跨模态检索模型,为后续基于检索的医学影像文 本生成任务奠定理论基础。最后,由于医学影像数据之间方差大,适合利用检索 文本引导影像文本生成过程,提出基于检索的自适应策略来解决检索文本和生成 文本融合问题。最终研究医学影像诊断分类和基于检索文本的文本生成为医学影 像分析及诊断技术添砖加瓦。
为解决上述问题,本文展开以下四项研究:
(1)解决相同疾病的不同阶段图像判别性问题,研究如何构建图像切片间的 相关关系,提出基于Transformer的分解编码器,并首次应用于3D CT影像上的 尘肺病分类。具体而言,分解编码器由两个 Transformer 编码器组成:第一个 Transformer 编码器对同一 CT 切片内的特征图进行编码,实现切片内交互;第二 个 Transformer 编码器对不同 CT 切片间的特征图进行编码,实现切片间交互。 此外,本研究在公共数据集(LIDC-IDRI)上对3D卷积自编码器进行了预训练, 并固定编码器的最后一个卷积层的参数,以从3D CT数据中提取带有底层空间 结构信息的 CT 特征图。在实验部分中,同时在尘肺 CT 数据集和公开数据集 COVID-CT-MD 上进行评估,并以 13 种分类模型作为对照组,以更好地表现模 型性能,实验结果表明本研究提出的基于Transformer的分解编码器在分类精度 以及计算成本上均具有显著优势。相关研究成果已发表在 Computers in Biology and Medicine。
(2)解决影响检索模型性能的跨模态数据相似性度量问题,研究如何有效提 取并利用区域特征与单词特征之间的相似性,实现不同模态数据之间的相似性直 接度量,提出多级跨模态相似性的统一视角的跨模态检索模型。该模型能够整合 跨模态数据之间的局部相似性,极大丰富细粒度跨模态信息,并且通过设计公共 特征向量和标签之间的相似性度量能够获取跨模态数据之间的一对多对应关系。 具体为:首先利用多个特征提取器分别提取图像与文本的全局语局部特征,而后 利用图注意力网络分别学习图像与文本的特征向量,最后分别计算全局和局部跨 模态特征相似性,以及标签相似性。此外,本研究首次使用归一化折损累计增益 (NDCG)作为全面评估跨模态检索性能的重要指标。在实验部分中,本研究使 用Pascal sentence数据集、Wikipedia数据集和XMediaNet数据集作为基准数据 集,以及 8种跨模态检索模型作为对照组,最终的实验结果均表明本研究提出的 方法在跨模态检索任务上更具优势。相关研究成果已发表在 A Unified Perspective of Multi-level Cross-Modal Similarity for Cross-Modal Retrieval。
(3)解决影响检索模型性能的无标记数据问题,研究如何有效利用无标签数 据,提出了一个半监督跨模态记忆库,用于学习无标记数据的伪标签。对于无标 记数据,该记忆库存储另一个模态数据在公共空间中的特征表示(用于计算无标 记数据与其他数据之间的亲和度)以及其在标签空间的类概率;随后,根据特征 表示之间的相似性,对类概率施加权重构建伪标签;最后,在跨模态记忆库中, 通过配对跨模态数据的特征表示对应和标记数据的类概率对伪标签进行修正,使 得伪标签接近最相关的类。在实验部分中,本研究使用Wikipedia数据集、NUS- WIDE数据集和MS-COCO数据集作为基准数据集,以及9种跨模态检索模型
(2种有监督、 2种无监督、 5种半监督)作为对照组,最终的实验结果均表明本 研究提出的方法在跨模态检索任务上更具优势。
(4)解决检索文本和生成文本的融合问题,研究如何在图文生成任务中有效 利用通过图像检索到的文本,提出自适应融合策略,根据检索文本和当前隐藏状 态获取检索得分和具有上下文语义的检索文本特征。通过检索得分自适应地调整 检索文本引导生成文本最终结果的信息,减少生成模型中检索文本的冗余信息的 影响。此外,利用预训练的跨模态检索模型获取公共空间中的图像特征图和文本 特征作为生成模型的输入,能够有效控制生成模型中不同模态数据间的差异性。 在实验部分中,以肺部CT数据集和公开数据集Open-I作为基准数据集,以及 12 种文本生成模型作为对照组,最终的实验结果均表明本研究提出的方法在医 学影像文本生成任务上更具优势。
6.2未来展望
本文关注医学影像的诊断分类和基于检索文本的文本生成研究,在研究过程 中,考虑到医学影像和文本数据的复杂性以及影像和文本数据之间的对应关系, 目前工作仍有需要进一步完善的地方,具体如下:
在第二章的医学影像诊断分类研究中,对预先训练的模型依赖性较大,这无 形中增加了计算成本,不利于实际诊断效率。未来,本文考虑提出端到端的有效 网络,增加影像数据中病灶信息更多的关联性,考虑融合不同模态的信息,同时 对未见过的病灶进一步细分,实现更具泛化性的模型;此外,由于医学影像数据 量有限,如何利用有限的影像数据学习影像的特征表示是未来研究的重点之一, 在未来,考虑结合数据增强算法,利用对比学习实现同一模态的影像的自监督或 来自不同模态的影像的监督。
在第三、第四章的跨模态检索的研究中发现,跨模态数据之间的相关性和语 义性决定了跨模态模型的性能。由于深度学习在自然图像领域的快速发展,实现 自然图像中跨模态数据局部信息之间的交互变得很容易。然而,在医学领域,同 一患者和不同患者的影像信息都相对复杂且不一致,很难提取与文本描述相关的 病灶信息。未来,本文尝试提出带有局部病灶标签的影像算法,依据影像分割、 病灶识别和自然语言命名体识别、医疗问答等技术,提取局部信息,完善局部信 息的一一对应关系,提高检索模型的性能。
第五章研究检索文本和生成模型融合时,不同的融合策略下冗余信息很难完 全剔除,然而冗余信息的学习增加了计算成本且影响生成模型的性能。未来考虑 发现更多检索文本和影像数据之间的结构化对应关系,试图根据影像的多个局部 区域分别检索特定区域的文本描述,最终建立所有检索文本的结构化图,利用图 模型,推理最终生成的文本,提高基于检索的医学影像文本生成的性能;此外, 由于生成模型的选择也会影响影像文本生成,而现有的LSTM、双向LSTM在生 成长文本时会引发''记忆消失”不利于长文本的生成,未来,考虑Transformer 模型,从训练、推理等多层面改进生成模型。
尽管现有的方算法在科学研究上已经取得了很好的进展,然而在临床中,现 有的基于人工智能的诊疗系统在影像描述上的应用却有限。主要原因是医学影像 复杂,每个医生在描述医学影像时都有自己的语言习惯,人工分析所得的文本描 述不规范,导致汇总标准的医学影像文本数据集相对困难。未来在数据集的收集 上,创建标准化文本模板,规范化医学影像文本数据集。
参考文献
[1]宋佰谦.威廉•康拉德•伦琴一一纪念X射线发现100年J].上海:自然杂志, 1995, 17(6):6.
⑵张幸,朱丽秋,陈钧强,钟惠仙.计算机断层扫描成像技术(CT)在尘肺病诊 断中的应用[J].中国工业医学杂志,2005, 18(4)3
[3]王秋良,杨文辉,倪志鹏,崔春艳,胡新宁.核磁共振成像技术研究进展J]. 高科技与产业化,2013 (12): 46-59.
[4]庞勇,韩焱.超声成像方法综述[J].华北工学院测试技术学报,2001, 15(4): 280-284.
[5]张旭初, 王荣福, 张春丽, 等. 放射性核素肾动态显像测定肾移植供体肾小 球滤过率J].中国医学影像技术,2011, 27(1): 162-166.
⑹陆浥尘,胡屹玲.医学影像人工智能的研发应用现状与挑战[J].电子科学 技术, 2021, 000(003):11-19.
[7]Cai L, Gao J, Zhao D. A review of the application of deep learning in medical image classification and segmentation[J]. Annals of translational medicine, 2020, 8(11).
[8]Harikumar R, Vinoth Kumar B. Performance analysis of neural networks for classification of medical images with wavelets as a feature extractor[J]. International Journal of Imaging Systems and Technology, 2015, 25(1): 33-40.
[9]Althnian A, AlSaeed D, Al-Baity H, et al. Impact of dataset size on classification performance: an empirical evaluation in the medical domain[J]. Applied Sciences, 2021, 11(2): 796.
[10]Wilcox A, Hripcsak G. The role of domain knowledge in automating medical text report classification[J]. Journal of the American Medical Informatics Association, 2003, 10(4): 330-338.
[11]Kodogiannis V, Lygouras J N. Neuro-fuzzy classification system for wirelesscapsule endoscopic images[J]. International Journal of Electrical, Computer, and Systems Engineering, 2008, 2(1): 55-63.
[12]Li Q, Cai W, Wang X, Zhou X, Feng D, Chen, M. Medical image classification with convolutional neural network[C]//2014 13th international conference on control automation robotics and vision. IEEE, 2014: 844-848.
[13]Azizi S, Mustafa B, Ryan F, et al. Big self-supervised models advance medical image classification[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 3478-3488.
[14]Zhang J, Xie Y, Wu Q, et al. Medical image classification using synergic deep learning[J]. Medical image analysis, 2019, 54: 10-19.
[15]Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929,
2020.
[16]Gheflati B, Rivaz H. Vision Transformers for classification of breast ultrasound images[C]//2022 44th Annual International Conference of the IEEE Engineering in Medicine & Biology Society. IEEE, 2022: 480-483.
[17]Wang X, Yang S, Zhang J, et al. Transpath: Transformer-based self-supervised learning for histopathological image classification[C]//Medical Image Computing and Computer Assisted Intervention—MICCAI 2021: 24th International Conference, Strasbourg, France, September 27—October 1, 2021, Proceedings, Part VIII 24. Springer International Publishing, 2021: 186-195.
[18]瞿文凤.基于深度学习的心电信号分类识别方法研究[D].成都:西华大学, 2020.
[19]Velu P, De S. Single-trial classification of gait and point movement preparation from human EEG[J]. Frontiers in neuroscience, 2013, 7: 84.
[20]Pyakillya B, Kazachenko N, Mikhailovsky N. Deep learning for ECG classification[C]//Journal of physics: conference series. IOP Publishing, 2017, 913(1): 012004.
[21]Amin S, Altaheri H, Muhammad G, et al. Attention-inception and long-short-term memory-based electroencephalography classification for motor imagery tasks in rehabilitation[J]. IEEE Transactions on Industrial Informatics, 2021, 18(8): 54125421.
[22]Prabhakar S, Won D. Medical text classification using hybrid deep learning models with multihead attention[J]. Computational intelligence and neuroscience, 2021, 2021.
[23]Guo F, Wu T, Jin X. An Efficient Method Based on Region-adjacent Embedding for Text Classification of Chinese Electronic Medical Records[C]//2020 5th International Conference on Computational Intelligence and Applications. IEEE, 2020: 183-187.
[24]Yao L, Mao C, Luo Y. Clinical text classification with rule-based features and knowledge-guided convolutional neural networks[J]. BMC medical informatics and decision making, 2019, 19(3): 31-39.
[25]Lindberg D A B, Humphreys B L, McCray A T. The unified medical language system[J]. Yearbook of medical informatics, 1993, 2(01): 41-51.
[26]Vinyals O, Toshev A, Bengio S, et al. Show and tell: A neural image caption generator[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 3156-3164.
[27]LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[28]Elman J L. Finding structure in time[J]. Cognitive science, 1990, 14(2): 179-211.
[29]Yu Y, Si X, Hu C, et al. A review of recurrent neural networks: LSTM cells and network architectures[J]. Neural computation, 2019, 31(7): 1235-1270.
[30]Wang E K, Zhang X, Wang F, et al. Multilayer dense attention model for image caption[J]. IEEE Access, 2019, 7: 66358-66368.
[31]Xu K, Ba J, Kiros R, et al. Show, attend and tell: Neural image caption generation with visual attention[C]//International conference on machine learning. 2015: 2048-2057.
[32]Hou D, Zhao Z, Liu Y, et al. Automatic report generation for chest X-ray images via adversarial reinforcement learning[J]. IEEE Access, 2021, 9: 21236-21250.
[33]Liu F, You C, Wu X, et al. Auto-encoding knowledge graph for unsupervised medical report generation[J]. Advances in Neural Information Processing Systems, 2021, 34: 16266-16279.
[34]Ordonez V, Kulkarni G, Berg T. Im2text: Describing images using 1 million captioned photographs[J]. Advances in neural information processing systems, 2011, 24.
[35]Fang H, Gupta S, Iandola F, et al. From captions to visual concepts and back[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 1473-1482.
[36]Eickhoff C, Schwall I, Garcia Seco De Herrera A, et al. Overview of Im ageCLEF caption 2017-image caption prediction and concept detection for biomedical images[J]. CLEF 2017 working Notes, 2017, 1866.
[37]Liang S, Li X, Zhu Y, et al. ISIA at the ImageCLEF 2017 Image Caption Task[C]// CLEF 2017 working Notes. 2017.
[38]Ramos R, Elliott D, Martins B. Retrieval-augmented Image Captioning[J]. arXiv preprint arXiv:2302.08268, 2023.
[39]Valizadegan H, Jin R, Zhang R, et al. Learning to rank by optimizing ndcg measure[J]. Advances in neural information processing systems, 2009, 22.
[40]Cullinan P, Munoz X, Suojalehto H, et al. Occupational lung diseases: from old and novel exposures to effective preventive strategies[J]. The Lancet Respiratory Medicine, 2017, 5(5): 445-455.
[41]The, Lancet, Respiratory, et al. The world is failing on silicosis[J]. Lancet Respiratory Medicine, 2019.
[42]Harris D A, Willis J, Tomann M. A new era of coal workers' pneumoconiosis: decades in mines may not be required[J]. The Lancet, 2020, 395(10234): e82.
[43]Leon-Jimenez A, Hidalgo-Molina A, Conde-Sanchez M A, et al. Artificial stone silicosis: rapid progression following exposure cessation[J]. Chest, 2020, 158(3): 1060-1068.
[44]ILO. Guidelines for the use of ILO international classification of radiographs of pneumoconioses[J]. 1980.
[45]Xu H, Tao X, Sundararajan R, et al. Computer aided detection for pneumoconiosis screening on digital chest radiographs[C]//Proceedings of the Third International Workshop on Pulmonary Image Analysis, September 20. 2010: 129-138.
[46]Yu P, Xu H, Zhu Y, et al. An automatic computer-aided detection scheme for pneumoconiosis on digital chest radiographs[J]. Journal of digital imaging, 2011, 24: 382-393.
[47]Yu P, Zhao J, Xu H, et al. Computer aided detection for pneumoconiosis based on co-occurrence matrices analysis[C]//2009 2nd International Conference on Biomedical Engineering and Informatics. IEEE, 2009: 1-4.
[48]Edition F. Pearson education[J]. New Jersey, 2005, 7458: 77-89.
[49]Vapnik V N. An overview of statistical learning theory[J]. IEEE transactions on neural networks, 1999, 10(5): 988-999.
[50]Liaw A, Wiener M. Classification and regression by randomForest[J]. R news, 2002, 2(3): 18-22.
[51]Wang L, Lin Z Q, Wong A. Covid-net: A tailored deep convolutional neural network design for detection of covid-19 cases from chest X-ray images[J]. Scientific reports, 2020, 10(1): 1-12.
[52]Deng J, Dong W, Socher R, et al. Imagenet: A large-scale hierarchical image database[C]//2009 IEEE conference on computer vision and pattern recognition. Ieee, 2009: 248-255.
[53]Xie S, Girshick R, Dollar P, et al. Aggregated residual transformations for deep neural networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 1492-1500.
[54]Zheng R, Deng K, Jin H, et al. An improved CNN-based pneumoconiosis diagnosis method on X-ray chest film[C]//Human Centered Computing: 5th International Conference, HCC 2019, Cacak, Serbia, August 5—7, 2019, Revised Selected Papers. Cham: Springer International Publishing, 2019: 647-658.
[55]LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[56]Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 8490.
[57]Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 1-9.
[58]Wang X, Yu J, Zhu Q, et al. Potential of deep learning in assessing pneumoconiosis depicted on digital chest radiography[J]. Occupational and Environmental Medicine, 2020, 77(9): 597-602.
[59]Devnath L, Luo S, Summons P, et al. Automated detection of pneumoconiosis with multilevel deep features learned from chest X-ray radiographs[J]. Computers in Biology and Medicine, 2021, 129: 104125.
[60]Huang G, Liu Z, et al. Densely connected convolutional networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 4700-4708.
[61]Rajpurkar P, Irvin J, Zhu K, et al. Chexnet: Radiologist-level pneumonia detection on chest X-rays with deep learning[J]. arXiv preprint arXiv:1711.05225, 2017.
[62]Bhandary A, Prabhu G A, Rajinikanth V, et al. Deep-learning framework to detect lung abnormality-A study with chest X-ray and lung CT scan images[J]. Pattern Recognition Letters, 2020, 129: 271-278.
[63]McLennan G, Bidaut L, et al. The lung image database consortium (LIDC) and image database resource initiative (IDRI): a completed reference database of lung nodules on CT scans[J]. Medical physics, 2011, 38(2): 915-931.
[64]Fallahpoor M, Chakraborty S, Heshejin M T, et al. Generalizability assessment of COVID-19 3D CT data for deep learning-based disease detection[J]. Computers in Biology and Medicine, 2022, 145: 105464.
[65]Seol Y, Kim Y, Kim Y, et al. A study on 3D deep learning-based automatic diagnosis of nasal fractures[J]. Sensors, 2022, 22(2): 506.
[66]Lee S, Kang H, Jeong J, et al. Performance evaluation in [18F] Florbetaben brain PET images classification using 3D Convolutional Neural Network[J]. Plos one, 2021, 16(10): e0258214.
[67]Han K, Wang Y, Chen H, et al. A survey on vision Transformer[J]. IEEE transactions on pattern analysis and machine intelligence, 2022, 45(1): 87-110.
[68]Gao X, Qian Y, Gao A. COVID-VIT: Classification of COVID-19 from CT chest images based on vision Transformer models[J]. arXiv preprint arXiv:2107.01682,
2021.
[69]Heidarian S, Afshar P, Oikonomou A, et al. Cae-Transformer: Transformer-based model to predict invasiveness of lung adenocarcinoma subsolid nodules from non-thin section 3d ct scans[J]. arXiv preprint arXiv:2110.08721, 2021.
[70]Lin T, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2980-2988.
[71]Afshar P, Heidarian S, Enshaei N, et al. COVID-CT-MD, COVID-19 computed tomography scan dataset applicable in machine learning and deep learning[J]. Scientific Data, 2021, 8(1): 121.
[72]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.
[73]Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional Transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
[74]Mao X, Qi G, Chen Y, et al. Towards robust vision Transformer[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 12042-12051.
[75]Zhang P, Dai X, Yang J, et al. Multi-scale vision longformer: A new vision Transformer for high-resolution image encoding[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2021: 2998-3008.
[76]Carion N, Massa F, Synnaeve G, et al. End-to-end object detection with Transformers[C]//Computer Vision-ECCV 2020: 16th European Conference, Glasgow, UK, August 23-28, 2020, Proceedings, Part I 16. Springer International Publishing, 2020: 213-229.
[77]Zheng S, Lu J, Zhao H, et al. Rethinking semantic segmentation from a sequence- to-sequence perspective with Transformers[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021: 6881-6890.
[78]Xie J, Zhang J, Sun J, et al. A Transformer-based approach combining deep learning network and spatial-temporal information for raw EEG classification[J]. IEEE Transactions on Neural Systems and Rehabilitation Engineering, 2022, 30: 2126-2136.
[79]Hatamizadeh A, Nath V, Tang Y, et al. Swin unetr: Swin Transformers for semantic segmentation of brain tumors in mri images[C]//Brainlesion: Glioma, Multiple Sclerosis, Stroke and Traumatic Brain Injuries: 7th International Workshop, BrainLes 2021, Held in Conjunction with MICCAI 2021, Virtual Event, September 27, 2021, Revised Selected Papers, Part I. Cham: Springer International Publishing, 2022: 272-284.
[80]Liu Z, Lin Y, Cao Y, et al. Swin Transformer: Hierarchical vision Transformer using shifted windows[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2021: 10012-10022.
[81]Organizagao Internacional do Trabalho (OIT). Guidelines for the use of the ILO International Classification of Radiographs of pneumoconiosis[J]. 2011.
[82]蔡志春.对GBZ70-2015《职业性尘肺病的诊断》的理解.
[83]Kanitkar S S, Thombare N D, Lokhande S S. Detection of lung cancer using marker-controlled watershed transform[C]//2015 international conference on pervasive computing (ICPC). IEEE, 2015: 1-6.
[84]Mei S, Ji J, Geng Y, et al. Unsupervised spatial-spectral feature learning by 3D convolutional autoencoder for hyperspectral classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(9): 6808-6820.
[85]Ba J, Kiros J, Hinton G. Layer normalization[J]. arXiv preprint arXiv:1607.06450, 2016.
[86]Powers D. Evaluation: from precision, recall and F-measure to ROC, informedness, markedness and correlation[J]. arXiv preprint arXiv:2010.16061, 2020.
[87]Chicco D, Jurman G. The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation[J]. BMC genomics, 2020, 21: 1-13.
[88]Zhang Z. Improved adam optimizer for deep neural networks[C]//2018 IEEE/ACM 26th international symposium on quality of service (IWQoS). Ieee, 2018: 1-2.
[89]Anguita D, Ghelardoni L, Ghio A, et al. The 'K' in K-fold Cross Validation[C]// European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning. 2012.
[90]Okumura E, Kawashita I, Ishida T. Computerized analysis of pneumoconiosis in digital chest radiography: effect of artificial neural network trained with power spectra[J]. Journal of digital imaging, 2011, 24: 1126-1132.
[91]Zhu B, Luo W, Li B, et al. The development and evaluation of a computerized diagnosis scheme for pneumoconiosis on digital chest radiographs[J]. Biomedical engineering online, 2014, 13: 1-14.
[92]Okumura E, Kawashita I, Ishida T. Development of CAD based on ANN analysis of power spectra for pneumoconiosis in chest radiographs: effect of three new enhancement methods[J]. Radiological physics and technology, 2014, 7: 217-227.
[93]Zhu B, Chen H, Chen B, et al. Support vector machine model for diagnosing pneumoconiosis based on wavelet texture features of digital chest radiographs[J]. Journal of digital imaging, 2014, 27: 90-97.
[94]Okumura E, Kawashita I, Ishida T. Computerized classification of pneumoconiosis on digital chest radiography artificial neural network with three stages[J]. Journal of digital imaging, 2017, 30: 413-426.
[95]Wu F, Jing X Y, Wu Z, et al. Modality-specific and shared generative adversarial network for cross-modal retrieval[J]. Pattern Recognition, 2020, 104: 107335.
[96]Dey S, Riba P, Dutta A, et al. Doodle to search: Practical zero-shot sketch-based image retrieval[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 2179-2188.
[97]Liu Q, Xie L, Wang H, et al. Semantic-aware knowledge preservation for zeroshot sketch-based image retrieval[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 3662-3671.
[98]Xie D, Deng C, Li C, et al. Multi-task consistency-preserving adversarial hashing for cross-modal retrieval[J]. IEEE Transactions on Image Processing, 2020, 29: 3626-3637.
[99]Ji Z, Sun Y, Yu Y, et al. Attribute-guided network for cross-modal zero-shot hashing[J]. IEEE transactions on neural networks and learning systems, 2019, 31(1): 321-330.
[100]Zhong F, Chen Z, Min G, et al. A novel strategy to balance the results of cross- modal hashing[J]. Pattern Recognition, 2020, 107: 107523.
[101]Hardoon D, Szedmak S, et al. Canonical correlation analysis: An overview with application to learning methods[J]. Neural computation, 2004, 16(12): 2639-2664.
[102]Peng Y, Qi J. CM-GANs: Cross-modal generative adversarial networks for common representation learning[J]. ACM Transactions on Multimedia Computing, Communications, and Applications, 2019, 15(1): 1-24.
[103]Zhu B, Ngo C W, Chen J, et al. R2gan: Cross-modal recipe retrieval with generative adversarial network[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 11477-11486.
[104]Wu Y, Wang S, Huang Q. Online asymmetric similarity learning for cross-modal retrieval[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 4269-4278.
[105]Yao T, Mei T, Ngo C W. Learning query and image similarities with ranking canonical correlation analysis[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 28-36.
[106]Wei Y, Zhao Y, Lu C, et al. Cross-modal retrieval with CNN visual features: A new baseline[J]. IEEE transactions on cybernetics, 2016, 47(2): 449-460.
[107]Ji Z, Yao W, Wei W, et al. Deep multi-level semantic hashing for cross-modal retrieval[J]. IEEE Access, 2019, 7: 23667-23674.
[108]Ma X, Zhang T, Xu C. Multi-level correlation adversarial hashing for cross-modal retrieval[J]. IEEE Transactions on Multimedia, 2020, 22(12): 3101-3114.
[109]Wen K, Gu X, Cheng Q. Learning dual semantic relations with graph attention for image-text matching[J]. IEEE transactions on circuits and systems for video technology, 2020, 31(7): 2866-2879.
[110]Yang Z, Lin Z, Kang P, et al. Learning shared semantic space with correlation alignment for cross-modal event retrieval[J]. ACM Transactions on Multimedia Computing, Communications, and Applications, 2020, 16(1): 1-22.
[111]Sun B, Saenko K. Deep coral: Correlation alignment for deep domain adaptation[C]//Computer Vision-ECCV 2016 Workshops: Amsterdam, The Netherlands, October 8-10 and 15-16, 2016, Proceedings, Part III 14. Springer International Publishing, 2016: 443-450.
[112]Zhen L, Hu P, Wang X, et al. Deep supervised cross-modal retrieval[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 10394-10403.
[113]Peng Y, Qi J, Zhuo Y. MAVA: Multi-level adaptive visual-textual alignment by cross-media bi-attention mechanism[J]. IEEE Transactions on Image Processing, 2019, 29: 2728-2741.
[114]Hwang S, Grauman K. Learning the relative importance of objects from tagged images for retrieval and cross-modal search[J]. International journal of computer vision, 2012, 100: 134-153.
[115]Andrew G, Arora R, Bilmes J, et al. Deep canonical correlation analysis[C]//International conference on machine learning, 2013: 1247-1255.
[116]Zeng D, Yu Y, Oyama K. Deep triplet neural networks with cluster-cca for audiovisual cross-modal retrieval[J]. ACM Transactions on Multimedia Computing,
Communications, and Applications, 2020, 16(3): 1-23.
[117]Ngiam J, Khosla A, Kim M, et al. Multimodal deep learning[C]//Proceedings of the 28th international conference on machine learning. 2011: 689-696.
[118]Wang J, He Y, Kang C, et al. Image-text cross-modal retrieval via modalityspecific feature learning[C]//Proceedings of the 5th ACM on International Conference on Multimedia Retrieval. 2015: 347-354.
[119]Peng Y, Huang X, Qi J. Cross-media shared representation by hierarchical learning with multiple deep networks[C]// International Joint Conference on Artificial Intelligence. 2016, 3846: 3853.
[120]Chaudhuri U, Banerjee B, Bhattacharya A, et al. CMIR-NET: A deep learning based model for cross-modal retrieval in remote sensing[J]. Pattern recognition letters, 2020, 131: 456-462.
[121]Ma L, Li H, Meng F, et al. Global and local semantics-preserving based deep hashing for cross-modal retrieval[J]. Neurocomputing, 2018, 312: 49-62.
[122]Zhang L, Ma B, Li G, et al. Generalized semi-supervised and structured subspace learning for cross-modal retrieval[J]. IEEE Transactions on Multimedia, 2017, 20(1): 128-141.
[123]Peng Y, Qi J, Huang X, et al. CCL: Cross-modal correlation learning with multigrained fusion by hierarchical network[J]. IEEE Transactions on Multimedia, 2017, 20(2): 405-420.
[124]He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.
[125]Krishna R, Zhu Y, Groth O, et al. Visual genome: Connecting language and vision using crowdsourced dense image annotations[J]. International journal of computer vision, 2017, 123: 32-73.
[126]Ren S, He K, Girshick R, et al. Faster r-cnn: Towards real-time object detection with region proposal networks[J]. Advances in neural information processing systems, 2015, 28.
[127]Sun Y, Cheng C, Zhang Y, et al. Circle loss: A unified perspective of pair similarity optimization[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 6398-6407.
[128]Farhadi A, Hejrati M, Sadeghi M A, et al. Every picture tells a story: Generating sentences from images[C]//Computer Vision-ECCV 2010: 11th European Conference on Computer Vision, Heraklion, Crete, Greece, September 5-11, 2010, Proceedings, Part IV 11. Springer Berlin Heidelberg, 2010: 15-29.
[129]Rasiwasia N, Costa Pereira J, Coviello E, et al. A new approach to cross-modal multimedia retrieval[C]//Proceedings of the 18th ACM international conference on Multimedia. 2010: 251-260.
[130]Peng Y, Huang X, Zhao Y. An overview of cross-media retrieval: Concepts, methodologies, benchmarks, and challenges[J]. IEEE Transactions on circuits and systems for video technology, 2017, 28(9): 2372-2385.
[131]Faghri F, Fleet D J, Kiros J R, et al. Vse++: Improving visual-semantic embeddings with hard negatives[J]. arXiv preprint arXiv:1707.05612, 2017.
[132]Li K, Zhang Y, Li K, et al. Visual semantic reasoning for image-text matching[C]//Proceedings of the IEEE/CVF International conference on computer vision. 2019: 4654-4662.
[133]Messina N, Falchi F, Esuli A, et al. Transformer reasoning network for image-text matching and retrieval[C]//2020 25th International Conference on Pattern Recognition (ICPR). IEEE, 2021: 5222-5229.
[134]Muwanei S, Ravana S D, Hoo W L, et al. The Prediction of the High-Cost Non- Cumulative Discounted Gain and Precision Performance Metrics in Information Retrieval Evaluation[C]//2021 Fifth International Conference on Information Retrieval and Knowledge Management (CAMP). IEEE, 2021: 25-30.
[135]Koppula N, Pradeep Kumar J, Srinivas Rao K, et al. Word Sense Disambiguation System for Information Retrieval in Telugu Language[C]//Advanced Techniques for IoT Applications: Proceedings of EAIT 2020. Springer Singapore, 2022: 233242.
[136]Wang W, Wang R, Chen X. Topic scene graph generation by attention distillation from caption[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 15900-15910.
[137]Yang Z, Lu Y, Wang J, et al. Tap: Text-aware pre-training for text-vqa and text- caption[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021: 8751-8761.
[138]Cascante-Bonilla P, Wu H, Wang L, et al. Simvqa: Exploring simulated environments for visual question answering[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 5056-5066.
[139]Gupta V, Li Z, Kortylewski A, et al. Swapmix: Diagnosing and regularizing the over-reliance on visual context in visual question answering[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 5078-5088.
[140]Cheng M, Sun Y, Wang L, et al. ViSTA: vision and scene text aggregation for cross-modal retrieval[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 5184-5193.
[141]Thomas C, Kovashka A. Emphasizing complementary samples for non-literal cross-modal retrieval[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 4632-4641.
[142]Wang B, Yang Y, Xu X, et al. Adversarial cross-modal retrieval[C]//Proceedings of the 25th ACM international conference on Multimedia. 2017: 154-162.
[143]Peng Y, Zhai X, Zhao Y, et al. Semi-supervised cross-media feature learning with unified patch graph regularization[J]. IEEE transactions on circuits and systems for video technology, 2015, 26(3): 583-596.
[144]Hu P, Zhu H, Peng X, et al. Semi-supervised multi-modal learning with balanced spectral decomposition[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2020, 34(01): 99-106.
[145]Hu P, Zhen L, Peng D, et al. Scalable deep multimodal learning for cross-modal retrieval[C]//Proceedings of the 42nd international ACM SIGIR conference on research and development in information retrieval. 2019: 635-644.
[146]Amini A, Wainwright M. Sampled forms of functional PCA in reproducing kernel Hilbert spaces[J]. 2012.
[147]Zhang P, Luo Y, Huang Z, et al. High-order nonlocal Hashing for unsupervised cross-modal retrieval[J]. World Wide Web, 2021, 24: 563-583.
[148]Liu Y, Wu J, Qu L, et al. Self-supervised correlation learning for cross-modal retrieval[J]. IEEE Transactions on Multimedia, 2022.
[149]Hu P, Peng X, Zhu H, et al. Learning cross-modal retrieval with noisy labels[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 5403-5413.
[150]Berthelot D, Carlini N, Goodfellow I, et al. Mixmatch: A holistic approach to semi-supervised learning[J]. Advances in neural information processing systems, 2019, 32.
[151]Bachman P, Alsharif O, Precup D. Learning with pseudo-ensembles[J]. Advances in neural information processing systems, 2014, 27.
[152]Sajjadi M, Javanmardi M, Tasdizen T. Regularization with stochastic transformations and perturbations for deep semi-supervised learning[J]. Advances in neural information processing systems, 2016, 29.
[153]Xie Q, Dai Z, Hovy E, et al. Unsupervised data augmentation for consistency training[J]. Advances in neural information processing systems, 2020, 33: 62566268.
[154]Lee D. Pseudo-label: The simple and efficient semi-supervised learning method for deep neural networks[C]//Workshop on challenges in representation learning, ICML. 2013, 3(2): 896.
[155]Miyato T, Maeda S, Koyama M, et al. Virtual adversarial training: a regularization method for supervised and semi-supervised learning[J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 41(8): 1979-1993.
[156]Zhang G, Wang C, Xu B, et al. Three mechanisms of weight decay regularization[J]. arXiv preprint arXiv:1810.12281, 2018.
[157]Loshchilov I, Hutter F. Fixing weight decay regularization in adam[J]. 2017.
[158]Zhang H, Cisse M, Dauphin Y N, et al. mixup: Beyond empirical risk minimization[J]. arXiv preprint arXiv:1710.09412, 2017.
[159]Berthelot D, Carlini N, Cubuk E D, et al. Remixmatch: Semi-supervised learning with distribution alignment and augmentation anchoring[J]. arXiv preprint arXiv:1911.09785, 2019.
[160]Li J, Xiong C, Hoi S C H. Comatch: Semi-supervised learning with contrastive graph regularization[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2021: 9475-9484.
[161]Zheng M, You S, Huang L, et al. Simmatch: Semi-supervised learning with similarity matching[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 14471-14481.
[162]Chua T, Tang J, Hong R, et al. Nus-wide: a real-world web image database from national university of singapore[C]//Proceedings of the ACM international conference on image and video retrieval. 2009: 1-9.
[163]Jiang Q, Li W J. Deep cross-modal hashing[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 3232-3240.
[164]Lin T, Maire M, Belongie S, et al. Microsoft coco: Common objects in context[C]//Computer Vision-ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V 13. Springer International Publishing, 2014: 740-755.
[165]Wang W, Arora R, Livescu K, et al. On deep multi-view representation learning[C]//International conference on machine learning. PMLR, 2015: 10831092.
[166]Zhai X, Peng Y, Xiao J. Learning cross-media joint representation with sparse and semi-supervised regularization[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2013, 24(6): 965-978.
[167]Dong X, Liu L, Zhu L, et al. Adversarial graph convolutional network for cross- modal retrieval[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021, 32(3): 1634-1645.
[168]Xu P, Liu K, Xiang T, et al. Fine-grained instance-level sketch-based video retrieval[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2020, 31(5): 1995-2007.
[169]Liu J, Yang M, Li C, et al. Improving cross-modal image-text retrieval with teacher-student learning[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2020, 31(8): 3242-3253.
[170]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.
[171]Nair V, Hinton G E. Rectified linear units improve restricted boltzmann machines[C]//Proceedings of the 27th international conference on machine learning. 2010: 807-814.
[172]Anwar S, Majid M, Qayyum A, et al. medical image analysis using convolutional neural networks: a review[J]. Journal of medical systems, 2018, 42: 1-13.
[173]Qalli E, Sogancioglu E, van Ginneken B, et al. Deep learning for chest X-ray
analysis: A survey[J]. Medical Image Analysis, 2021, 72: 102125.
[174]Ker J, Wang L, Rao J, et al. Deep learning applications in medical image analysis[J]. Ieee Access, 2017, 6: 9375-9389.
[175]Shin H C, Roberts K, Lu L, et al. Learning to read chest X-rays: Recurrent neural cascade model for automated image annotation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 2497-2506.
[176]Zhang Z, Xie Y, Xing F, et al. Mdnet: A semantically and visually interpretable medical image diagnosis network[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 6428-6436.
[177]Wang F, Liang X, Xu L, et al. Unifying relational sentence generation and retrieval for medical image report composition[J]. IEEE transactions on cybernetics, 2020, 52(6): 5015-5025.
[178]Zhang Y, Ding D Y, Qian T, et al. Learning to summarize radiology findings[J]. arXiv preprint arXiv:1809.04698, 2018.
[179]Yang X, Ye M, You Q, et al. Writing by memorizing: Hierarchical retrieval-based medical report generation[J]. arXiv preprint arXiv:2106.06471, 2021.
[180]Jing B, Xie P, Xing E. On the automatic generation of medical imaging reports[J]. arXiv preprint arXiv:1711.08195, 2017.
[181]Donahue J, Anne Hendricks L, Guadarrama S, et al. Long-term recurrent convolutional networks for visual recognition and description[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 26252634.
[182]Wang X, Peng Y, Lu L, et al. Tienet: Text-image embedding network for common thorax disease classification and reporting in chest X-rays[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 9049-9058.
[183]Yuan J, Liao H, Luo R, et al. Automatic radiology report generation based on multi-view image fusion and medical concept enrichment[C]//Medical Image Computing and Computer Assisted Intervention-MICCAI 2019: 22nd International Conference, Shenzhen, China, October 13-17, 2019, Proceedings, Part VI 22. Springer International Publishing, 2019: 721-729.
[184]Li Y, Liang X, Hu Z, et al. Hybrid retrieval-generation reinforced agent for medical image report generation[J]. Advances in neural information processing systems, 2018, 31.
[185]Li C, Liang X, Hu Z, et al. Knowledge-driven encode, retrieve, paraphrase for medical image report generation[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33(01): 6666-6673.
Hara K, Kataoka H, Satoh Y. Can spatiotemporal 3d cnns retrace the history of 2d cnns and imagenet? [C]//Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2018: 6546-6555.
【本文地址:https://www.xueshulunwenwang.com//yixuelei/yixueyingxiang/9177.html

上一篇:医学影像存储及快速检索方法研究

下一篇:没有了

相关标签: