1. 网站地图
  2. 设为首页
  3. 关于我们


面向深度学习应用的医学影像快速标注系统 的研究与实现

发布时间:2023-03-21 10:59
第1 章 绪论
1.1研究背景
2017 年 7 月国务院《新一代人工智能发展规划》文件的发布要求以人工智能 (Artificial Intelligence, AI)创新应用于教育、医疗、养老等领域保障和改 善民生,标志着人工智能正式上升为国家战略[1]。2018 年 3 月李克强总理在 2018 年政府工作报告中要求加强人工智能研发应用,在医疗、教育等多民生领域推进 “互联网+”发展[2]。2019年 3月政府工作报告中第三次重点提及深化人工智能研 发并提出了“智能+”概念[3]。
医疗领域是人工智能发展以来竞争最激烈的领域之一,人工智能以其独特的优 势为医疗行业带来突破,尤其是在AI辅助影像诊断方面,AI与人类相比,在定性 问题存在劣势,人类很容易定性的问题 AI 却很难实现。然而,人类在定量分析方 面不如AI,无法对病灶进行精准的评估。所以在精准医疗理念得到加强的今天, AI 在定量分析更具有辅助意义[4]。
医学影像更是作为人工智能在医疗方面应用最为广泛的垂直领域,深度学习技 术通过对大量的医学图像标注数据用特定的网络模型进行训练研究,能够辅助医 学影像专家和临床医师智能诊断,在一定程度可以减轻工作量和提高诊断效率,在 一定程度弥补了现有临床诊断技术和工作模式的缺陷[5]。影响深度学习研究的主要 因素有数据、算法和算力,目前深度学习在医学影像研究中,标注数据获取的重要 性可能要高于算法和算力[6, 7]。
然而,在完成标注工作生成大量标注数据的过程中还存在很多问题:目前的标 注工具只实现了简单的单一种类图像标注,标注过程中无法查看图像的病变描述 文本,不具备对标注数据的管理和标注可视化的功能,不利于标注人员进行快速高 效的标注[8]。针对以上问题,在当前深度学习技术推动人工智能深化发展的今天, 为促进深度学习在医疗诊断领域向更高的精确化,智能化、高效化层次迈进,设计 开发出一套可用于深度学习,功能齐全的医学影像标注系统具有重大的社会价值 和现实意义。
1.2国内外研究现状
1.2.1深度学习在医学影像领域的应用现状 深度学习算法在医学影像领域应用最成熟的方向就是肿瘤的检出和检测[9, 10] 。
例如:Sunwoo等利用计算机辅助诊断(Computer Aided Diagnosis, CAD)识别 基于颅脑的MR图像的脑转移瘤,诊断率为81.9%[11]; Masood等对来源于多个数据 集的胸部CT图像进行肺癌诊断,平均诊断率达84.58%血;以Kooi为首的荷兰研 究团队和哈佛大学团队先后将深度学习应用于检测乳腺肿块和钙化中,目前已达 到 92%的准确率[13, 14];除对肿瘤的筛查外,深度学习在其他医学影像领域也有一定 的应用价值,比如 Chilamkurthy 通过深度学习算法对 CT 图像中的颅骨骨折、颅 内出血等异常表现提供自动分诊决策支持[15];
国内目前商业化的医学影像人工智能公司研发的深度学习医学影像辅助诊断 软件产品主要还是用于对如肺结节检出等单病灶的筛查。然而基于深度学习的医 疗影像产品技术还不够成熟,最终在临床的实际应用率较低,主要原因之一是缺乏 高质量标注数据,整体数据量级还是难以达到深度学习所需要的数据量级,从而所 得出的诊断准确率低、假阳性率高、鲁棒性差,难以保持测试数据集上的高准确率 [16-18]
O
1.2.2医学影像数据集的发展现状 基于深度学习的影像辅助诊断在前期的图形训练阶段非常依赖于大规模的影 像标注数据集。与自然图像领域的公开图像数据集相比,医学领域的影像标注数据 集体量小,缺少像ImageNet[19]这类大规模高质量的数据集,并且根据医学影像检 查模式和检查部位的不同,针对特定临床检查的影像集数据量更小。
由美国国家癌症研究所(NCI)癌症影像计划资助构建的癌症影像档案,从2011 年发展至今已包含了 114 个影像标注数据集,并且网站数据还将持续增加[20]。目 前规模最大的肺部X线数据集ChestX-ray 14由美国国立卫生研究院(NIH)构建, 该数据集涵盖临床常见的14种肺部疾病,存储超十多万张胸部正位片[21]。
虽然目前国内外公开的医学影像数据集不断增多,但仍难满足深度学习所需的 数据量[22],尤其针对特定检查模式和检查部位,还需单独构建相关影像标注数据集。 因此,在医学影像数据集的构建和扩充方面的研究还需进一步深入。
1.2.3医学影像标注系统的研究现状
为利用深度学习技术在影像学领域取得更多更好的研究成果并尽早投入临床 应用,基于深度学习在医学影像领域和医学影像数据集的发展现状,结合深度学习 的特点和模式,大规模高质量的标注数据成为限制深度学习在医学影像领域发展 的瓶颈。并且传统的医学影像标注数据要求标注者具备专业的医学知识和丰富的 临床经验,不同标注专家的标注结果也会存在分歧[23],这就使得人工标注耗时耗力, 并且传统的标注方法的结果更适用于图像检索,很难适用于深度学习的研究[24]。
虽然目前国内外的标注软件大多是功能单一的标注工具或附带简单标注功能 的医学图像处理软件,无法满足对于医学图像标注的需求,仍缺乏一个完备的面向 深度学习的医学影像标注系统。目前医学影像标注比较常见的标注工具有 LabelImg 和 LabelMe。 LabelImg 是一款基于目标检测的标注工具,图片的标注信 息存放在同名的XML文件中[25]; LabelMe是一款基于Web应用的标注工具,支持多 边形、圆形、线段和点等多形式标注[26];但这两种标注工具功能单一,不具备进行 获取医疗数据、进行数据存储和统计的功能、也无法支持多种类型格式医学图像标 注。
1.3研究目的和意义
综合上述分析,本研究旨在设计一款可实现医学图像数据的获取、存储、报告 浏览、图像标注可面向深度学习的医学影像快速标注系统。系统实现的具体意义如 下所示:
1.3.1为深度学习提供海量的、高质量的标注数据
目前深度学习在医学影像方面的研究主要受限于医学影像数据集,由于医学影 像标注工作的专业性和复杂性,目前缺乏海量、高质量的影像标注数据,医学影像 标注数据的质量和数量能够影响深度学习算法水平,这就对医学影像标注数据的 数据量和标注水平提出了要求。因此开发出一个快速、高效的标注医学影像标注系 统能够为深度学习提供海量的、高质量的标注数据。
1.3.2改变现有标注方式,形成半自动化的标注模式
目前国内外常见的医学影像数据标注方式主要还是专家手工标注为主,并且手 工标注的标注工具只实现了简单的单一种类图像标注,标注过程中不能查看图像 的病变描述和影像报告相关信息,没有对标注数据的管理和标注可视化的功能,不 利于标注专家实现高效的标注;而对于自动化的标注方式,标注的准确率通常难以 保证,并且目前的医学影像自动化标注一类是针对单病种的标注,例如通过深度学 习进行肺结节的标注,这种标注模式只局限于单病灶,对于其他病灶的标注不具备 可复用性[27];另一类是用于图像检索的语义标注[28],难以满足深度学习训练的需要。
传统的标注方式主要还是专家手工标注为主,但由于用于深度学习的标注数据 需求量大、标注难度高,手工标注的效率便显得低下,通过加入文字标注的方式自 动实现将报告文本结构化,专家检查只需确认自动标注的内容是否正确,并在系统 根据自动标注内容提示下将需要手工标注的部分在图像上标注出来,能够实现一 定程度的半自动标注。
将单纯的“人工标注”转变为“自动标注”加上必要的“人工标注”,通过以图 像标注加文字标注相结合,以半自动标注替代纯手工标注的形式解决医学影像标 注研究过程中的关键问题,其中文字标注以医学影像诊断知识图谱的自动构建为 基础,利用自然语言处理技术生成结构化报告,在影像专家的确认下实现自动文字 标注,图像标注则是在文字标注内容的基础上,影像专家辅以手工标注和确认生成 图像标注将单纯的“图像标注”转变为“文字标注”加上必要的“图像标注”,充 分利用医学影像知识图谱和自然语言处理技术提升影像数据标注的效率。
1.3.3通过新标注模式,推动人工智能对医学影像发展
通过改变现有标注模式,利用自动“文字标注”+手动“图像标注”的新标注方 式可以提高标注的速度,同时也保证了标注数据的质量,通过面向深度学习的医学 影像快速标注系统得到的海量的、高质量的标注数据可应用于后续医学影像的深 度学习训练中,推动了人工智能在医学影像领域的发展,为解决深度学习在医学影 像中的发展瓶颈提供了新的思路和方向。
1.4论文研究内容
本文将围绕面向深度学习的医学影像快速标注系统,将检查部位和模式限定为
胸部 X 线检查的标注进行系统的研究与实现,论文共分为六章,各个章节研究内 容如下:
第一章,绪论。主要从系统的研究背景、国内外研究现状进行分析,分析出研 究的目的与意义。
第二章,系统分析与关键技术。分析系统的用户需求,梳理系统的流程和用户 角色;同时对实现系统的关键技术进行介绍,如医学影像知识图谱、自然语言处理 技术、 DICOM 标准、 WADO 服务、 Dcm4che 和 HTML5 Canvas 等。
第三章,系统设计。根据第二章系统分析的对系统进行了整体设计,提出系统 的设计原则,并对系统逻辑架构、功能架构和数据库进行具体设计。
第四章,系统实现。根据第二章系统分析和第三章系统设计上进行系统实现, 介绍了系统实现环境系统、关键技术的实现流程并进行系统功能展示。
第五章,系统测试与验证。在系统测试环境的基础上对系统进行功能测试和性 能测试,并设计实验比较基于面向深度学习的医学影像快速标注系统的标注方式 与传统手动标注方式在标注时间上的差异。
第六章,总结与展望。对本系统内容进行整理总结并分析不足之处并提出对未 来工作的展望。
第2 章 系统分析与关键技术
2.1系统分析
2.1.1系统功能需求分析
(1) 保证待标注数据经过脱敏处理 医疗数据通常包含患者大量的隐私信息和敏感信息,即使是利用数据进行科研
工作,也需要提前将涉及患者隐私信息的内容进行脱敏操作。而对于医学影像数据, 便要考虑到 DICOM 格式的文件格式和相关标准,去除哪些隐私数据,保留哪些关 键信息;本系统的脱敏操作包括患者姓名、患者出生日期、机构名称、机构地址、 检查 ID 和检查号。
(2) 标注信息管理 由于医学影像标注数据的特殊性,只由一名专家进行标注难以保证标注数据的
准确度,所以需要至少两名专家参与标注,对标注数据进行初标和审核,这便对标 注数据的流程管理提出了要求,需要对标注数据的状态进行分类管理,对于未标注 数据可进行初标,对于已初标数据需进行审核,对于已审核数据可进行查看和导出 等功能。
(3) 系统根据影像知识图谱自动生成文字标注 本系统研究的核心内容就是如何根据报告内容和影像知识图谱自动化地生成
文字标注内容;这就对影像知识图谱的构建规范和报告结构化处理提出了要求,要 求知识图谱结构设计必须合理,内容应尽可能准确全面,可以满足后续标注和系统 的需求。
(4) 专家根据文字标注进行快速图像标注 对于自动生成的文字标注,要求在准确率高的基础上,标注内容需醒目且结构
清晰,便于标注专家快速了解报告内容和病灶内容,从而可以在图像上快速手动标 出病灶位置实现图像标注。
 
2.1.2 系统流程分析
 
 
图 1 数据标注流程
Fig1 Data annotation process
如图 1 所示,数据的标注流程首先需要构建影像诊断知识图谱,利用知识图 谱和自然语言处理技术将报告中的文字信息转变为结构化数据的文字标注,专家 确认文字标注并根据文字标注获知病灶关键信息,在医学图像上进行图像标注; 同时也实现系统对标注的整个流程进行管理。
2.1.3用户角色分析
面向深度学习的医学影像快速标注系统主要的使用范畴是针对影像专家的影 像数据标注的标注工作,再考虑到影像标注的特殊性和专业性,医学影像标注的工 作往往需要两名以上专家进行标注和审核方可保证标注工作的准确性,所以系统 的主要用户角色包括初标专家和审核专家。
( 1 )初标专家 具备初级职称的影像学专家便可设为初标专家,初标专家的功能只有影像标注 工作,对于已经标注和审核的图像可点击查看进行学习。
(2)审核专家
中级职称以上的专家可设为审核专家,审核专家可对初标数据进行审核,对于 错标、漏标、多标的标注内容可进行修改、增加和删除标注的功能,除此之外也可 对影像数据进行初次标注。
2.1.4系统非功能需求分析
(1)易用性需求:系统易用性是对用户在系统的使用中便于理解和操作,页 面的描述和交互需要清晰易用;易用性主要与系统的页面样式设计、交互样式设计 和用户对系统使用的体验感相关,这些要求系统具备简洁美观的界面,清晰友好的 页面交互。
(2)系统性能性需求: 系统性能通常也是影响用户体验感的非功能性需求, 通常用响应时间、吞吐量、每秒响应请求数等指标来衡量。响应时间指系统对于操 作请求进行处理并响应的时间,吞吐量是指系统在单位时间内处理并响应请求的 数量,每秒响应请求数则是用来衡量查询服务器在规定时间内处理流量多少。
(3)安全性需求:由于系统中存储的大多是医疗影像数据,因此对系统安全 性也提出了需求,系统的安全性可通过设置水平权限管理,进行系统漏洞检测、安 全性风险评估等方面提高。
2.2关键技术
2.2.1医学影像知识图谱
(1)知识图谱概念
知识图谱( Knowledge Map )在前身语义网和知识库的基础上,利用不同知识 的关联性形成一个网状的知识结构,更加强调知识的语义概念和知识间的逻辑关 系,进而易于计算机对知识进行整理、存储、加工和管理[29]。知识图谱在语义网络 结构上主要通过(实体 1,关系,实体2)、(实体、属性,属性值)这两类三元组 组成,知识图谱可通过节点和边来描述,“实体”相当于知识图谱中的节点,实体 之间的“关系”相当于知识图谱中联系节点的边[30]。
知识图谱通常根据知识的专业领域不同又可分为各类专业知识图谱,医学知识 图谱相对于其他专业领域知识图谱发展相对较慢,目前国内已知最早的医学领域 知识图谱可以追溯到2002年中国中医科学院中医院信息研究所构建的中医药知识 图谱[31]。
(2)医学知识图谱构建方法
医学知识图谱的构建的方法包括自顶向下和自底向上两种方式;自顶向下的构 建方法是通过百科类网站直接获取结构化数据来源的高质量数据经过提取本体信 息后构建知识库,自底向上则是从公开的数据中获取可信度较高的知识,经过审核 后再添加至知识图谱中,目前医学领域知识图谱的构建方法大多是自底向上的。
自底向上构建的医学知识图谱的步骤通常包括知识表示、知识抽取、知识融合、 知识加工和知识更新[32]。医学知识的抽取包括实体、关系、属性的抽取,通常从医 学教材、期刊文献和百科类网站等异构数据源获取数据,通过自然语言处理 (Natural Language Processing, NLP)技术将非结构数据转变为结构化数据;知识 的融合和加工则是对这些多源异构的数据进行一系列处理操作从而实现强化知识 间的逻辑关系和表达能力;知识更新伴随着知识图谱构建的整个周期,特别对于认 知不断更新的医学知识,知识库也需不断丰富和完善来补全知识图谱[33]。
(3)医学知识图谱应用
目前医学知识图谱多应用于临床决策支持系统、医学百科网站和医院智能导诊 等方面[36],而本研究中面向深度学习的医学影像快速标注系统中的文字标注模块 就是基于医学影像知识图谱构建的。
2.2.2自然语言处理技术
(1)自然语言处理概念
NLP 是通过计算机对人类的自然语言进行加工和操作,如图2 所示,中文自然 语言处理研究的内容主要是针对字、词、句、段落和篇章的处理[37]。
 
图 2 中文自然语言处理内容
Fig2 Chinese NLP content
医学影像报告通常包含患者影像学表现和影像学诊断等重要检查信息,但影像 报告大多是自由文本格式的非结构数据。对于非结构化数据的医学影像报告进行 文字标注耗时费力且不易操作。而 NLP 可实现数据的结构化处理,提取报告中的 关键信息,转变为机器能够识别和处理的格式[38]。
(2)自然语言处理步骤
NLP 将报告文本转变为结构化文本的步骤通常包括语料获取、文本预处理、特 征提取等几个步骤。目前支持中文的 NLP 工具有 THULAC、HanLP、LTP、NLPIR 和 CppJieba 等。本文采用的 NLP 工具包为 HanLP。
①语料获取
本研究的NLP语料来源是影像报告,由于影像报告在各医疗机构间的风格有所 差异,故统一采用来源于上传至安徽省医疗影像云的安徽中医药大学第一附属医 院的影像报告文本进行处理。
②文本预处理
文本预处理通常是利用正则表达式(Regular Expression, RE)去除标点符 号在内的非文本信息,将整段文本独立成单句进行分词,分词方法一般基于规则或 基于统计;基于规则的方法就是预先建立好专业的相关分词词库和分词规则库,再 对单句进行匹配,根据匹配的规则又可细分为正向最大匹配(Forward Maximum Matching, FMM)、反向最大匹配和双向最大匹配三种匹配方式[39]。基于统计的方 法则是根据相连词在文本中出现的频次进行统计分词,通过预先构建语言模型,针 对不同的分词方式计算句子生成的概率,选取概率最高的分词方式,常见的模型有 隐马尔可夫模型(Hidden Markov Model, HMM)、最大熵模型和条件随机场模型[40]。
③特征提取 经过文本预处理得到的文本便可以进行特征提取工作,特征提取就是识别单个 词的概念以及同其他词之间的语义关系最终输出结构化的数据,特征提取常用的 模型有词袋模型(Bags of Words, BOW)和词向量模型。词袋模型是将拆分后的词 装入一个虚拟的“袋子”中,忽视词的语序和语义,对每个独立的词出现的次数进 行统计。词向量模型则是考虑词语间位置关系,将词语转化成词向量,通过计算两 词语间的余弦值来判断词义是否相近,余弦值越接近1 说明词义越相近[41]。
2.2.3DICOM 标准
(1) DICOM 标准的概念
由于医学影像的复杂性和多样性,为促进医学影像数据在不同系统间的传输与 交换,美国放射学会(ACR)与美国电气制造商协会(NEMA)于1985共同制定了一 种规范化的医学影像数据存储与通信标准,即 DICOM(Digital Imaging and Communication in Medicine)标准。DICOM标准定义了医学影像及其相关信息的 数据格式和网络通信协定,使得在各医疗设备和异构系统之间的传输和存储更加 高效, 1993推出的 3.0版本已成为医学影像领域通用的国际标准[42] 。
(2) DICOM 格式
根据 DICOM 标准的内容, DICOM 已成为医学影像领域通用的数据格式, DICOM 格式的医学图像除包括医学影像信息外还包括患者登记信息、诊断信息、设备信息 等数据。DICOM格式文件[43]组成如图3所示:
导言(Preamble) 前缀(Prefix) 数据元素(Data Element) 数据元素(Data Element)
 
标签(Tag) 值表示(VR) 值长度(VL) 值域(VF)
标签(Tag) 值表示(VR) 值长度(VL) 值域(VF)
 
图 3 DICOM 文件结构
Fig3 DICOM file structure
DICOM 文件组成包括导言、前缀和多个数据元素;导言共128 个字节,导言
中可存放文件的有关说明;前缀有4个字节,规定为“D”、“I”、“C”、“M” 4个 字符,可用于判断该文件是否为DICOM文件;数据元素有4个域,分别是标签、 值表示、值长度和值域。标签是数据元素的唯一标识;值表示反映出现的全部数 据种类,一共有27种值表示;值长度用来表示数据元素的长度;值域中存放患 者的相关信息或文件的像素值数据。
2.2.4WADO 服务
为了充分利用医学影像数据资源,实现影像数据广范围的传输共享, NEMA 和国 际化标准组织(ISO)引入了 WADO (Web Access to DICOM Persistent object) 服务用于医学影像的传输和显示,并在2004年纳入DICOM标准的第18章网络服 务部分[44]。
如图4所示,WADO服务通过客户端HTTP/HTTPS协议向服务器发送请求,服务 器根据外部请求查询数据库,然后服务器返回一个或多个 MIME 类型对象, Web 客 户端再根据收到的数据进行显示或存储等服务。
 
 
 
图 4 WADO 服务交互过程
Fig4 WADO service interaction process
WADO服务对象的MIME类型表如表1所示,包括单帧图像、多帧图像、文本对 象和应用对象等[45]。
表1 WADO服务响应的MIME类型
Tab1 MIME type of WADO service response
类型 响应的类型
单帧图像 JEPG、PNG、GIF、JP2
多帧图像 MPEG、GIF
文本对象 TEXT、HTML、XML、RTF、PDF
应用对象 DICOM 对象
 
2.2.5Dcm4che
目前影像信息系统针对DICOM标准的开源工具包有很多,广泛应用的工具包有 支持Java语言的Dcm4che、支持C++语言的DCMTK等。
Dcm4che 主要由 Dcm4che Toolkit 和 Dcm4chee 两部分组成。 Dcm4che Toolkit 的核心目标就是对DICOM标准的实现,完成DICOM图像的读取、解析、传输和检索 等功能, Dcm4che Toolkit 目前已广泛应用于国内外各种医疗影像信息产品中。
Dcm4chee 根据(Integration Healthcare Enterprise)规范、包含向医疗环境提 供存储,检索和工作流所需的DICOM,HL7服务和接口等功能的医学图像归档管理 企业级服务器,通过预先封装并部署在JBoss服务器中,使得Dcm4chee可以利用 JMS、 JavaEE EJB 等 JBoss 的特性,为医疗信息集成提供了许多强大的支持和可扩 展服务[46]。
2.2.6HTML5 Canvas
Canvas作为HTML5的页面元素,可实现在网页中绘制文本、线条、矩形、圆形 等图形,但必须配合 JavaScript 脚本操作方可逐像素进行绘制渲染。正是由于 Canvas逐像素处理的特性,便可实现在浏览器中实现DICOM图像调整窗宽窗位的 操作,此外Canvas支持的图像缩放、旋转等功能更加适合DICOM实现网页浏览功 能。
Canvas显示DICOM图像时,取出每个点的原始值(像素值),根据图像显示的 窗宽和窗位值,应用DICOM标准规定的公式变换后取得。变换公式如图5所示,图 中X表示原始的像素值,W表示窗宽,L表示窗位,Y是最终的显示值,Ymin和Ymax 分别是最大和最小的显示值。
if (X〈= L - 0. 5 - (WT)/2), then Y = Y*
else if(X > L - 0. 5 - (WT)/2), then Y =
else Y = ((X- (L-0. 5))) /(W-l)+0. 5) *(Ymi-Y.in) +Y.in
图5 DICOM变换公式
Fig5 DICOM transformation formula
除了直接使用公式进行图像变换计算的方法外,还存在一种查表法:在已知窗
宽和窗位的基础上,计算出有效的像素值对应的显示值,并把原始值和显示值存储
在一个数组(表)里;拿到实际的原始像素值后,首先判断是不是一个有效的像素
值,如果是有效的像素值则直接从表里取出显示值即可。这里的“有效的像素值”
是指以窗位为中心,加上或者减去窗宽的一半的值范围内的值,即不满足上图中第
一个和第二个条件判断的原始像素值。但由于DICOM多是512x512大小或者更大
的图像,并且对于计算机乘法和除法的性能消耗远高于数组查找的消耗,因此查表
法的应用将会减少图像处理的性能消耗,提高用户操作的响应速度。
Canvas 是通过将 DICOM 图像的原始像素值加载到网页脚本中,逐个像素地根 据窗宽和窗位计算最终的显示值,然后将处理完成后的完整显示值组成的图像通 过Canvas的putImageData接口显示在Canvas上。如果用户需要调整显示的窗宽 和窗位,则需将该计算过程重新执行一遍再显示在 Canvas 上[47]。
由于Canvas的API不够友好,通常通过Fabric.js[48]为Canvas提供更加丰富 的对象模型,如自由绘制不规则图像、绘制组合图形、生成 JSON、 SVG 数据等功 能。
关于DICOM在HTML5的Canvas上的图像处理,目前业界有两个相对知名的开 源库:Oviyam 2.0[49]和Cornerstone js。本文的DICOM图像显示和处理采用了 Oviyam 2.0开源库,Oviyam是一款支持DICOM标准、基于Web的DICOM浏览器, 将DICOM图像进行图像处理后以JPEG格式显示在浏览器上。Oviyam作为一款开源 软件,已预先打包同JBoss 一起部署,可与任何支持WADO服务的DICOM服务器一 起使用。
2.3本章小结
本章主要介绍了系统的分析和系统实现过程中使用的关键技术,首先通过系统 功能需求分析对系统提出了保证待标注数据经过脱敏处理、标注信息管理、系统根 据影像知识图谱自动生成文字标注、专家根据文字标注进行快速图像标注的功能 性需求,然后根据系统标注流程分析,进行用户角色分析,最后在易用性、系统性 能、安全性方面对系统提出了非功能性要求。
第3 章 系统设计
3.1设计原则
(1) 三层架构:将系统整个业务应用分为表示层、业务逻辑层、数据访问层。 表示层主要负责用户的界面显示和完成用户请求与响应操作;业务逻辑层主要负 责对来自表示层的操作进行判断或执行,作为表示层和数据访问层的桥梁;数据访 问层主要是对数据库中的数据进行操作并传输至业务逻辑层。基于三层结构的系 统可以便于用户数据的存储传输,提高系统的稳定性和可拓展性。
(2) 标准规范化:影像快速标注系统中对于医学数据的结构方面需遵循国家 卫生部颁布的《卫生信息数据元目录》及相关标准,以及国内外通用的HL7协议、 DICOM标准等相关技术标准。
(3) 高安全性:影像快速标注系统中保存的数据都是用户的影像检查数据, 涉及到用户的隐私,需要提前将患者的影像数据脱敏后方可使用,再通过设置权限 管理控制提高系统的安全性。
(4) 高并发性:影像快速标注系统应当支持多用户同时在线标注,不然难以 满足面向深度学习标注的速度要求,这便对系统性能提出了高并发性的要求,响应 时间、吞吐量、每秒响应请求数等指标参数可用来衡量系统性能。
(5) 可拓展性:影像快速标注系统应当考虑未来发展的需要,对于未来新增 的功能模块具有优秀的可拓展性。
3.2系统逻辑架构设计
系统开发设计中,系统架构的选择将直接影响到系统开发和维护的效率和系统 未来的功能扩展性。Spring MVC框架作为目前系统开发的主流框架,是一个基于 Spring的MVC框架,实现了模型、视图和控制三层模式来分离数据、业务处理和 界面显示。因其系统耦合性低、代码重用性高、系统生命周期成本快、可维护性高、 有利于软件工程化管理等特点,能够有效的改善了传统 Web 设计模式出现的开发 周期长、开发任务分解困难、维护难度较高、软件功能扩展性能差等问题。
Spring MVC 模式将组件分为三个单元:模型层、视图层和控制层,如图 6所 示:
 
 
图 6 MVC 模式关系图
Fig6 MVC pattern diagram
Model主要用于在数据库中存取数据和对数据进行业务处理;View主要用于处 理数据的显示和用户同系统交互操作的界面;Controller主要用于接收用户的请 求并进行分类处理,提交系统运行处理[50]。
面向深度学习的医学影像快速标注系统采用Spring MVC框架,将前端页面的 展示和后台逻辑业务的处理分开,页面的渲染和数据的显示部分交给前端,业务逻 辑的处理通过后台实现,这样的设计便于开发过程中前端和后台的同时开发,便于 开发任务分解、同时降低系统前后端的耦合性。
3.3系统功能架构设计
根据系统需求分析,可将面向深度学习的医学影像快速标注系统功能模块划分 如图 7 所示:
 
 
 
 
 
图7 系统功能模块图
Fig7 System function module diagram
(1) 标注项目管理:根据影像人工智能研发工作进展的需要,建立特定检查 模式的“标注项目”,设置项目相关参数,如检查模式,检查项目等;可对尚未标 注、尚未审核、已经标注状态的影像标注数据进行管理操作。
(2) 标注专家管理:建立数据标注专家的相关管理运作流程,包括对影像数 据的初次标注和标注审核;
(3) 数据标注管理:系统的核心模块,包括基于医学影像诊断知识图谱和自 然语言处理的自动文字标注功能,基于文字标注的手动图像标注功能;
3.4数据库设计
目前针对DICOM图像存储的机制目前有两种,一种是直接将图像以二进制对象 的形式存入数据库,一种是将图像存入磁盘,数据库只存放图像路径和基本信息。 由于医学图像的后续存储量巨大,故采用第二种图像存储方式。
基于 DICOM 图像存储的特殊性,可将整个系统的数据库表分为文字标注相关 表、标注信息相关表、DICOM相关表。
(1)文字标注相关表
文字标注相关表包括表2模块表、表3部位表和表4属性表三部分,作用为存 储与知识图谱进行匹配的信息,最终生成JSON格式的文字标注。
 
表 2 模块表
Tab2 Structure table
字段名称 中文释义 类型 备注
Stru_Id 模块编号 varchar 本表的主键,可自增
Stru_Name 模块名 varchar
Stru State 模块状态 bit 0 为异常,1 为正常
表 3 部位表
Tab3 Position table
字段名称 中文释义 类型 备注
Key_Id 部位编号 varchar 本表的主键,可自增
Stru_Id 模块编号 varchar 模块表的外键
Key_Name 部位名 varchar
Key State 部位状态 bit 0 为异常,1 为正常
表 4 属性表
Tab4 Property table
字段名称 中文释义 类型 备注
Property_Id 属性编号 varchar 本表的主键,可自增
Key_Id 部位编号 varchar 部位表的外键
Property_Name 部位名 varchar
vlaue 属性值 varchar
Property State 属性状态 bit 0 为异常,1 为正常
 
(2)标注信息相关表
标注信息相关表包括患者信息表、用户表、操作表和标注信息表,如表5、表 6、表 7 和表 8 所示
 
表5 患者信息表
Tab5 Patient information table
字段名称 中文释义 类型 备注
Patient_Id 患者编号 varchar 本表的主键,可自增
Age 年龄 varchar
Sex 性别 varchar
Examination_Mode 检查模式 varchar
Examination_Postion 检查部位 varchar
Annotation_State 标注状态 tinyint 0 为尚未标注、1 为尚未审核、 2 为已经标注
Report content 报告内容 text
 
表6 用户表
Tab6 User table
字段名称 中文释义 类型 备注
User_Id 用户编号 varchar 本表的主键,可自增
Username 用户名 varchar
Password 密码 varchar
Role 角色类型 tinyint 0 为初标专家,1 为审核专家
表 7 操作表
Tab7 Operation t able
字段名称 中文释义 类型 备注
Operation_Id 操作编号 varchar 本表的主键,可自增
Patient_Id 患者编号 varchar 患者表的外键
User_Id 用户编号 varchar 用户表的外键
Operation_Time 操作时间 datetime
Operation Type 操作类型 tinyint 0 为初次标注,1 为标注审核
 
 
表 8 标注信息表
Tab8 Annotation information table
字段名称 中文释义 类型 备注
Annotation_Id 标注信息编号 varchar 本表的主键,可自增
Patient_Id 患者编号 varchar 患者表的外键
Dicom_Path DICOM 路径 varchar
Json_Path JSON 路径 varchar
Image Path 图片路径 varchar
(3) DICOM相关表
如图8所示,DICOM图像信息根据一定的组织结构可划分为四个层次结构:病 人(Patient)、检查(Study)、序列(Series)和图像(Instances),以一位患者 到一个医疗机构进行医疗行为为例,每位患者在医疗机构可进行多种类型的影像 检查,每次的影像检查也可能包括多个序列,每个序列又可能包括多张图像。
 
 
图8 DICOM四层结构
Fig8 DICOM four layer structure
基于上述四层结构,可将DICOM相关表分为,病人表、检查表、序列表和图像 表,由于表内容篇幅过长,表9、表10、表11、表12只显示表中部分信息。
 
表9 病人表部分字段
Tab9 Partial fields of patient table
字段名称 中文释义 类型 备注
Patient_Id 患者编号 varchar 本表的主键,可自增
Patient_Name 患者姓名 varchar
Patient_Birthdate 患者出生日期 datetime
Patient_sex 患者性别 varchar
Created Time 创建时间 datetime 默认生成,getdate()
 
表 10 检查表部分字段
Tab10 Partial fields of study table
字段名称 中文释义 类型 备注
Study_Id 检查编号 varchar 本表的主键,可自增
Patient_Id 患者编号 varchar 病人表的外键
StudyUID 检查 UID varchar 检查唯一标识
Num_Instances 图像数 int
Num_Series 序列数 int
Created Time 创建时间 datetime 默认生成,getdate()
 
 
表 11 序列表部分字段
Tab11 Partial fields of series table
字段名称 中文释义 类型 备注
Series_Id 序列编号 varchar 本表的主键,可自增
Study_Id 检查编号 varchar 检查表的外键
SeriesUID 序列 UID varchar 序列唯一标识
Num_Instances 图像数 int
Created Time 创建时间 datetime 默认生成,getdate()
表 12 图像表部分字段
Tab12 Partial fields of instance table
字段名称 中文释义 类型 备注
Instance_Id 图像编号 varchar 本表的主键,可自增
Series_Id 序列编号 varchar 序列表的外键
ObjectUID 序列 UID varchar 图像唯一标识
Created Time 创建时间 datetime 默认生成,getdate()
 
3.5本章小结
本章主要描述了系统的设计,首先通过三层架构、标准规范化、高安全性、高 并发性和可拓展性等方面介绍了系统的设计原则;介绍了基于Spring MVC框架的 系统逻辑架构设计;并将系统功能模块划分为标注项目管理、标注专家管理和数据 标注管理;最后介绍了数据库的设计,根据DICOM图像存储特性,将数据表分为文 字标注相关表、标注信息相关表、DICOM相关表。
 
第4 章 系统实现
4.1系统实现环境
根据系统的分析和设计的要求,系统实现的环境如表 13 所示:
表 13 系统实现环境
Tab13 System implementation environment
名称 版本
操作系统 Windows7 64bit
数据库系统 SQL Sever 2008 R2
开发语言 Java
集成开发环境 Eclipse
开发框架 Spring MVC
系统架构 B/S
Web 服务器 JBoss
JDK jdk 1.7
dcm4che类库(图像服务)、Oviyam类库(网
主要类库 页DICOM浏览)、HanLP类库(中文分词)、
log4j 类库(日志)、 jdbc 类库(数据库)
浏览器 Chrome
 
4.2系统关键技术的实现流程
4.2.1待标注数据的脱敏处理
待标注数据的脱敏方法通常有替换、加密、删除、变换等措施 [51] ,本文采用的 脱敏方法为替换,即利用自定义的数据替换 DICOM 数据中患者隐私信息。本系统 设计的脱敏的信息如表14 所示,包括患者姓名、患者出生日期、机构名称、机构 地址、检查 ID 和检查号。
表14 需脱敏信息
Tab14 Desensitization information
Tag (标签) Tag Description
(标签描述) VR (值表示)
Patient's Name
0010 0010 (患者姓名)
Patient's Birth Date PN (Person Name,人名)
0010 0030 (患者出生日期)
Institution Name DA (Date,日期)
0008 0080 (机构名称)
Institution Address LO (Long St ring,长字符串)
0008 0081 (机构地址)
Study ID ST (Short Text,短文本)
0020 0010 (检查ID)
Accession Number SH (Short String,短字符串)
0008 0050 (检查号) SH
 
由DICOM标准的组成结构可知,DICOM数据通常包含如患者标签、检查标签、 图像标签等在内的诸多数据元素,对于DICOM数据的脱敏就是通过标签值这一唯 一标识符找到对应标签描述的数据元素,修改其中的值域信息,将字符内容替换为 "***", ,日期型替换为"********",便可将数据进行脱敏操作,具体的实现代码如 图9所示。
public class ModxfxedDcm {
private static final Seeing STRING_VALUE private static final String DJkTE_VALUE = public static void deallmg(Seeing usl){
Dx comObj e ct dcmObj;
DxcomlnputScream din = null;
HashMap<Strxng, String〉studyUIDBef ozeAndAf tex = new HashMap<S"ing, String〉O ; HashMap<StE±ng, S"ing> secxeUIDBefoceAndAftec = new HashMap<SCExng, StzxngX); AxzayLxst<Strxng> dcmFxles4Changed = new ArrayLxst<StE±ng>();
File fileDCM = new File (url) ;//tD^要修改的图片
try {
din = new DiconInpu^S€zeam(fileDCM);
if(din null) return;
dcmObj = din.readDicomObjeci();
//患者信息蛻敏
dcmObj.setString(Tag.PatientName, VR.PN, STRING_VALUE); dcmObj.setStcing(Tag.PaeientBicthDate, VR.DA, DATE VALUE);
〃医貌传息蜿敏
dcmObj.setStcing(Tag.InstitutionName, VR.LO, STRING_VALUE); dcmObj.setStElng(Tag.InstitutionAddcess, VR.ST, STRING VALUE);
〃检査倍息咬墩 ~
dcmObj.setSteingCTa?.StudylD, VR.SH, STRING_VALUE); dcmObj . setS"ing (Tag. Acce s s i onNumbe c, VR. SH, STR I NG_VALUE);
/*删除操作为
dcmObj.remove(Tag.Patien匸Name〉;
dcmObj.remove(Tag.PacientBirthDate);
dcmObj.remove(Tag.InstitutionName);
dcmObj.remove(Tag.InstitutionAddress);
dcmObj.remove(Tag.StudylD); dcmObj.remove(Tag.Acce s sionNumbe z);
•/
din. close ();
〃保存锐墩信息
FileOutpucStream fos;
try t
fos = new FileOutputStream(fileDCM);
ButferedOutputStream bos = new BufferedOutputStream(fos); DicoaOucpucStream dos = new DicomOucpucS^ream(bos);
try I
dos . wciteDicomFile (dcmObj);〃将殴敏处理后的图片骂入到输出文件 dos.close ();
} catch (IOException e)(
e.printStackTrace();
} catch (FileNotFoundExcepdon e) {
e.psintStackTcace();
} catch (IOExceptIon e) {
e.prxntStackTrace();
return;
public static void main(Seeing[] azgs) {
deallmg("D:\\dcm_pic\\l.2.840.113€19.2.428.3.€04€74908.€04.1545522281.907.4.dem");
图 9 数据脱敏具体代码
Fig9 Specific code of data desensitization
4.2.2医学影像知识图谱的构建
医学影像知识图谱的构建是文字标注过程中的关键步骤,医学影像知识图谱作 为现有影像知识的数字化表达,要求结构设计必须合理,内容应尽可能准确全面, 这就需要将医学和工程两个学科的知识有机融合,影像知识图谱的结构需要满足 后续标注和系统的需求,知识图谱内容需要专业知识的填充。医学影像诊断知识图 谱的构建流程如图10 所示:
 
 
图10 影像诊断知识图谱构建流程
Fig10 Construction process of image diagnosis knowledge map
目前已成功构建了胸部X线知识图谱,根据胸部解剖学结构[52]、医学影像学[53] 和影像检查报告特点,如图11所示可将胸部分为五大模块:“胸廓、气管、纵隔”、 “肺部”、“心影、主动脉”、“膈面、肋膈角”和“骨质”。这五大模块还可向下细 分子模块,除顾名思义的部位叠加组合模块外,根据归属划分的“肺部”模块下包 括“肺纹理”、“肺野”、“肺门”三个子模块;“骨质”模块下包括“锁骨”、“肩胛 骨”、“肋骨”、“胸椎”、“胸骨”和“其他所见骨质”。
 
图11 胸片模块结构设计
 
Fig11 The structure design of chest film
 
细分后的每个组织、器官或部位都可以看做一个实体,根据其解剖学结构和影 像特征拥有所对应的属性和属性值,以“肺部”模块为例,便可发现存在“肺部- 包括-肺纹理”、“肺部-包括-肺野”、“肺部-包括-肺门”这种“实体-关系-实体” 三元组;“肺纹理-粗细-增粗”、“肺野-透亮度-正常”、“肺门-浓度-增浓”等“实 体-属性-属性值”三元组。由若干这两类三元组组成的胸部X线知识图谱结构如 表 13所示,表格中属性值第一个值为正常值,其余都是异常值。
表13胸部X线知识图谱结构
Tab13 Structure of chest X-ray knowledge map
实体 实体 属性 属性值
胸廓、气管、纵隔 胸廓 对称性 对称、不对称
形态 正常、桶装、漏斗状
气管 宽度 正常、增宽、变窄
居中性 居中、左偏、右偏
纵隔 宽度 正常、增宽、变窄
居中性 居中、左偏、右偏
密度形态 正常、结节、肿块、片状影、网
状影、蜂窝状影
肺部 肺纹理 粗细 正常、增粗、纤细
数量 正常、增多、减少、消失
境界 清晰、,模糊
走行 正常、紊乱、网格状、垂柳状
肺野 透亮度 正常、增髙、减低
密度形态 正常、空洞、空腔、结节、肿
块、网状影、片状影、蜂窝状影
肺门 大小 正常、增大、缩小
浓度 正常、增浓
移位 无、上提、下移
密度形态 正常、空洞、空腔、结节、肿
 
 
实体 实体 属性 属性值
块、网状影、片状影、蜂窝状影
心影、主动脉 心影 大小 正常、增大、缩小、饱满、狭长
形态 正常、靴形、梨形、烧瓶心、垂
位心
位置 正常、右位
主动脉 宽度 正常、增宽、变细
形态 正常、迂曲、突出
密度形态 正常、结节、肿块、片状影、网
状影、蜂窝状影
膈面、肋膈角 膈面 移位 无、上提、下移
形态 正常、不规则、波浪状、局限性
膨隆、幕状突起
肋膈角 轮廓 清晰、模糊、消失
形态 锐利、变钝
骨质 锁骨 数量 正常、增多、减少
形态 正常、粗大、细小、欠规整
密度 正常、增髙、减低
连续性 正常、中断
肩胛骨 数量 正常、增多、减少
形态 正常、粗大、细小、欠规整
密度 正常、增髙、减低
连续性 正常、中断
胸骨 数量 正常、增多、减少
形态 正常、粗大、细小、欠规整
密度 正常、增髙、减低
连续性 正常、中断
 
 
实体 实体 属性 属性值
肋骨 数量 正常、增多、减少
形态 正常、粗大、细小、欠规整
密度 正常、增髙、减低
连续性 正常、中断
肋间隙 正常、增宽、变窄
走形 自然、平举
畸形 无、叉状肋、肋骨联合、颈肋
胸椎 数量 正常、增多、减少
形态 正常、粗大、细小、欠规整
密度 正常、增髙、减低
连续性 正常、中断
弯曲程度 正常、弯曲
椎间隙 正常、增宽、变窄
其他所见骨质 数量 正常、增多、减少
形态 正常、粗大、细小、欠规整
密度 正常、增髙、减低
连续性 正常、中断
 
胸部X线知识图谱的具体构建的操作流程如下:
(1)知识表示
医学影像知识图谱的知识表示采用了基于XML的面向对象知识表示法[54],XML
格式因其存储和解析方便等特点可用来存放结构化数据。胸部 X 线知识图谱基于
XML 的面向对象表示的存储结构如图 12 所示。
<MapStrus>
<MapStru〉
<MapStruName ^tl</MapS truName〉
<MapKeys>
<MapKey>
<MapKeyName:、组织器 官 l</MapKeyName>
〈Properties〉
<Property>
< Pr ope r t yName > / Pr ope r t yName >
<Values>
<Def aultValue> 默认正常属性值 </Def aultValue> <NormalSynonym> 正常.属性值 同文词 l</NormalSynonym>
<OptionValues>
<OptionValue> 可选异常属 性值OptionValue> WAbnormalSYnonym>异常-属 性*fi.同文词 AbnormalSynonym>
cAbnorma丄;SynonymA 异常■属 性值 同文词 2</Abnorma 丄 SYnonym〉 <AbnormalSynonym> </AbnormalSynonym>
</OptionValues>
<OptionValues>
</OptionValues>
</Values>
</Property>
<Property> </Property〉
</Properties> </MapKey> <MapKey> </MapKey>
</MapKeys>
</MapStru>
<MapStru>
</MapStru>
</MapStrus>
图12胸部X线知识图谱的XML结构表示
Fig12 XML structure representation of chest X-ray knowledge map
(2)知识获取 医学影像知识图谱的知识从医学影像教科书、医学影像学术期刊、医学影像报 告、百科类网站等异构数据源共同获取。
①实体获取
实体获取主要通过基于规则的方法,而对于未登录词则采用基于HMM的统计方 法来解决,HMM就是先进行分词和词性标注进行参数训练后再次分词。
搜集大量具有价值的医学影像教科书、学术期刊并通过正则表达式获取含有关 键词(如肺纹理等部位)的句子,并剔除空格和多余句子。采用HanLP分词器实现 分词,将词库导入内存中,并将句子按照从左到右的最长匹配原则查找词库。
HMM在训练时有(n,A,B)三个参数,n指先验概率,A指词性之间的转移矩 阵,B指词性到词的发射矩阵。通过对文本每个词性出现频次、词性和后续词性出 现频次和对应的词,获得三个参数的值。
转移矩阵的公式 4-1:
P叽)=鵲册辛)公式4-1
公式4-1中#(Si,St)表示的是两个词性出现的次数,#St-1表示的是词性出现的 次数,用频率近似概率来计算
公式 4-2 表示的发射矩阵:
P(OtlSt)=鲁込#”(。浮 公式 4-2
公式4-2中#(Ot,St)表示的是某个词和某个词同时出现的次数。
最终获得n个词性、m个词组,则n则为一个长度为N的向量,A为一个nXn 的句子,B为一个nXm的矩阵,再次进行分词时要保证分词后的词都在m中。
②属性获取
医学影像属性获取的目标是从医学影像文本中采集特定的属性信息,例如针对 胸廓这一部位,可以提取到胸廓的对称性和形态等信息,在医学影像诊断知识图谱 中获取到的属性均为实体的属性,在获取的过程中通过支持向量机(SVM)算法来 进行属性的获取。
③关系获取
为得到实体和属性间的关系,还需进行关系抽取,在进行关系获取时,使用半 监督学习的 Self-training 方法,具体的算法流程如下:
首先进行假设,假设分类器对样本实力进行预测时置信度髙的样本被正确分类 的概率大,那么基于这个假设,可以假设两类数据 A 和 B, 其中的 A 是被标注过的 数据, B 是未被标注的数据。
1)从已标注的数据A中训练得到分类模型C;
2)用模型C来预测B;
3)将预测的结果置信度高的n个样本集合N,加上他们的标签加入到训练数据
A中,并将B删除;
4)返回到第一步,直到得到全部的未标注的数据并加入到A中。
3)知识融合
从异构数据源抽取的知识信息往往存在质量差异、知识的重复和层次结构缺失 等问题,因此有必要进行知识融合,知识融合的操作通常包括实体消歧和共指消解。
①实体消歧
在真实语境中,存在一个实体指称项对应多个命名实体对象,例如“空洞”, 在汉语中通常意为“空虚而无内涵”,而在医学影像中指“脏器组织中坏死或液化 的病变物质排出后,在原处所遗留的凹陷或孔隙”,所以在构建医学影像诊断知识 图谱时要进行实体消歧,采用空间向量模型法取出实体周边的词构成特征向量 D1
(Q11,Q12,—,Q1n), D2(321,3 22,"・,3 2n ),将向量的余弦相似度 COS 0 进行 比较,将该指称项聚类到与之最相近的实体指称项集合中。
COS “ 琥诃曲 _ 公式4-3
J》:=i临£=】喙
②共指消解
同时也存在多个指称项对应同一实体对象,例如异常密度影中“斑片状”、“条 片状”、“大片状”等指称项可能指向的是同一实体对象“片状影”,故还需进行共 指消解,根据同义词识别和依存句法分析从原始语料中抽取实体上下文模式的信 息。
(4)知识加工
经过知识融合后可以基本消除实体间的歧义、理清知识层次结构,但得到的结 果还不能称之为知识,只能作为知识的基本单位,还需要进一步经过知识的加工才 能得到结构化的知识图谱,知识加工包括知识推理和质量评估。
①知识推理
知识推理是根据知识图谱中已有实体关系推导出新的实体关系的过程,可以通 过知识推理发现新的知识,知识推理包括确定性推理和不确定推理。
确定性推理是根据预先设定好的规则进行推导的过程,如在胸部X线检查中肺 部包括肺纹理、肺野和肺门,通过“肺纹理-状态-正常”、“肺野-状态-正常”和 “肺门-状态-正常”可以推理出“肺部-状态-正常”这一结论。
不确定性推理是根据以往的经验,提出推理假设并利用统计学手段对推理假设 进行验证的过程。贝叶斯网络是由变量节点以及连接节点的有向边构成的有向弧, 通过条件概率描述两节点间的强度关系。
②质量评估
质量评估是一个对知识可信度量化并舍弃置信度较低的知识从而保障知识图 谱质量的过程。知识图谱的构建主要还是为了应用,通过应用效果可在一定程度检 验知识图谱。
(5)知识更新
随着医学知识的不断发展进步,知识图谱也需要不断的更新,但因为数据的来 源没有改变,因此医学影像诊断知识图谱的结构一定时期内不会发生改变,只需将 新数据和原数据融合后完成更新。具体的更新过程如下:
①从新数据中抽取新的实体并将其映射到医学影像诊断知识图谱中的概念中, 得到新实体数据;
②将新实体数据进行知识融合;
③由于新数据的来源和原数据来源相同,因此不需要改动原来的数据和结构, 只需要根据一定的规则加入新的三元组,即扩充了影像诊断知识图谱。
4.2.3基于结构化文本的文字标注
在构建好胸部 DR 知识图谱后,便可以对非结构文本的报告进行结构化处理生 成文字标注,生成流程如图13所示:
 
 
 
图 13 文字标注生成流程
Fig13 Text annotation generation process
以图 1 4所示的检查报告内容为例进行的结构化文本处理如下:
检查所见:
胸廓对称,气管及纵隔居中;两肺纹理增多、增粗、 模糊,肺门影增浓;心影、主动脉未见明显异常,双 侧膈面光滑,肋膈角锐利。
检查印象:
支气管感染。
图 14 检查报告内容
Fig14 Contents of inspection report
(1)利用正则表达式实现分句
首先通过正则表达式以“,”、“;”和“。”等标点或空格为界通过
Tex tSpli t()进行分句处理,分句成功后的结果如图15所示,将这些分句存入字 符串数组中;
胸廓对称
气管及纵隔居中
两肺纹理增多、增粗、模糊
肺门影增浓 心影、主动脉未见明显异常 双侧膈面光滑
肋膈角锐利
图15 分句结果
Fig15 Clause result
(2)利用HanLP和分词词典实现分词
利用HanLP分词器和预先定义好的分词词典进行FMM的分词操作,分词词典 包括胸片部位词典、胸片属性词典、胸片属性值词典。
FMM的基本思路是:从左到右将句子中的连续字符与词典进行匹配,若匹配 成功则切分出一个词,若匹配失败则增加一个单字继续进行匹配,直到取出正确 的词为止,可以通过“两肺纹理增多、增粗、模糊”这句话为例:
①待分词文本:S[] = { “两”,“肺”,“纹”,“理”,“增”,
“多”,“、”,“增”,“粗”,“、”, “模”,“糊”};
②分词词典:diet[] = {…,“两肺”,“肺纹理”,“两肺纹理”,“增 多”,“增粗”,“模糊”,‘'、”,…}(真实分词词典会包含更多分词词语);
③将待分词文本输入进去,然后跟分词词典进行匹配,从S[1]开始,当扫描 到S[2 ]时,发现“两肺"存在于die t[]之中。但还需继续向后进行扫描看是否 能组成最大匹配;
④继续扫描S[3],发现“两肺纹"并不是diet[]中的词,但还不能切分出 来,因为“两肺纹”是diet[2]的前缀,还需继续向后进行扫描;
⑤扫描S[4],发现“两肺纹理”是diet[]中的词,继续向后扫描;
⑥扫描S[5],发现“两肺纹理增”并不在diet[]中也不是diet[]任何元素 的前缀,因此可将“两肺纹理”切分出来;
⑦重复上述操作,最终可得到分词结果为“两肺纹理”,“增多增 粗”,“、”,“模糊”。
根据HanLP和分词词典,最终上述字符串数组的分词结果如图16所示:
”胸廓”,“对称”
“气管”,“及”,“纵隔",“居中”
“两肺纹理”,“增多“增粗”,“、”,“模糊”
“肺门影”,“增浓”
“心影主动脉”,“、”,“未见明显异常”
“双侧膈面”,“光滑”
“肋膈角”,“锐利”
图 16 分词结果
Fig16 Segmentation result
(3)与知识图谱进行匹配
将上步分词好的字符串与知识图谱进行匹配,XML格式的胸部X线知识图谱 解析后可提取其中关键信息,通过和分词结果进行匹配生成JSON格式的结构化 报告,下面以表13“胸廓气管纵隔”模块和表 14“肺部”模块下的“肺纹理” 为例来描述文字标注生成的过程。
 
表13 文字标注生成过程例1
Tab13 Example 1 of text annotation generation proeess
实体 属性 文本对应 XML对应 属性值 数据库操作
胸廓 对称性 “胸廓对
称” PropertyName:对称性
DefaultValue:对称
NormalSynonym :对称 对称 Property_Name:对称性
Value :对称
Property State:1
形态 无对应描述 PropertyName :形态
DefaultValue :正常 正常 Property_Name: 形态
Value :正常
Property State:1
将所有Property_State进行逻辑与操作,结果赋值给
Key State Key_Name:胸廓
Key State:1
气管 居中性 “气管及纵
隔居中” PropertyName:居中性
NormalSynonym :居中
DefaultValue :正常 正常 Property_Name:居中性
Value :正常
Property State:1
宽度 无对应描述 PropertyName :宽度
DefaultValue :正常 正常 Property_Name: 宽度
Value :正常
Property State:1
将所有Property_State进行逻辑与操作,结果赋值给
Key State Key_Name:气管
Key State:1
纵隔 居中性 “气管及纵
隔居中” PropertyName:居中性
NormalSynonym :居中
DefaultValue :正常 正常 Property_Name:居中性
Value :正常
Property State:1
宽度 无对应描述 PropertyName :宽度
DefaultValue :正常 正常 Property_Name: 宽度
Value :正常
Property State:1
密度形态 无对应描述 PropertyName:密度形 态
DefaultValue :正常 正常 Property_Name:密度形态
Value :正常
Property State:1
将所有Property_State进行逻辑与操作,结果赋值给
Key State Key_Name:纵隔
Key State:1
胸廓气
管纵隔 将所有Key_State进行逻辑与操作,结果赋值给Stru_State Stru_Name:胸廓纵隔气管
Stru State:1
表 14 文字标注生成过程例 2
Tab14 Example 1 of text annotation generation proeess
实体 属性 文本对应 XML对应 属性值 数据库操作
肺纹理 数量 “两肺纹理
增多、增
粗、模糊” PropertyName:数量
OptionValue:增多
Abnorma l Synonym:增多 增多 Property_Name:数量
Value:增多
Property State: 0
粗细 “两肺纹理
增多、增
粗、模糊” PropertyName :粗细
OptionValue :增粗
Abnorma l Synonym :增粗 增粗 Property_Name: 粗细
Value:增粗
Property State: 0
境界 “两肺纹理
增多、增
粗、模糊” PropertyName :境界
OptionValue :模糊
Abnorma l Synonym :模糊 模糊 Property_Name:境界
Value:模糊
Property State: 0
走行 无对应描述 PropertyName :形态
DefaultValue :正常 正常 Property_Name: 形态
Value:正常
Property State: 1
将所有 Property_State 进行逻辑与操作,结果赋值给 Key_State Key_Name:肺纹理
Key State: 0
 
其他模块操作同上,经过上述步骤将数据库中的数据生成JSON格式,最终
JSON 格式结构化报告如下所示:
[{
"mapStruName": "胸廓气管纵隔", "mapStruState": "正常",
}, { "mapStruName": "肺部", "mapStruState": "异常", "mapKeys": { "mapKey": [{ "mapKeyName": "肺纹理", "properties": { "property": [{ "propertyName": "粗细", "value": "增粗"
}, { "propertyName": "数量", "value": "增多"
} , {
"propertyName": "境界",
 
"value": "模糊
"propertyName": tr 1 tr tr 曲 tr
"value": "正常" "走行",
}]
}, {
"mapKeyName": "肺野", "mapKeyState": "正常"
}, {
"mapKeyName": "肺门",
"properties": {
"property": [{
"propertyName": tr i tr tr 曲 tr
"value": "正常" "大小",
}, { {
"propertyName":
"value": "增浓" "浓度",
}, { {
"propertyName": tr i tr tr 曲 tr
"value": "正常" "移位",
}, { {
"propertyName": tr i tr tr 曲 tr
"value": "正常" "密度形态"
}]
}
}]
}
{
"mapStruName": "心影主动脉",
"mapStruState"
{
"mapStruName": : "正常"
"膈面肋膈角",
"mapStruState"
{
"mapStruName": : "正常"
"骨质",
"mapStruState" : "正常"
}]
(4)结构化报告可视化处理
JSON 格式作为结构化数据已经能够实现计算机的读取和处理,但另一方面却
不方便标注专家的读取,故还需要将JSON数据进行可视化处理,可通过zTree阴
这一树形插件,生成带有树状结构、可折叠显示的文字标注,如图17所示。同时 将正常和异常的属性、属性值通过颜色区分,便于标注专家对报告的快速阅读,另 外专家对于漏标、多标、误标的结果可进行手动添加、删除和修改。
 
图 17 可视化结果
Fig17 Visualization results
 
4.2.4基于HTML5 Canvas的图像标注
在Dcm4che和Oviyam2开源工具包的支持下可成功实现DICOM图像的浏览,在 图像标注操作上采用基于HTML5的Canvas和Fabric.js技术,经过Fabric.js封 装后的Canvas支持生成生成JSON数据,生成的JSON文件可以存储记录下DICOM 的图像标注内容,通过canvas. toJSON ()操作实现序列化。
4.3系统功能展示
4.3.1系统登录
系统的登录界面如图 18 所示,系统的账号由系统管理员进行账号分配,通过 输入账号密码进入系统首页如图 19 所示。
 
 
 
图18 系统登录界面
Fig18 System login interface
 
 
图19 系统首页
Fig19 System home page
4.3.2业务管理
首页就是业务管理界面,该界面包括“尚未标注”、“尚未审核”和“已经标注” 三个部分的列表。
(1)如图19所示,“尚未标注”列表的功能主要是为初标专家进行标注的操 作和管理。标注状态显示“正在标注”的数据表示已有其他专家正在实时标注,操 作栏的“标注”按钮会变灰,此时无法进入;显示状态“尚未标注”的数据可以通 过“标注”按钮进入标注界面,对待标注图像进行数据标注、提交等操作。
 
2)如图 20 所示,“尚未审核”列表的功能主要是为审核专家进行复核的操 作和管理,同理,标注状态显示“正在审核”的数据表示已有其他专家进行实时审 核,操作栏的“审核”按钮会变灰,此时无法进入;显示“尚未审核”的数据可以 通过“审核”按钮进入标注界面,对初审专家的标注数据进行审核、修改、提交等 操作。
3)如图 21 所示,“已经标注”列表的功能主要是展示已标注且审核过的历
史标注数据,列表可以查看标注和审核时间,点击操作栏的“查看”按钮可以查看
 
 
 
Fig20 Unexamined interface
aww冋
 
 
 
 
图 21 已经标注界面
Fig21 Annotated interface
4.3.3数据标注
从“尚未标注”列表操作栏点击“标注”按钮进入数据标注界面,如图22所 示,可将页面分为六个区域:影像报告区域、影像显示及操作区域、操作工具区域、 文字标注区域、图像标注区域和标注管理区域。
 
图22 标注界面划分
 
Fig22 Division of annotation interface
1)影像报告区域
如图23所示,影像报告区域包括“影像报告”和“影像序列”两部分,“影 像报告”用以展示病例中患者脱敏后的包括编号、性别、年龄、检查部位在内的 基本信息、检查所见和检查印象文本内容,用作标注时的参考;“影像序列”用 以展示影像数据,供专家进行选择标注。
影像报告
患者编号:123456
性^ :男
年龄:42
郃位:胸部.
检查所见
两肺野纹理增多,紊5L ,模糊,僵硬,两F肺透 光增强,两侧肺门增浓、瑁大(卿时旷步检 童);心彫不大;纵隔影未见明显异常;两膈肌 光整,肋膈角锐利°
检查印象 慢支、肺气肿样尬,随访。
图 23 影像报告区域
Fig23 Image report area
( 2 )影像显示及操作区域 影像显示及操作区域用来展示图像和后续的图像标注工作。
( 3 )操作工具区域
如图 24 所示,操作工具区域主要由若干工具组成,从左到右分别为“布
局”、“窗宽窗位”、“缩放”、“移动”、“定位线”、“翻跃”、“同步序
列”、“垂直翻转”、“水平翻转”、“逆时针旋转”、“顺时针旋转”、“重
置”、“反相”、“文本描述”、“全屏”、“元数据”、“下载”、“标 注”、“显示标注”、“测量线”。
 
 
图 24 操作工具区域
Fig24 Operation tool area
( 4 )文字标注区域
文字标注区域的树形结构文本由影像报告区域的报告内容经过影像知识图谱 和结构化处理后自动生成,如图 25 所示。
Q ■胸应气笞纵隔
I d ■肺野
I ■■師门
◎ ■大小 丘■浓度
討■堵浓二・n
d■融 矗■密
自■心影主般
冃・膈面肋腸角
■■骨质
图 25 文字标注区域
Fig25 Text annotation area
若整个模块下所有部位的属性均正常,则整个模块显示正常标绿且自动折 叠;若有异常的部位则展开显示并标红警示。自动生成的文字标注不一定完全正 确,若出现误操作,如图 26所示可以通过右侧的修改按钮在可选择的范围内进 行校正,如图 27所示修改后的文字标注内容发生改变,整个模块变为正常;反 之也可通过将正常属性值修改为异常属性值。
 
 
图 26 修改操作
Fig26 Modify operation
E9 •■胸廊气管纵隔 ■•肺部
I肺如
| ■肺野
! •■肺门
a ■大小 ■•稠 [丄童正常 d ■融 也■密® 由■心影主动脉 •■隔面肋膈角 d■胃质
图 27 修改后的文字标注区域
Fig27 Text annotation area after modification
5)图像标注区域
图像标注区域是标注专家根据文字标注区域的内容,将异常部分通过标注工 具在影像显示及操作区域进行勾画标注,同时会在图像标注区域显示出该部位的 坐标,从而达到标注的效果,图像标注步骤如图28 所示。若标注错误可以通过 右侧删除按钮进行标注删除,下方的备注文本域可以填写病灶的相关描述。
 
 
图 28 图像标注步骤
Fig28 Image annotation steps
( 6 )标注管理区域 标注管理区域是标注专家在标注完成后的操作功能区域,根据初标专家和审 核专家的角色不同,标注管理区域的操作界面也有所不同。
①对于初标专家,标注管理区域有三个按钮“提交标注”、“取消标注”、
“设为废片”。点击“提交标注”按钮,提交标注信息供有审核权限的专家去审 核;点击“取消标注”按钮取消该次标注操作,不做任何数据保存,返回到“尚 未标注”界面;点击“设为废片”按钮该条数据将不再显示此时会伴有弹窗提示 信息:“设为废片后,该数据将不再显示,且无法恢复,确定要设为废片
pa? ”
—V • O
②对于审核专家,标注管理区域有两个按钮“审核标注”、“取消审核”。 数据标注完成之后点击“审核标注”按钮进行数据审核,标注数据会进入“已经 标注”列表;点击“取消审核”则返回尚未审核界面,不会对数据进行任何审核 操作。
4.4本章小结 本章介绍了系统的实现,介绍系统的实现环境,然后从待标注数据的脱敏处理、 医学影像知识图谱的构建、基于结构化文本的文字标注、基于 HTML5 Canvas 实现 图像标注四方面详细描述了系统关键技术的实现流程;最后进行了系统的功能展 示。
第5 章 系统测试与验证 系统测试作为系统分析、系统设计和系统实现后的步骤,系统测试旨在发现系 统存在的问题和漏洞并修复系统存在的潜在问题,保证系统各功能模块的正常运 行。
5.1系统测试环境 面向深度学习的医学影像快速标注系统的服务器端和客户端的测试环境如表
15 和表 16 所示:
表 15 服务器端测试环境
Tab15 Server test environment
类型 硬件配置 软件环境 网络
64G 以上内存
80G 以上硬盘 Windows Server 2012 R2
服务器 双核 2.5GHz Datacenter 100Mbps
10-1000M 网卡
 
表 16 PC 客户端测试环境
Tab16 PC client test environment
类型 名称 配置
CPU Intel Core i5
内存 8GB
客户端 硬盘 500G
操作系统 Windows 7 64 bit
浏览器 Chrome
 
5.2系统功能测试 功能测试[56]是对系统的各项功能模块进行验证,根据测试用例逐项测试,检查 系统的实际功能是否与预期结果相同,进而完善系统的开发。表 17、表18、表19、 表 21 是对部分功能模块的测试用例。
 
表 17 测试用例 1
Tab17 Test case 1
测试对象 面向深度学习的医学影像快速标注系统
测试项目 用户登录
用例名称 用例001
测试策略 1.填写正确的账号密码,点击“登录”按钮;
2.填写错误的账号密码,点击“登录”按钮;
3.当账号或密码有一个输入框为空,点击“登录”按钮;
4.当账号和密码两个输入框都为空,点击“登录”按钮。
期望结果 1.输入正确的账号密码进入首页;
2.当“账号输入框”“密码输入框”中的内容填写错误时,点击
“登录”按钮,会有toast:账号或密码错误,请重新输入;
3.当某个输入框内容为空时会有相应提示:XXX为空,且相应的输 入框变红;例如:当用户名输入框为空,此时点击“登录”按钮, 会有toast:用户名为空;且用户名输入框变红。
4.当有多个输入框内容为空时,会优先依次最上面的内容为空;例 如:当用户名、密码都为空时,点击''登录”按钮会有toast:用 户名为空;且用户名输入框变红。
测试结果 该功能正常,基本符合期望结果
 
 
表 18 测试用例 2
Tab18 Test case 2
测试对象 面向深度学习的医学影像快速标注系统
测试项目 影像标注-尚未标注
用例名称 用例002
测试策略 1.分别以初标专家和审核专家的账号进入“尚未标注”列表;
2.对标注状态栏为“正在标注”的,点击“标注”按钮;
3.对标注状态栏为“尚未标注”的,点击“标注”按钮。
期望结果 1.该页面标注医生和审核专家均可看到,且都可以进行标注;列表 表头为序号、患者编号、性别、年龄、模式、检查部位、标注状 态;
2.正在标注状态的数据,点击 “标注”按钮,置灰且不可点击;
3.尚未标注状态的数据,点击“标注”按钮,跳转到“标注页 面”;当有人正在标注该病例时,会变为“正在标注”状态,正在 标注状态文字为标红。当操作人在标注页面未标注而退回到该页面 时,无论是通过“关闭页面”还是“取消标注”退出标注页面的, 该状态都会变为尚未标注。
测试结果 该功能正常,基本符合期望结果
 
表 19 测试用例 3
Tab19 Test case 3
测试对象 面向深度学习的医学影像快速标注系统
测试项目 影像标注-尚未审核
用例名称 用例003
测试策略 1.分别以初标专家和审核专家的账号进入“尚未审核”列表;
2.审核专家对标注状态栏为“正在审核”的,点击“审核”按钮;
3.审核专家对标注状态栏为“尚未审核”的,点击“审核”按钮;
4.初标专家点击"查看”按钮。
 
 
表 19 测试用例 3 (续)
Tab19 Test case 3(续)
期望结果 1.该页面,初标专家和审核专家均可看到;初标医生在该页面看到 的操作按钮为'查看”,只能进行查看不可审核;审核医生在该页 面看到的操作按钮为'审核”,能够进行审核标注;列表表头为序 号、患者编号、性别、年龄、模式、检查部位、标注状态;
2.正在审核状态的数据,点击'审核”按钮,置灰且不可点击;
3.尚未标注状态的数据,点击'审核”,跳转到'标注页面”;当有 人正在审核该标注病例时,会变为'正在审核”状态,正在审核状 态文字为标红。当操作人在标注页面未标注而退回到该页面时,无 论是通过'关闭页面”还是'取消审核”退出标注页面的,该状态 都会变为尚未审核;
4.初标专家点击'查看”进入到标注页面,只能进行查看,不可进
行标注;
测试结果 该功能正常,基本符合期望结果
 
表 20 测试用例 4
Tab20 Test case 4
测试对象 面向深度学习的医学影像快速标注系统
测试项目 影像标注-已经标注
用例名称 用例004
测试策略 1. 分别以初标专家和审核专家的账号进入'尚未审核”列表;
2•点击操作栏的"查看”按钮;
期望结果 1.该页面,初标专家和审核专家均可看到;列表表头为序号、患者 编号、性别、年龄、模式、检查部位、初标时间、审核时间;
2•点击"查看”进入到标注页面,只能进行查看,不可进行标注;
测试结果 该功能正常,基本符合期望结果
5.3系统性能测试 性能测试是对系统的各项性能指标进行测试,通常是利用一些自动化的测试工 具模拟系统可能出现的正常值、峰值以及一些负载条件进行测试[57]。
本系统性能测试采用的测试工具为 LoadRunner [58],通过模拟 20 名用户并发 操作,如图29、图30、图31分别对尚未标注、尚未审核、已经标注模块进行压力 测试。
 
 
图 29 尚未标注模块的压力测试
Fig29 Pressure test of unannotation modules
登录最小响应时间:1.384s,最大响应时间:& 603s,平均响应时间
6.197s,尚未标注最小响应时间:0.180s,最大响应时间:3.623s,平均响应时 间1.028s,在压测过程中平均负荷会随着压力增加而增加,内存释放也合理,没 有出现宕机的情况,服务进程正常;
 
 
图 30 尚未审核模块的压力测试
 
Fig30 Pressure test of unexamined modules
尚未审核最小响应时间:0.215s,最大响应时间:13.130s,平均响应时间1.327s,
在并发 5 分钟左右的时候出现吞吐量急剧减小,响应时间增的情况,可能是因为
服务不稳定导致的。
 
图 31 已经标注模块的压力测试
 
Fig31 Pressure test of annotated modules
已经标注最小响应时间:0.180s,最大响应时间:6.115s,平均响应时间1.085s,
已经标注页面数据相对比较稳定。
5.4与传统手工标注方法对比实验
为了对比基于的影像快速标注系统的标注方法与传统手工标注方法的应用效 果,设计了以下对比实验:
选择两名来自安徽中医药大学影像中心具有高级职称的医学影像诊断专家分 为传统手工标注组和影像快速标注组,选择10份具有单病灶的胸部X线图像供两 组标注,传统手工标注组采用 LabelMe 软件在没有影像报告的基础上进行病灶标 注,影像快速标注组在面向深度学习的医学影像快速标注系统上进行病灶标注,两 组专家在相同测试环境的计算机上进行标注,分别计算标注每例图像的标注时间, 标注时间包括导入图像、标注数据、保存标注数据的整个过程。两组标注时间的数 据如表 21 所示:
表21 两组方法的标注时间(秒)
Tab22 Time of two annotation methods (seconds)
1 2 3 4 5 6 7 8 9 10
传统手工标注组 234 288 171 244 267 271 268 160 264 238
影像快速标注组 202 189 142 146 195 253 257 131 200 153
为了对比两组数据的差异关系,由于是两配对样本,拟采取配对样本T检验的 方法,但配对样本T检验需要两组数据均符合正态分布性,利用SPSS对两组数据 分别进行正态性检验,正态性检验如图32所示。
正态性:检验
枷;J;莫戈洛尺斯米诺如 夏皮洛一咸示£
统计 自由度 显苦件 统计 自由度 显菁性
传统手匚标注组 .240 10 .108 .S40 10 .044
影偉快速标注俎 .177 10 .200" .908 10 .267
这'A区显拥件的下馄
a里利氏显著性燐正
 
图 32 正态性检验结果
Fig32 Normality test results
由图可知,传统手工标注组的 Shapiro-Wilk (SW) 检验的显著性为 0.044小 于0.05,不符合正态分布性;影像快速标注组的SW检验的显著性为0.267大于 0.05,符合正态分布性。故不可采用配对样本T检验,所以采取非参数检验中的配 对样本比较的 Wilcoxon 符号秩和检验。
首先提出假设,H0:传统手工标注组和影像快速标注组的标注时间不存在显著 的统计学差异;乩:传统手工标注组和影像快速标注组的标注时间存在显著的统计 学差异;选择显著性水平p=0.05。再次利用SPSS进行Wilcoxon符号秩和检验, 检验结果如图33所示:
威尔科克淼符号秩检验
个案数 秩平助値 秩的总和
影像快速标注组■传统手 负秩 10a 5.50 55.00
工标注组
正秩 ob .00 .00
绑定值 oc
总计 10
a.^f®快速标就沮 < 传统F —标汽组
b.Wft速标注姐〉传统F —标汽组
c.寥像快速掃注组=传铳手工标注组
 
检验统计°
影像快速标注 组-传统fE 标注组
Z -2.805b
渐近显芸性(双! 3 .005
玄威尔科克森符号帙检骚
b. g F正帙"
 
图 33 Wilcoxon 符号秩和检验结果
Fig33 Wilcoxon signed rank test results
计算得出p=0.005明显小于显著性水平的0.05,故拒绝H。,接受乩,说明传统 手工标注组和影像快速标注组的标注时间存在显著的统计学差异;由于采用了非 参数检验,所以对比两组数据的中位数,传统手工标注组中位数为 254,影像快速 标注组中位数为192,可说明影像快速标注组的标注时间是优于传统手工标注组的。
5.5本章小结
本章节介绍了系统的测试与验证,介绍了系统服务器端和客户端的测试环境,
然后对部分功能模块进行功能测试并展示了测试用例;通过LoadRunner测试工具 对系统进行压力性能测试;最后设计实验利用统计学知识验证了基于影像快速标 注系统的标注时间优于传统手工标注方式。
第6 章 总结与展望
6.1总结
本文提出了面向深度学习的医学影像快速标注系统,旨在通过系统的快速高 效影像标注方式,为医学影像领域的深度学习提高海量、高质量的标注数据。系 统在Eclipse开发平台下,采用Spring MVC框架利用Java语言进行编程实现,论 文通过系统分析、系统设计、系统实现和系统测试整个过程实现了系统的研究与 开发。以下为研究工作总结:
(1) 针对胸部X线影像检查,构建了胸部X线知识图谱,通过将影像报告文本 经过自然语言处理技术与知识图谱进行匹配可自动生成结构化文本的JSON格式文 字标注,通过将文字标注可视化,标注专家可以清晰快速地了解影像信息和病灶 情况,然后在已经脱敏的医学影像图像上进行手动的图像标注;
(2) 通过设计实验对比基于影像快速标注系统的标注方式和采用传统手动标 注的方式在标注时间上是否在存在差异,利用统计学知识验证了两种方式标注方 式在标注时间上存在差异,且基于影像快速标注系统的标注时间优于传统手工标 注方式。
面向深度学习的医学影像快速标注系统通过在传统手工“图像标注”的基础 上增加了自动化生成的“文字标注”形成了一种半自动化的标注方式,在一定程 度可以提高标注专家对于影像数据的标注效率,为医学影像深度学习提供快速和 高质量的标注数据,进而推动人工智能在医学影像领域的研究。
6.2展望
本文虽然在影像快速标注系统方面进行了一定研究,但仍存在很多问题。医学 影像学是一个内容非常丰富的学科,医学影像检查又可以根据检查设备、检查部位 和检查方式不同包含各种检查类型,而本文的研究工作只针对胸部 X 线检查构建 了胸部 X 知识图谱,对影像数据的标注也只应用在胸部正位片上,这些对于深度 学习的标注研究还是远远不够的,以下为本研究未来的工作内容:
( 1 )丰富完善胸部 X 线知识图谱:本文构建的胸部 X 线知识图谱内容还不够 完备,特别是随着医学知识的不断更新完善,知识图谱也需进行完善丰富;可以通 过拓展知识来源,如从临床数据、已有的公开医学知识库中获取,增加知识内容。
(2) 构建其他类型影像诊断知识图谱:目前已构建的胸部 X 先知识图谱在医 学影像快速标注系统中只适用于标注胸部正位片的部分病灶,而对于其他检查部 位和检查模式的影像数据标注,还需构建不同的知识图谱,不过对于其他知识图谱 的构建,本文的方法依然可以适用。在未来为了满足其他类型标注数据在深度学习 中的应用,将根据需求构建相应的医学影像诊断知识图谱。
(3) 拓展系统功能模块:目前实现的系统功能只能满足简单的影像数据标注, 在数据的导入导出功能上并未很好实现,后续将会根据需求添加影像数据的批量 导入功能、标注数据的批量导出等功能模块,除此之外还将增加用户个人中心、权 限管理和标注统计等功能模块,在未来的优化工作中将拓展功能模块实现一个完 备的影像快速标注系统。
参考文献
[1]国务院关于印发新一代人工智能发展规划的通知[J].中华人民共和国国 务院公报, 2017(22):7-21.
[2]解读2018年政府工作报告[J].大社会,2018(03):13-15.
[3]张程.解读2019年政府工作报告[J].检察风云,2019(07):32-33.
[4]萧毅,夏晨,张荣国,等.人工智能技术在医学影像中的应用讨论[J]. 第二军医大学学报, 2018,39(08):813-818.
[5]夏黎明,沈坚,张荣国,等.深度学习技术在医学影像领域的应用[J]. 协和医学杂志, 2018,9(01):10-14.
[6]Bengio, Yoshua, Courville, et al. Representation Learning: A Review and New Perspectives[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,35(8):1798-1828.
[7]Quantitative radiomics: impact of stochastic effects on textural feature analysis implies the need for standards[J]. Journal of Medical Imaging,2(4):41002.
[8]梁长虹,刘再毅.人工智能与医学影像再思考[J].中华医学信息导报, 2017.
[9]Artificial intelligence in cancer imaging: Clinical challenges and applications.[J].
[10]Hosny A, Parmar C, Quackenbush J, et al. Artificial intelligence in radiology[J]. Nature Reviews Cancer, 2018,18(8).
[11]Sunwoo L, Kim Y J, Choi S H, et al. Computer-aided detection of brain metastasis on 3D MR imaging: Observer performance study[J]. Plos One, 2017,12(6):e178265.
[12]Masood A, Sheng B, Li P, et al. Computer-Assisted Decision Support System in Pulmonary Cancer detection and stage classification on CT images[J]. Journal of Biomedical Informatics:S1519045806.
[13]Kooi T, Litjens G, van Ginneken B, et al. Large scale deep learning for computer aided detection of mammographic lesions[J]. Medical Image Analysis,35:303-312.
[14]He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition: 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016[C].
[15]Chilamkurthy S, Ghosh R, Tanamala S, et al. Development and Validation of Deep Learning Algorithms for Detection of Critical Findings in Head CT Scans[J].
[16]金征宇.前景与挑战:当医学影像遇见人工智能J].协和医学杂志, 2018,9(01):2-4.
[17]田娟秀, 刘国才, 谷珊珊, 等. 医学图像分析深度学习方法研究与挑战 [J]. 自动化学报, 2018,44(03):401-424.
[18]辛磊.医学人工智能发展现状及未来方向[J].山西医药杂志, 2019,48(17):2112-2115.
[19]Deng J, Dong W, Socher R, et al. ImageNet: a Large-Scale Hierarchical Image Database: 2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2009), 20-25 June 2009, Miami, Florida, USA, 2009[C].
[20]Clark K, Vendt B, Smith K, et al. The Cancer Imaging Archive (TCIA): Maintaining and Operating a Public Information Repository[J]. Journal of Digital Imaging,26(6):1045-1057.
[21]Wang X, Peng Y, Lu L, et al. ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases[J].
[22]Kohli M D, Summers R M, Geis J R. Medical Image Data and Datasets in the Era of Machine Learning—Whitepaper from the 2016 C-MIMI Meeting Dataset Session[J]. Journal of Digital Imaging.
[23]Malon, Christopher, Brachtel E, et al. Mitotic Figure Recognition: Agreement among Pathologists and Computerized Detector[J]. Analytical cellular pathology (Amsterdam), 2011,35(2):97-100.
[24]张巧丽,赵地,迟学斌.基于深度学习的医学影像诊断综述[J].计算机 科学, 2017,44(S2):1-7.
[25]Lin T. LabelImg[EB/OL]. [2019-05-26].
https://pypi.org/project/labelImg/.
[26]Russell B C, Torralba A, Murphy K P, et al. LabelMe: A Database and Web-Based Tool for Image Annotation[J]. International Journal of Computer Vision,77(1-3):157-173.
[27]冯浩哲,张鹏,徐欣楠,等.面向3D CT影像处理的无监督推荐标注算法 [J]. 计算机辅助设计与图形学学报, 2019,31(02):183-189.
[28]万艳丽,郭珉江,马豪,等.海量医学影像自动语义标注研究[J].中国 数字医学, 2015,10(05):83-85.
[29]袁凯琦,邓扬,陈道源,等.医学知识图谱构建技术与研究进展[J].计 算机应用研究, 2018,35(07):1929-1936.
[30]陈悅,刘则渊,陈劲,等.科学知识图谱的发展历程[J].科学学研究, 2008(03):449-460.
[31]贾李蓉,刘静,于彤,等.中医药知识图谱构建[J].医学信息学杂志, 2015,36(08):51-53.
[32]孙郑煜, 鄂海红, 宋美娜, 等. 基于大数据技术的医学知识图谱构建方 法[J].软件,2020,41(01):13-17.
[33]刘峤,李杨,段宏,等.知识图谱构建技术综述[J].计算机研究与发展, 2016,53(03):582-600.
[34]马创新.论知识表示[J].现代情报,2014,34(03):21-24.
[35]Grishman R. Information Extraction[J]. Intelligent Systems, IEEE, 2003,30(5).
[36]侯梦薇,卫荣,陆亮,等.知识图谱研究综述及其在医疗领域的应用[J]. 计算机研究与发展, 2018,55(12):2587-2599.
[37]李生. 自然语言处理的研究与 发展 [J]. 燕山 大学 学 报, 2013,37(05):377-384.
[38]马帅,王霄英.自然语言处理在医学影像中的应用[J].放射学实践, 2016,31(12):1120-1123.
[39]陈开昌.自然语言处理技术中的中文分词研究J].信息与电脑(理论版), 2016(19):61-63.
[40]王希杰.词位标注汉语分词中上下文有效范围定量分析J].计算机应用, 2012,32(05):1340-1342.
[41]华秀丽, 朱巧明, 李培峰. 语义分析与词频统计相结合的中文文本相似 度量方法研究J].计算机应用研究,2012,29(03):833-836.
[42]梁存升, 冯骥. DICOM 标 准 分 析 及 其 应 用 [J]. 中 国 医 学 装 备 , 2006(02):18-20.
[43]高升,葛云.DIC0M格式医学图像及其图像信息的显示J].中国医学物理 学杂志, 2010,27(03):1885-1888.
[44]梁炳进,郭文明,林国雄,等.基于WAD O的医学影像浏览系统研究与设 计 J].中国医疗设备,2015,30(07):85-88.
[45]罗峤伊.基于WADO的医学影像服务中间件研究[D].昆明理工大学,2015.
[46]纪永章,杨辉,薛淞,等.dcm4che在医疗大数据平台中的应用J].中国 数字医学, 2016,11(10):15-17.
[47]微 至 云 动 云 影 像 . Canvas 与 DICOM 图 像 处 理 [EB/OL].
http://www.weiyunyingxiang.com/artical8.htm.
[48]Zaytsev J, Kienzle S, Bogazzi A. fabric.js[EB/OL].
http://fabricjs.com/.
[49]RasterImages. oviyam[EB/OL]. http://oviyam.raster.in/.
[50]薛茹.基于SSM框架的Web系统研究与应用[J].计算机产品与流通, 2018(07):30.
[51]王鑫, 王电钢, 母继元, 等. 基于机器学习的数据脱敏系统研究与设计 [J]. 电力信息与通信技术, 2018,16(01):33-38.
[52]丁文龙,刘学政.系统解剖学[M].第9版.人民卫生出版社,2018.
[53]徐克,龚启勇,韩萍.医学影像学[M].第8版.人民卫生出版社,2018.
[54]徐大庆,李淼,袁媛.基于XML的面向对象知识表示模式设计J].计算 机系统应用, 2008(03):64-68.
[55]张淇刚. zTree[EB/OL]. [2017-02-06].
http://www.treejs.cn/v3/main.php#_zTreeInfo.
[56]刘春玲,雷海红.黑盒测试用例设计方法研究[J].现代电子技术, 2012,35(20):46-48.
[57]李霄,王常洲,田雅.计算机应用系统性能测试技术及应用研究J].软 件, 2013,34(04):69-73.
[58]杨萍,李杰.利用LoadRunner实现Web负载测试的自动化J].计算机技 术与发展, 2007(01):242-244.
综述 人工智能在医学影像中的研究概述 摘要:阐述医学影像人工智能概念,介绍医学影像人工智能主要应用于病灶筛查、 辅助治疗、影像组学方面,分析影像医学人工智能面临的机遇与挑战,并展望医学 影像人工智能的发展。
关键词:人工智能;医学影像;放射学
Abstract: This paper expounds the concept of medical image artificial intelligence, introduces the main application of medical image artificial intelligence in focus screening, adjuvant treatment and image histology, analyzes the opportunities and challenges faced by medical image artificial intelligence, and looks forward to the development of medical image artificial intelligence.
Keyword: Artificial Intelligence; Medical Imaging; Radiology
1.AI医学影像概念
人工智能(Artificial Intelligence, AI)作为一门涵盖多学科的新兴交叉 科学,主要研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用 系统。AI这一概念从上世纪50年代就提出,相对于以往的AI技术,最新的AI理 念以深度学习为核心,使计算机具备强大的学习功能,通过大量的数据学习训练, 可使计算机能进行模拟视听和思考的能力。 AI 医学影像主要利用深度学习算法对 医学影像进行分类、分割、检索等操作,从而可以实现辅助诊断和辅助治疗的功能。
2.AI医学影像主要应用场景
2.1病灶筛查
AI 目前在医学影像中应用最广泛且成熟的场景体现在病灶筛查方面,特别是 对肿瘤的筛查, AI 医学影像技术已经发展十分成熟。在肺结节、乳腺癌和前列腺 癌等肿瘤筛查方面,特别是对于早期病灶的筛查准确率已经可以达到90%以上,并 且对于人工阅片具有更低的误诊率和漏诊率,对于疾病的初筛工作, AI 已经解决 目前医院影像科医生不足、人工阅片耗时长、效率低的问题[1]。
2.2辅助治疗
AI 辅助治疗主要应用于靶区的自动勾画和自适应放疗,传统的放疗模式需要 放疗科医生对几百张的CT图像进行靶区逐层勾画设计治疗方案,这往往占据了大 量的时间②。目前腾讯医疗AI实验室同美国加州大学研发已出用于头颈CT靶区勾 画的AI辅助治疗产品。
2.3影像组学
影像组学主要利用大数据挖掘分析人眼无法发现的影像特征及其相关临床数 据,用于预测疾病的愈后以及治疗的效果[3]。影像组学包括以下五个步骤:(1)图 像获取(2)图像分割(3)特征提取(4)量化分析(5)模型构建。影像组学不同 于传统的 CAD 的定性诊断,还包括对于疾病的治疗方法选择和预后评估,目前多 用于肿瘤的相关研究上。
3. AI医学影像发展的机遇
3.1基层医疗的需求
目前国内基层医疗卫生机构基本都配备了影像设备,但缺乏具备出具报告资质 的影像科阅片专家,解决措施有二:一是通过分级诊疗模式下的影像远程诊断向上 级医疗机构发起诊断申请;二是通过AI医学影像自动生成报告。目前基层影像阅 片医师缺乏的问题短期内难以解决, AI 医学影像可以作为其中的一种备选方案进 行补位。
3.2AI技术日趋成熟
过去限制 AI 发展的一个关键的因素是计算机的运算性能无法满足 AI 计算的 需求,随着软硬件的升级,算法和算力也日趋成熟。医学影像数据以图像为主,因 此基于深度学习的图像识别技术能够得到很好地发挥作用。在数据量和计算量的 驱动下,卷积神经网络和深度神经网络等深度学习算法在图像识别上遥遥领先于 传统的图像识别方法。
3.3国家政策的支持
2017 年 7 月由国务院印发的《新一代人工智能发展规划》要求以人工智能 (Artificial Intelligence, AI)创新应用于教育、医疗、养老等领域保障和改 善民生,标志着人工智能正式上升为国家战略[4]。 2018年3月李克强总理2018年 政府工作报告中要求加强人工智能研发应用,在医疗、教育等多民生领域推进“互 联网+”发展。 2019年3月政府工作报告中第三次重点提及深化人工智能研发并提 出了 “智能+”这一概念。国家的政策导向,将会持续推动AI医学影像的发展,AI 医学影像产业化将会成为 AI 医学影像发展的必然趋势。
4.AI医学影像面临的挑战
4.1存在伦理、法规问题
AI 影像诊断结果若在诊疗过程中出现系统故障或产生医疗纠纷问题,由谁负 责这一问题在社会上引发了深切思考。 AI 影像诊断在辅助诊断和治疗中承担了部 分医师的工作,使得发生医患纠纷间的责任划分不明确, AI 自身不具有承担责任 的能力[5]。类似的还有 AI 相关的医疗信息安全问题,都需要国家出台相应法规、 行业协会制定相关标准和规范。
4.2临床应用效果差
基于国内外开放的影像标注数据集,不少高校团队和医学影像人工智能公司已 经研发出不少AI产品。但数据集上的数据通常难以反映和还原真实复杂的临床环 境,在临床的实际应用通常难以保持在测试集中的高准确率。而且鉴于医学影像的 复杂性,影像学中“同病异影”和“异病同影”的情况如果不结合患者病史、症状 和体征,单从AI医学影像的图像分析具有局限性[6]。
4.3缺乏高质量标注数据
目前国内外开放的影像标注数据集通常局限于某类单病种,而对于其他特定疾 病的 AI 辅助诊断和治疗不具有普适性。随着医疗水平和存储技术的提升,国内外 的医疗数据增长速度迅猛,但AI医学影像不缺影像数据,缺乏的是高质量的标注 数据[7],只有经过标注后的影像数据才能用于深度学习的训练和测试操作,但鉴于 医学影像标注工作的专业性和复杂性,使得AI医学影像的横向发展缓慢。
5.展望
虽然 AI 医学影像目前仍处于弱人工智能阶段,但随着国家政策的支持,资金 的投入和技术的升级进步, AI 医学影像发展为强人工智能阶段还是值得期待的。 参考文献
[1]李顶,汪艳芳,李永欣,等.人工智能在医学影像诊断中的应用研究J].中 国临床解剖学杂志, 2020,38(01):110-113.
[2]沈天乐,杜向慧.人工智能在恶性肿瘤放疗领域中的应用与前景J].浙江医 学, 2018,40(08):783-785.
[3]Lambin P, Rios-Velazquez E, Leijenaar R, et al. Radiomics: Extracting more information from medical images using advanced feature analysis[J]. European Journal of Cancer, 2012,48(4):441-446.
[4]国务院关于印发新一代人工智能发展规划的通知J].中华人民共和国国务院 公报, 2017(22):7-21.
[5]周吉银,刘丹,曾圣雅.人工智能在医疗领域中应用的挑战与对策J].中国 医学伦理学, 2019,32(03):281-286.
[6]季冰,刘伶俐.人工智能在医学影像领域的应用与挑战J].中国医学伦理学, 2019,32(08):981-985.
[7]辛磊. 医 学 人 工 智 能 发 展 现 状 及 未 来 方 向 [J]. 山西医药杂志,
2019,48(17):2112-2115.
【本文地址:https://www.xueshulunwenwang.com//yixuelei/yixueyingxiang/7400.html

上一篇:基于机器学习的小目标检测算法研究 及其在医学影像中的应用

下一篇:基于深度学习的智能医学影像辅助诊断系 统的研究

相关标签: