1. 网站地图
  2. 设为首页
  3. 关于我们


基于循环神经网络的中医问答 模型研究

发布时间:2022-08-10 16:39
1.1 研究背景与意义
随着互联网时代的到来,信息量呈爆发式指数增长,给用户搜索最想要的信息造成巨大障碍。通过搜索引擎查询信息得到的是相关网页,需要进一步从中查找答案,对于某些特定领域,答案的可靠性和权威性也有待考察,因此能够给出精准答案的基于知识图谱的问答系统(Knowledge Graph Question Answering, KGQA)日益受到关注[1][2]。KGQA 即给定自然语言问题,通过问题理解和解析,然后对知识图谱中的知识进行查询或推理获得答案。用户可直接通过自然语言问句进行查询,问句输入到问答系统后,通过语义解析从而构造出问句对应的查询语句,最后从知识图谱中查询用户感兴趣的数据并返回答案。KGQA 需要知识图谱作为数据支撑,为用户的问题提供答案。中医药(Traditional Chinese medicine, TCM)已有数千年的历史,记录了中国人民与疾病抗争的宝贵知识和经验,在医疗诊治中发挥着举足轻重的作用[3]。在长期的传承与发展过程中,中医学形成了一套独特的疾病诊断和治疗体系,为中华民族医疗体系构建发展作出了巨大贡献[4]。近现代以来,西方国家提出的现代医学体系在中国占据主导地位,使得传统中医学的发展面临重重困难[5]。近年来,随着国家大力支持传统中医药的发展和传承,大量通过中医药治疗疾病的案例得到普及,中日益受到世界各国的认可。根据世界卫生组织发布的全球医学纲要[6],中医诊疗正变得越来越流行,中医文化已流传到多个国家[7]。然而,中医药领域知识尚未形成统一结构,大量的中医领域知识存在于中医医案文本中,这给中医知识和中医文化的传播带来许多障碍,亟需对宝贵的中医药知识进行收集和整合,以便更多的人能够了解和传播中医文化。知识图谱作为一种新颖的知识表示和存储方式,自从提出以来获得飞速发展。知识图谱通过带关系的有向图结构保存客观世界的知识,每个三元组作为其基本单元,用来描述一个客观事件,这种数据结构非常便于信息的维护和查询。知识图谱给中医药领域知识的整合和统一提供了新的思路,通过知识图谱可以直观地展示中医诊疗经验,而基于构建好的中医知识图谱,可以进一步构建问答系统,让中医药研究人员和普通用户能够通过自然语句的方式对专业的中医知识进行精确检索。论文首先整合多种数据源的知识构建中医领域知识图谱,然后设计并实现基于中医知识图谱的问答系统,以便用户能够通过自然语句的方式对中医知识进行1
电子科技大学硕士学位论文查询。论文拟从中医知识传播出发,提出基于中医知识图谱的问答系统的模型与方法,并构建中医问答系统平台。论文工作受四川省重点研发项目(智能场景化川派中医名家诊疗与经验传承系统的研发,2020YFS0372)资助。


1.2 国内外研究现状
由于论文的研究工作聚焦于中医药领域知识图谱的知识问答模型研究,因此以下从中医知识图谱、基于知识图谱的问答系统和中医知识问答相关平台等方面介绍国内外研究进展。
1.2.1 中医知识图谱
知识图谱是知识库事实的结构化表示,由实体及其之间的关系构成。从数据结构方面考虑,知识图谱可被视为一种有向图的数据结构,其中节点用以表达语义符号,边用来描述节点间的语义关系。知识图谱中,三元组是表示和描述知识的基本单元,一个三元组由头实体、尾实体及实体间的关系组成,可存储客观世界的事实。因此,知识图谱被认为是一种用图模型进行知识表示和建模客观事物间关联关系的技术方法[8],通过图结构描述知识库中三元组。一个简单的示例如图 1-1 所示。<小儿便秘病,疾病包含,脾胃虚弱证>小儿便秘病 升清降浊<小儿便秘病,疾病包含,肠道气滞证>益气润肠 疾病包含脾胃虚弱证,治疗方法,健脾和胃> 疾病包含治疗方法<脾胃虚弱证,治疗方法,益气润肠>治疗方法肠道气滞证 脾胃虚弱证 <脾胃虚弱证,治疗方法,升清降浊>治疗方法 <健脾和胃,治法用方,香砂六君子汤>健脾和胃治法用方 香砂六君子汤 <香砂六君子汤,方剂组成,党参><香砂君子汤,方剂组成,白术><香砂六君子汤,方剂组成,茯苓>香砂六君子汤,方剂组成,半夏><香砂六君子汤,方剂组成,炙甘草> 方剂组成方剂组成 方剂组成方剂组成麻黄 桂枝甘草杏仁
图 1-1 知识库和知识图谱的示例
事实上,通过图形化来描述知识并不是一个新技术,其最早可以追溯到 1956年 Richens 提出的 Semantic Net 的概念[9]。1989 年,Tim Berners-Lee 提出构建一个以链接为中心的信息系统,所有人都能将自己的文档加入其中,该系统逐渐发展成为 World Wide Web[10],在此基础上,Tim Berners-Lee 在 1994 年又提出了语义网的概念,即系统链接的不仅仅是文档,而是客观世界的实体,如人名、地点、机构等,
2
第一章 绪论而链接之间也被增加了语义关系的描述,具体标明实体间的关系,如出生地、出生时间等。在语义网的概念被提出之后,许多开放的通用知识库被发布,如 WordNet[11]、CYC[12]、DBpedia[13]、YAGO[14]、Freebase[15]、NELL[16]、Wikidata[17]、ConceptNet[18]和 ProBase[19]。近年来,随着知识图谱在多个领域得到应用,国内研究人员也特别注重知识图谱的发展研究,许多大规模的中文知识图谱纷纷出现,国内已经公布的知识图谱主要有 ZhiShi.Me[20]、CN-DBPedia[21] 以及 XLore[22]。表 1-1 描述了上述列举的知识库的详细信息。按照知识的覆盖范围,知识图谱可分为通用型和领域型[24]。通用型知识图谱强调实体的多样性,但其准确度难以保证,很难确定和规范知识库中的实体和关系,表 1-1 提到的都是通用型,通用型知识图谱不针对某一特定领域,而是吸纳了全方面的知识。领域型知识图谱则往往面向某一特定的行业领域,常常用于应用分析或决策,构建领域型知识图谱通常需要依靠特定行业的数据,对知识质量要求较高。本文所探讨的中医知识图谱就属于领域知识图谱。表 1-1 部分知识图谱详细情况描述[23]名称 实体数量 关系数量 数据源
 
在构建知识图谱前,需要利用本体模型对知识图谱中的实体和关系进行抽象,本体指的是对某个实体概念体系规范且精确的描述,本体模型就是按照客观世界的概念及其之间的关系所概括出的模型。在计算机领域,通过本体模型可以定义数据属性、描述、定义及其之间的结构化关系,因此常用于对特定领域知识进行结构化建模。本体模式用于描述大范围内或某一领域内的概念及其联系,使这些概念和联系在共享范围内有一个清晰、唯一的定义,且其冗余度小,结构层次性强,作为一种知识表示方法,本体表达了概念之间的语义结构关系,这是本体模型与其他知
3
电子科技大学硕士学位论文
识表示方法的主要区别。在对知识图谱的知识建模过程中引入本体,能够通过抽象的概念对知识进行描述,并且能够清晰地显示知识图谱结点的结构以及相互关系。本体模式的质量决定了构建的知识图谱的结构是否清晰,逻辑是否合理。因此,本体的构建是知识图谱构建的重要环节。本体模型包括本体层与实体层,本体层用以定义知识图谱的实体和关系类型,实体层则是具体的实体对象。目前,在中医领域已经有一些关于知识图谱构建的进展,由于中医领域知识的缺乏,在构建时往往需要应用多种数据源来丰富构建的知识图谱,如结构化数据、半结构化数据和非结构数据。对于结构化数据,当定义好本体模式后,直接转换为对应的三元组数据即可;对于非结构化数据,需要进行知识清洗,挑选出本体层需要的数据,然后进一步转化成三元组;而对于非结构化数据,需要通过知识抽取技术来提取三元组,如实体识别技术、关系抽取技术等。在构建方式上,对于一些小型的知识图谱,可以采取人工抽取知识的方式,如赵燕华等人[25]对中医类流感理论采取人工抽取的方法,构建了包含 812 个实体和 4759 个关系的知识图谱。刘凡等人[26]以姚乃礼医师临床经验为研究对象,对非结构化文本数据进行人工知识抽取,形成了 524 个节点和1097 条关系。Chen 等人[27]根据官方报告中的 41 张处方,构建 Covid-19 中药方剂知识图谱,挖掘处方用药规律。Yang 等人[28]提出了一种基于时间变化的中医知识图谱表示方法,用于表示随时间动态变化的临床知识。Xiao 等人[29]以中医学的基本理论为基础,构建中医药知识图谱,用以挖掘处方的配伍性和中药的药性、味、归经性。人工手动抽取知识形成的知识图谱结构精炼,适合分析单个名老中医的学术思想,但其规模往往较小,无法有效整合中医领域的知识。规模较大的知识图谱往往需要整合多个数据源,通过知识抽取技术自动抽取知识。如郭文龙[30]构建了一个中医方剂知识图谱,其基于本体先预定义好本体及其关系,并通过爬虫技术获取相关数据源,再将实体填充到知识库以构建中医方剂知识图谱。郝伟学[31]同样先设计好本体及数据模式,并使用四个数据源抽取知识,数据源包括:病症分类数据、脾胃病临床病例数据、西医本体和百度百科数据。谢先章[32]利用昆明市中医院的入院记录电子病历作为数据源,通过实体识别和关系抽取技术抽取知识,经过实体融合后最终形成知识图谱。肖猛[33]运用中文百科网站数据获取知识,结合实体识别技术识别半结构化文本中实体。Weng 等人[34]提出一种基于本体模型和深度学习技术的知识图谱构建框架,并通过现有临床文本来自动化构建中医知识谱框架。Zheng 等人[35]构建了中医诊疗中的核心概念本体,通过半结构化的医案文本来进行知识抽取,最终构建了一个中医诊疗知识图谱。Yu 等人[36]通过整合现有的数据资源,基于本体的数据库集成构建了中医养生知识图谱。总之,相关研究充分利用了多种数据来充当知识来源。但这些知识图谱往往都
4
第一章 绪论
不开源,无法应用它们进行下游的应用,因此,本文在综合分析了现有文献的数据源和本体设计后,通过综合设计构建一个中医领域型的知识图谱。
1.2.2 基于知识图谱的问答系统
随着越来越多大规模知识图谱的出现,如何有效利用知识图谱中的知识成为人们追求的目标。对于图数据库,有一些特地开发的查询语言,如 Cypher,其与SQL 语句类似,是一种用于图数据库的声明性文本查询语言。对于普通用户而言,直接使用图数据库查询语句进行知识查询不是很友好,用户需要熟悉 Cypher 的语法规则才能使用,这会增加用户的学习成本。因此,有必要开发一个更加智能的系,用户可以直接输入自然语句查询知识。基于知识图谱的问答系统即对用户输入问句进行理解和解析,然后对知识图中的知识进行查询或推理出答案。用户可以避免使用正式的查询语言制定精确的查询,而是直接通过自然问句的形式进行查询,将问句输入系统后,需要进行语义解析,从而构造出问句对应的查询语句,最后从知识图谱中查询用户感兴趣的数据并返回答案。图 1-2 显示了 KGQA 的主要流程。自然语言问题 问题解析 知识查询 答案图 1-2 KGQA 的主要流程目前,KGQA 方法可分为三类:基于语义解析的方法、基于向量建模的方法和基于文本匹配的方法[1] [2]。基于语义解析的方法的建模思路是将问句转化为逻辑形式,得到能够表达问题语义的逻辑语句,最后构造查询语句,从知识图谱中查询答案。如 Jonathan 等人[37]于 2013 年发布的论文,其中通过解析器自底向上地构建出所有可能的语法树,最终选择概率最大的语法树的根节点作为问句的语义逻辑表述形式。近年来,随着深度学习的发展,将深度学习和语义解析方法结合取得了不错的效果。如 Scott 等[38]提出的 STAGG (Staged Query Graph Generation),STAGG 中将知识图谱的查询子图映射为逻辑形式,并利用深度卷积神经网络匹配问题和谓词序列,在一段时间取得了最好的结果。然而,基于语义解析的方法主要依赖人工构建规则将问句转换为逻辑表达式,虽然语义解析的方法取得了比较好的结果,但其需要手动标记和大量的特征工程建模,限制了模型的扩展性。最近,为了摆脱人为构建特征的限制,Liang 等人[39]提出神经符号机 NSM (Neural Symbolic Machine),NSM 将自然语言
 
电子科技大学硕士学位论文
问题转直接换为包含 Lisp(List Processing)表达式的逻辑程序,并通过强化学习训练,而不需要任何特征工程和领域知识,这给基于语义解析的方法带来了新的思路。基于向量建模的方法,即根据问题中的主题实体确定在知识图谱中的候选答案,进而计算问题和候选答案的相似度得分,目标是让问题和正确答案的得分尽可能高。在计算相似度方面,多数研究工作采用余弦相似度。现有模型多在问题表示和答案表示上进行改进,Dong 等人[40]在 2015 年提出了 MCCNNs(Multi-ColumnConvolutional Neural Networks)模型,其中利用多个 CNN(Convolutional NeuralNetworks)来提取问句特征,并在对答案进行编码时考虑了候选答案的多种特征,包括:答案路径、答案类型、答案上下文。Hao 等人[41]提出利用 Bi-LSTM(Bi-directional Long Short-Term Memory)来对问句进行特征编码,并引入了知识图谱嵌入向量表示候选答案,最后利用注意力机制整合了候选答案的各个方面的特征。
基于文本匹配的方法,该方法先识别出问句中的主题实体和问句的意图类别,然后构造三元组,最后根据三元组从知识图谱中查找到答案。Türe 等人[42]首先提出了这种思路,他们将问句解析拆分为两个问题:实体检测和问句意图分类,然后利用循环神经网络来解决这两个问题。Mo 等人[43]在 2017 年基于残差网络的思想提出了一种 HR-LSTM(Hierarchical Residual Long Short-Term Memory)模型,该模型利用一个双层的 LSTM(Long Short-Term Memory)网络提取问题特征,利用共享权值 LSTM 表示问句对应的关系。Lai 等人[44]提出利用 CNN 来表示问题,并利用格子机制考虑不同的词的特征。基于文本匹配的方法简单有效,将问答模型简化分为实体识别和意图分类两个模块,考虑到本文在构建知识图谱时,需要运用实体识别技术,因此,为了简化平台的开发流程,本文在搭建问答系统时采取了这种方法来搭建问答系统。
1.2.3 中医知识问答相关平台
经过数千年的发展,中医药已经发展成为一个独特的理论医学体系,在中国人民的医疗诊治中发挥着举足轻重的作用[3]。根据世界卫生组织最新的全球医学纲要[6],中医治疗越来越流行,中医治疗许多疾病的有效性,这引发了人们对于中医知识的关注。尽管用户可以通过互联网获取许多的中医知识,但往往这些知识过于零散,为了更加便捷地获取这些中医领域知识,往往需要将中医药知识进行整合,然后通过问答系统来准确、直接地获取到想要的知识。近年来,得益于知识图谱和问答系统的飞速发展,在中医方面,已经建立了许多中医知识问答平台。如 Liu 等人[45]提出的 T-Know,T-Know 系统中集成了知识查询和知识问答功能,知识查询即对其底层的中医药知识图谱进行查询,知识问答
6
第一章 绪论
则利用 Bi-LSTM+CRF(Conditional Random Fields, CRF)模型识别用户问句的实体、利用 CNN 模型分析问题意图,最终通过三元组在知识图谱里查询答案。在形式上,T-Know 为普通用户以交互方式提供中医药知识的单轮问答和多轮对话问答,这为用户使用该系统提供了便利。Miao 等人[46]将知识图谱与问答系统相结合,实现了一个中医智能问答系统,其根据领域实体表和字符匹配的方式识别出特定的实体,然后利用贝叶斯分类器得到问题的类型,最终转换为查询语句进行查询并获得答案。Zou 等人[47]以中医药网站上的《本草纲目》开源数据为数据源,构建了包含 9类实体和 7 种关系的知识图谱,并采用模式匹配算法对自然语言问题进行处理,实现了中医知识和辅助处方的自动问答功能。这些系统的发布对于促进公众中医知识的普及,为中医临床实践、科研和教学提供决策支持,具有重要的意义和参考价值。
1.3 本文的主要工作
本文主要的研究内容包括:中医药领域的知识图谱构建、基于中医知识图谱的问题生成、基于中医知识图谱的问答系统,并构建平台推广和传播中医领域知识。本文主要工作如下:1. 构建中医药领域知识图谱。通过分析现有多种数据源的数据,构建中医知识图谱的本体模型。对于结构化数据,直接通过映射转换为三元组数据;对于半结构化数据,通过对数据进行清洗后,按照本体模型进行转换;对于非结构化数据,针对现有实体识别模型未能充分利用句子特征的问题,提出融合字词信息的中医命名实体识别模型 NER-CW,并对提出的 NER-CW 模型在构建的中医医案实体识别数据集上进行实验分析,然后利用实体识别模型抽取医案中的实体并通过本体模型转换为三元组数据。最终融合多种数据得到一个完整的中医知识图谱。
2.基于中医知识图谱的问题生成。完成知识图谱构建后,为了对后续的问答系统提供有效的问答语料,论文对基于知识图谱的问题生成进行研究。针对输入三元组信息过少造成的数据稀疏性问题,提出一种基于编码器-解码器架构的知识图谱问题生成模型,其在编码器融合了三元组的描述信息,在解码器引入复制机制生成对应三元组的自然语言问句。最后,本文在 NLPCC-2018-KBQG、SimpleQuestion和 TCM-KBQG 数据集上对提出的模型进行实验分析。
3.基于中医知识图谱的问答系统。将 KGQA 的流程分解为两个子任务:实体识别和意图分类,对于实体识别任务,利用之前提出的融合字词信息的中医命名实体识别模型 NER-CW 来完成;对于意图分类任务,本文将其视作文本分类任务,针对问句较短造成的语义稀疏性问题,提出融合中医语料库特征与图注意力网络
电子科技大学硕士学位论文的意图分类模型 CF-GAT,其通过语料库特征对原始问句进行语义增强。最后,本文在短文本分类数据集 Biomedical、Dblp、MR、SST1、SST2、TREC 以及 TCM-QA 上进行仿真实验。
4.基于中医知识图谱的问答系统实现。在上述研究基础上,分析系统设计需求,实现用户权限管理、实体识别、中医知识图谱管理、中医知识图谱可视化、意图分类、智能问答等功能。系统能够对非结构化文本进行知识抽取,并将提取的知识可视化显示,也可以根据知识图谱回答用户输入的问句。
1.4 本文的结构安排
本文一共七章,全文组织安排如下:第一章为绪论,首先说明轮文的研究背景和选题意义,然后介绍中医知识图谱、基于知识图谱的问答系统和中医知识问答相关平台的研究现状,最后说明本文的主要工作以及结构安排。第二章介绍本文使用到的知识图谱和问答系统的相关技术和原理。第三章介绍本文构建中医知识图谱的方法,包括中医知识图谱本体模型构建、命名实体识别模型和中医知识图谱构建三部分。其中重点介绍为了从非结构文本数据中进行信息抽取的融合字词信息的中医命名实体识别方法 NER-CW。最后介绍如何将结构化、半结构化和非结构化的知识转换为知识图谱。第四章在构建好的中医知识图谱的基础上,将工作重点放在了基于中医知识图谱的问题生成上。基于编码器-解码器框架,提出基于三元组描述特征和复制机制的问题生成模型 QG-TC。通过在 NLPCC-2018-KBQG 和 SimpleQuestion 数据集上的对比实验,探究所提模型各个模块对于问题生成的影响,同时在构建的中医问答数据集 TCM-KBQG 上对模型的效果进行了探讨。第五章介绍基于中医知识图谱的问答系统,将问答系统的流程分解为两个子任务:实体识别和意图分类。在意图分类任务中,针对问句较短造成的语义稀疏性问题,提出融合中医语料库特征与注意力网络的意图分类模型 CF-GAT。最后,为了说明本文提出模型的有效性,本章实验部分还在公开的短文本分类数据集和中医问答数据集上进行了实验,并对结果进行了分析。第六章介绍如何设计和实现基于中医知识图谱的问答原型系统,具体描述实现该系统的各个流程,对系统的需求分析、设计、实现和测试进行详细阐述,并展示了相关功能界面。第七章是总结与展望,总结论文的研究工作并分析不足之处,同时对下一步的改进工作进行了合理的规划。
 
第二章 相关原理与技术
2.1 知识图谱相关技术
2.1.1 知识图谱定义
知识图谱的概念诞生于 2012 年,据 Google 公司发布的文档中描述,知识图谱是一种通过图模型来描述实体和关系的技术手段。但迄今为止,在学术界知识图谱这一术语似乎还没有一个准确定义[48]。Ehrlinger 等人分析了现有定义,提出知识图谱的定义为:知识图谱通过本体模式构建知识体系,并可以通过知识推理进行知识发现[49]。另外,Wang 等人[50]将知识图谱定义为一个多关系图,其中把实体视为节点,关系视为多关系图中不同类型的边。事实上,知识图谱可以视为语义网络的,这是一个在认知科学和人工智能文献中出现的观点[51]。语义网络是一种用图结构进行知识表示的方法,在一个语义网络中有两个要素:结点和边,结点表示实体,如各种事物、概念、信息等;边代表语义关系,表示两个客观实体间的语义关系。在语义网络的基础上,知识图谱得到进一步进行发展,通过本体层定义和限制了实体的确切范围及其关系,使知识图谱其成为一种通用形式的知识表示框架,能够准确地阐述客观事实。在数学表示上,知识图谱可被视为一种多边关系图,其中代表实体、边代表关系。每个三元组< ℎ푒푎푑, 푟푒푙푎푡푖표푛, 푡푎푖푙 >都描述了 KG 中存储的一个基本事实,其中ℎ푒푎푑、푟푒푙푎푡푖표푛和푡푎푖푙分别代表头实体、关系和尾实体。三元组是知识图谱中的基本单元,多个三元组相互连接起来形成了庞大的知识网络,即知识图谱。三元组给无结构数据提供了一种结构化的存储方式,使碎片化的知识链将成为一个整体,这种存储方案与大脑对知识的存储架构形式相似,对计算机处理客观世界的知识十分有利。通过知识图谱的图形化结构,能够以图形的形式将客观知识及其复杂关系有效呈现出来,便于对知识的分析和理解。例如给定一段医案中的非结构化文本“麻黄汤主治外感风寒表实证,主要治疗的症状是发热、头痛,其由麻黄、桂枝、杏仁、甘草组成,功效是发汗解表,宣肺平喘”,根据本文 3.1 节中的本体模型定义,句中包含剂、中药、症状、疾病、证型等多种类型的实体,可提取的实体包括:“麻黄汤”、“外感风寒表实证”、“发热”等,图 2-1 显示了对上述句子进行知识抽取后绘制的知识图谱子图。
高校学术论文网提供专业的硕士毕业论文写作、毕业论文辅导写作、博士论文写作发表、硕士论文写作发表、SCI论文写作发表、职称论文写作发表、英文论文润色的服务网站,多年来,凭借优秀的服务和声誉赢得了社会的广泛认可和好评,为毕业生解决写论文的烦恼
 
【本文地址:https://www.xueshulunwenwang.com//yixuelei/zhongyixue/2842.html

上一篇:中国传统发酵食品“鲊”的历史流变

下一篇:面向中医药知识图谱的 命名实体识别及关系抽取

相关标签: