中文题名: |
基于指针标注的生物医学实体识别和关系抽取研究与应用 |
姓名: | |
学号: | 1049721801631 |
保密级别: | 公开 |
论文语种: | chi |
学科代码: | 083500 |
学科名称: | 工学 - 软件工程 |
学生类型: | 硕士 |
学位: | 工学硕士 |
学校: | 武汉理工大学 |
院系: | |
专业: | |
研究方向: | 生物医学关系抽取 |
第一导师姓名: | |
第一导师院系: | |
完成日期: | 2021-03-30 |
答辩日期: | 2021-05-23 |
中文关键词: | |
中文摘要: |
近年来,生物医学领域研究取得飞速进展,大量携带研究成果的文献被发表。尽管有人力物力去手动整理这些文献中的信息,但仅仅依靠人力对信息进行更新远远跟不上文献发表的速度。与通用领域相比,生物医学文献的信息抽取存在大量的嵌套实体和重叠关系等问题。因此,如何准确的从大量生物医学文献中抽取出有价值的知识,是目前生物医学领域信息抽取的重大挑战。 为此,本文研究了生物医学领域的实体识别和关系抽取。对于实体识别,本文基于层叠指针标注的方法不仅能有效识别生物医学领域中的非嵌套实体,同时也能实现嵌套实体的识别。识别出实体之后,本文基于两次指针标注的方法进行实体关系的联合抽取。最后,结合实体识别和关系抽取,提出了基于文献挖掘的药物重定位框架。具体地,本文的主要研究内容包括以下几个方面: (1)针对生物医学领域嵌套实体的识别,构建了基于层叠指针标注的方法CPT (Cascade Pointer Tagging)。借助层叠指针标注,解决了基于序列标注方式不能识别嵌套实体的问题。此外,本文将实体的描述信息作为先验知识,在实体识别的过程中引入实体的类别信息,可以取得更好的结果。在与基线方法的对比中,无论是嵌套实体的识别还是非嵌套实体的识别,都取得了最高的F1值。 (2)针对生物医学领域文献中存在大量重叠关系的问题,构建了基于两次指针标注进行联合学习的关系抽取方法TPT (Two-time Pointer Tagging)。与基于流水线的方法相比,该方法没有错误传播、忽略子任务间的交互关系和产生冗余信息的缺点,同时还能解决生物医学领域中重叠关系的问题。本文将关系三元组的抽取转换为头部实体到尾部实体的函数映射,加强了三元组内部结构的依赖,在损失函数上添加偏执来缓解标签不平衡的问题。与基线方法进行对比时,在DDI和CPI两个公开的生物医学语料库上,本文的方法不仅提高了精准率,更能明显提升召回率,在两个语料库上都获得最高的F1值。 (3)提出了基于文献挖掘的药物重定位框架,从大量的生物医学文献中获取潜在的药物和疾病之间的关系。本文基于层叠指针标注(CPT)扩充了临床变量的实体列表;基于秩和检验获取了疾病和临床变量之间的关系;基于两次指针标注的关系抽取(TPT)得到了药物和临床变量之间的关系;然后基于逻辑回归模型预测潜在的药物和疾病之间的关系并对治疗某种疾病的候选药物进行排序。本文一共收集了986个临床变量,2,532个药物实体以及超过80万篇的文献摘要,最终为三种常见的疾病(哮喘、糖尿病、心脏衰竭)找出了超过500种的候选治疗药物,为基于文献挖掘进行药物重定位提供了借鉴意义。这不仅验证了本文实体识别和关系抽取方法的有效性,也让抽取出的信息有了实际应用的价值。 |
参考文献: |
[15] 孙晓, 孙重远, 任福继. 基于深层条件随机场的生物医学命名实体识别[J].模式识别与人工智能, 2016, 29(11):997-1008. [16] 王浩畅,李钰,赵铁军.面向生物医学命名实体识别的多Agent元学习框架[J].计算机学报,2010,33(07):1256-1262. [26] Silver B, Ramaiya K, Andrew S B, et al. EADSG guidelines: insulin therapy in diabetes[J]. Diabetes therapy, 2018, 9(2): 449-492. [33] 鄂海红,张文静,肖思琪,程瑞,胡莺夕,周筱松,牛佩晴.深度学习实体关系抽取研究综述[J].软件学报,2019,30(06):1793-1818. [41] Qin L, Dong G, Peng J. Chemical-protein Intera [42] 万佳. 基于词表示和深度学习的生物实体关系抽取[D].大连理工大学, 2018. |
中图分类号: | TP391.1 |
条码号: | 002000062029 |
馆藏号: | TD10050805 |
馆藏位置: | 403 |
备注: | 403-西院分馆博硕论文库;203-余家头分馆博硕论文库 |