文本挖掘应用于药物发现

该篇是第三版《Bioinformatics and Drug Discovery》的一章节,由NCBI的Zhiyong Lu博士等人撰写。Zhiyong Lu博士在NIH领导生物医学文本和图像处理、信息检索和人工智能方面的研究,在文献挖掘和PubMed检索优化方面有大量研究工作。该篇论述的方法已不是最新成果的运用,但仍可作为基础材料了解该领域的知识。

1. 概述

文本挖掘技术可以从大量散布的,未结构化的数据中提取重要信息,构建知识库,在新药研发中发挥作用。通常包括文档总结,信息检索,实体识别和关系提取。提取的信息通过知识图谱连接起来,可以促进发现新见解或假设。如可在生物医学文献中挖掘出更多的蛋白质-蛋白质,药物-药物,药物-靶点相互作用,以促进发现新药物或老药新用。这些都试图通过结合隐藏在科学文本中的已知元素来推断生物实体之间的新关系。但仍然存在一些挑战。比如文献中药物和化学物质名称,文本类型等总是多种多样;缺少高质量的标注数据。

2. 文本挖掘方法

2.1 信息检索

文本挖掘第一步是从大量数据中获取与特定主题相关的文本信息。这需要准确的查询条件。生成各种查询条件的方法包括使用受控词表中的关键词,布尔查询,自然语言,通配符,以及混合方法。生物医学中的查询由于术语的模糊性和多样性而更加复杂,常常使搜索结果既不完整也不准确。为了提高基于关键字的检索精度,理解用户查询的语义是必要的。Huang等人提出了SIP(语义相似模式查找器),以自动化形式从PubMed查询中提取生物医学语义关系。该框架旨在理解用户查询的语义,从而改进文献检索结果。另一种替代方案是问答系统,允许用户使用自然语言进行查询。

2.2 实体识别

主要提取药物,疾病,基因,突变等,之后可定义实体间的语义关系,便于进一步分析文章主题。常用方法包括字典查找,基于规则的方法,机器学习和混合方法。基于字典的方法简单而实用,但是受限于字典的大小和质量。常用字典资源有UMLS,CTD,DrugBank,PubChem,RxNorm等。基于规则的方法在字典缺失时也非常有效。最近的实体识别系统采用混合方法,将机器学习与主要用于预处理和后处理阶段的词典或规则衍生的词汇特征相结合。

2.3 关系提取

之前的研究主要集中在识别药物与其他实体(基因,疾病,突变等)的联系。传统方法主要是基于共现、模式识别和基于规则。这些模型都关注实体在文本数据中的出现和分布。目前基于共现和规则的方法常与机器学习技术相结合,可用于从生物医学文献中识别关系,例如与特定疾病相关的突变。为了识别药物-疾病关系,Xu等人使用SSVM方法对1500篇PubMed摘要中的句子级和文档级候选药物-疾病对进行分类。另一项研究中,Sohn等根据经验知识构建了基于规则的方法,提取句子作为训练数据,他们使用“副作用”关键词作为特征,训练了“副作用”句子分类器,检测文献中药物与副作用的关联。知识图谱构建是最后一步。知识图谱是以图形形式表示知识的结构化语义知识库。构建过程可以描述为一个链接预测问题,根据其输入的抽象程度分为三层。输入分别包括信息提取层、知识集成层和知识处理层。常用构建方法包括分析图提取、结合本体约束和关系模式以及发现知识图中的统计关系。

3. 文本挖掘与药物发现

3.1 数据准备

一般将开放获取的文本数据分为临床文本数据和生物医学文献数据。

3.1.1 临床文本数据

临床指南,临床记录,电子病历等数据都是宝贵资源。比如通过分析电子病历有可能建立新的患者分层,并揭示未知的药物相关性。

MIMIC-III Medical Information Mart for Intensive Care III是一个免费的患者信息数据库,数据来自一家大型三级护理医院ICU,包含诸如临床记录、生命体征、药物清单、实验室检测结果、治疗代码、诊断代码、成像报告、住院时间和生存数据等信息。NHS England NHS发布了一系列包含公开信息的数据库,从患者调查到公共卫生结果,这些信息通常来自政府或其他公共组织。PCORnet ,2013年National Patient-Centered Clinical Research Network 成立,旨在通过整合来自多个临床数据研究网络和患者驱动研究网络的数据。PCORnet定期收集在各种医疗保健环境中产生的数据,包括医院、门诊诊所和紧急护理中心。通过与各种利益相关者(患者、家庭、医疗服务人员和研究人员)的合作,PCORnet使个人和组织能够使用这些数据来回答实际问题,从而做出医疗保健决策。3.1.2 生物医学文献MEDLINE 包含超过2700万篇生物医学类文章,可公开获取。PMC 截止2017年6月,包含超过430万篇全文文章,并且仍在不断增长。DOAJ 截止2017年6月,包含来自126个国家的,超过250万篇全文文章。

3.2 方法

提取疾病和基因突变的关系可用于鉴定疾病的个体差异并开发靶向这些突变的药物。

3.2.1 提取疾病-突变

尽管有ClinVar,COSMIC,GWAS Catalog等变异数据库,但仍有大量数据散落于非结构化文本中。文本挖掘方法比如简单共现、模式匹配和机器学习,通常用于疾病-变异关系提取。PolySearch是一个基于搜索的文本挖掘工具,根据MEDLINE摘要中突变和疾病的共现频率,推断它们之间的关系。Mutation Extraction from Medline Abstracts (MEMA)基于句子共现,使用单词距离度量来选择正确的蛋白-突变配对。Doughty等人开发了Extractor of Mutations(EMU),是从PubMed摘要和全文中提取疾病相关突变的半自动方法。该工具基于规则,使用正则匹配查找给定文档中的突变,将它们与相关基因关联,最后与疾病关联。机器学习方法也越来越多。作者实验室开发的方法有较好性能表现,主要由以下几个步骤:

实体提取:GNormPlus,tmVar,DNorm分别用于提取PubMed摘要中基因,突变和疾病。特征构建:6个特征用于模型学习与目标疾病的靠进度得分:表示所有提及的累积得分,其中目标疾病最接近突变。目标疾病频率得分:文本中目标疾病的频次计数。其他疾病频率得分:非目标疾病外的出现最多的疾病的频次计数。同句疾病-突变共现评分(DMCS):根据突变与其最近的疾病是否在一个句子中共现,如果两者共现,DMCS为1,否则为0。文本内观点评分:提取突变和最靠近的疾病之间的文本,并标记为“文本内”。观点评分是基于“文本内”中包含的单词的极性,范围从-1(消极)到+1(积极)。测试主观性评分:对观点评分的可靠性进行评估,范围从0(高度客观)到1.0(高度主观)。训练分类模型:使用标注数据训练决策树分类模型。

另有MutD工具,在提取MEDLINE摘要中蛋白-突变-疾病关系时,融合了篇章水平的分析。首先使用BioTagger-GM,MutationFinder,PubTator和GeNo进行实体识别和标准化。然后使用图模型进行句子之间的处理,将跨句子的实体进行关联,也获得了性能提升。也有一些方法利用句法分析和语义模式进行匹配提取。

3.2.2 提取药物基因组关系

公共数据库可作为先验知识,用于信息提取。一个鉴定药物-基因关系的方法主要由以下步骤组成:

实体识别:使用PharmGKB提取了822个药物和2247个基因。关系鉴定:提取PharmGKB中人工维护的关系“Related”和“Unrelated”,生成了9317个药物-基因配对及其共同出现的MEDLINE摘要。特征提取:使用词汇特征,将药物-基因对标记为“相关”或“不相关”。使用Unigrams和bigrams,较大的unigrams可能适合于较大的数据集。排除步骤2PharmGKB中提取的药物-基因对,以使模型更加通用。对unigrams和 bigrams,使用的频率cutoff均为2。特征选择:只使用具有正信息增益的特征。SNPshot等方法都是基于先验知识构建的方法。结合共现,经验规则和机器学习的集成方法越来越多。比如先使用共现提取药物-基因配对,然后使用机器学习方法分类。3.2.3 挖掘药物靶点

传统模拟方法使用分类模型和基于规则模型预测药物-靶点关系。基于相似性的方法检查药物-药物和靶点-靶点对之间的关联,并使用这些关系对潜在关联进行加权。相似性存在于化学结构、基因组序列、基于配体的模型和药理学特征。网络分析也用于药物-靶点关系预测,已有较多研究。网络构建可使用Chem2Bio2RDF知识库,由17个化学基因组数据库构建而来。可从Chem2BioRDF中提取药物-靶点相互作用,化学结构相似数据,靶点相似数据等。

3.2.4 鉴定药物副作用

已有的一个提取流程由以下步骤组成:

使用11900万MEDLINE句子和对应的解析树作为文本语料。已知的药物-副作用配对提取:从FDA药品标签中提取100000个已知的药物-副作用配对,包括996个FDA批准的药物和4199个不良事件条款。这些药物-副作用配对作为先验知识用于提取相关句子和解析树。构建词典:疾病词典结合了UMLS中所有疾病词条和Human Disease Ontology。副作用词典基于Medical Dictionary for Regulatory Activities (MedDRA)构建。药物词典来自DrugBank。药品-副作用关系提取:包括4个部分:模式提取,模式排序和选择,配对提取和配对排序。

4. 总结

文本挖掘技术可节省大量人力物力,但也存在限制。整合,维护和分享信息是一个始终存在的挑战。同时也有工作正在开发可交互的数据库和平台,从而促进数据分享。随着越来越多的数据可公开获取,文本挖掘方法也会成为新药开发中的必要一环。

参考

Zheng S, Dharssi S, Wu M, Li J, Lu Z. Text Mining for Drug Discovery. Methods Mol Biol. 2019;1939:231-252. doi: 10.1007/978-1-4939-9089-4_13. PMID: 30848465.

合肥科生景肽生物科技有限公司成立于2018年,目前已经打造了全球领先的以肽为核心的生命分子发现、合成生产、结构优化、递送平台,主要瞄准肽发现及靶向递送,专注于为各大制药企业、生物技术公司、科研单位提供一站式的定制化研发服务。 公司独有的KPDS™平台(KS-V Peptide Discovery Services Platform)是国际领先的的多肽药物发现平台,我们致力于创新药物的高效和精准开发,以科生景肽专有KPDS技术为核心,提供一站式,定制化的多肽发现服务,以灵活的产品形式和服务模式助力广大客户各类药物发现项目的快速推进和应用探究,包括但并不限于疾病诊断及保健功能产品、多肽药物、核素偶联药物(RDC)、基于小分子的肽药物偶联物(PDC)和多功能肽偶联物等。
中文官网地址:https://www.ks-vpeptide.com.cn/
英文官网地址:https://www.ks-vpeptide.com
© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片