所有药物开发过程从目标识别到逐步临床试验都需要大量的时间和成本。
由于每个过程节点的成本一直在增加,药物研发部门必须确保能在药物研发的每个阶段筛选出合适的有希望商用的候选药物。研发部门采用的“Hit-to-Lead”流程包括苗头化合物的开发以及后续先导化合物的合成。
从药理学角度看,临床试验出现的副作用以及部分药物治疗效果不理想的一个原因是单一或多种药物通常与多个靶点相互作用。在理想情况下,对每种疾病模型进行全面的体内试验应该能够解决这个问题。然而,这将耗费非常巨大的时间和成本。
自20世纪80年代以来,计算机辅助药物发现和设计的方法已经减轻了现代药物研发(R&D)中消耗性验证实验的工作量,并在Hit-to-Lead过程中发挥了重要作用。然而,即使是这种计算机方法也未能阻止自20世纪90年代中期以来制药行业研发生产力的下降。
最近,学术界和产业界投入了大量资源将人工智能(AI)应用于药物发现领域,并探索重要且具有成本效益的开发战略。过去几十年来积累的大量化学和生物数据,以及高性能处理器的发展,为人工智能技术的药物开发应用铺平了道路。
目前产业界不仅在药物开发过程中采用了最先进的AI技术,而且还在构建利用AI驱动来开发药物的各种管道和框架。深度神经网络具有理解复杂生物空间环境的优势,这是因为研发人员可以在计算隐藏层中构建非线性模型,从而在多级表示中提取复杂的模型。
此外,深度神经网络还最大限度地减少了手动预处理未格式化的原始数据。
因此,利用深度学习(DL)进行药物开发已经取得很多成功,例如药物与靶标之间的相互作用(DTI)可以被有效预测,从而帮助研发人员开发需要具体功能的药物分子。
但是药物开发采用的数据形式和类型与传统的人工智能技术使用的文本和图像数据有很大的差异性,因此仍然需要对DL技术进行不断地迭代升级。
深度学习的数据表征
在药物发现应用中,深度学习技术的输入数据是药物和蛋白质靶标的小分子或大分子。为了表征这些分子形式,许多机器学习(ML)方法中使用了不同类型的分子表示(通常称为描述符或特征)分子实体的简单序列和手动预定义的分子特征(如图1)。
图1
分子数据直接关系到学习模型的知识库,因此对提高预测模型性能的预训练有重大影响。近几年人们对分子表征的研究兴趣激增,获取了越来越多化合物和靶标的未知特征。在这些研究中,如何用深度神经网络探索药物分子表示是热门领域之一。
简化的分子输入行输入系统字符串通常称为SMILES,是目前最常用的药物表示方法。它是一种行符号,能对分子的几何特征、拓扑形式和分子结构结构进行编码。
SMILES字串符非常简单实用,能用于快速的计算机训练。在实际案例中, SMILES作为分子表示已经被许多分子深度学习模型采用。
使用SMILES的序列模型可以成功地预测化学反应。例如,许多研究利用seq‑2‑seq方法将数据直接转换为SMILES格式,并对反应物进行预测来阐明化合物的反应过程。大多数分子内的原子可以更改顺序来随机生成一个或数个SMILES串,以此摸索出更好性能的分子结构。
分子指纹(FP)是另一种化学结构表达方法,它是一个位串编码配体的结构。许多类型的分子FP已被用于虚拟筛选(VS)有相似功能的药物,这些筛选方法包括基于配体的相似性搜索和定量构效关系(QSAR)分析。许多基于深度学习的DTI预测模型也使用FP作为输入特征。
基于密钥的FP包括分子访问系统(MACCS)和PubChemFP。
MACCS密钥由预定义的166个子结构组成。PubChemFP有881位字节,每个字节可以测试元素数量、环类型、原子配对和相邻元素。所以,尽管人们可以快速准确地找到子结构,但对各种特征进行分类的能力是有限度的。
散列FP,例如DaylightFP、MorganFP、扩展连接FP(ECFP)和功能类FP(FCFP),也用于化合物的相似性分析。与基于结构键的FP不同,散列FP不需要预定义的子结构,而是由散列函数创建以将所有可能的片段转换为数值。
ECFP是一种基于Morgan算法的循环FP,通常广泛应用于DTI预测的DL模型。这是因为使用ECFP的几种DL方法在生物活性预测方面表现出持续的稳定性。
深度学习技术对药物‑靶点相互作用的预测
使用DL技术的DTI预测模型可以将化合物的化学空间和靶蛋白的基因组空间结合到药理学空间中,这种方法被称为化学基因组学(或蛋白质化学计量学,PCM)。
这种方法可以在整个化合物及其生物蛋白质之间建立一个化学基因组矩阵来,从而解决了DTI难题。同时,高通量筛选(HTS)技术的进步使数十万种化合物能够在很短的时间内针对生物靶标进行测试。
随着DL模型不断迭代了最先进的算法以及将多种算法结合使用,药物的开发周期已经逐渐缩短。这些模型根据输入特征可分为三类:(1)配体策略,(2)结构策略,(3)关系策略(如图2)。
图2
基于配体的方法是建立在候选配体与目标蛋白的已知配体具有相似性的假设之上。
这种方法包括相似性搜索方法,认同结构相似的化合物通常具有相似的生物活性的假设。几十年来,基于配体的方法要么通过大量计算任务对大型化合物库中的化合物进行优先排序,要么使用手动公式来解决问题。
DL技术可以缩短这些繁琐的步骤和手动任务,并通过深度神经网络模型逐渐缩小计算机预测和实证研究之间的差异。研究人员开发了基于深度学习的VS来探索具有所需特性的化合物,促进了新药设计领域的发展。
与基于配体的VS不同,基于结构方法的VS使用了蛋白质靶标及其配体信息。虽然许多用于DTI预测的ML方法利用配体和靶标的各种结构描述符作为输入特征,但一些研究将这些ML方法与方法分类中典型的基于结构的方法区分开来,并将它们归类为基于特征的方法。
近年来最常用的DTI预测方法之一是使用药物和靶标的一维描述符。药物和靶标可以分别表示为原子序列和氨基酸残基序列。其中基于序列的描述符是首选,因为DL模型可以立即使用该数据,而无需对输入特征进行任何预处理。
基于关系的开发方法较为复杂。根据药理学,大多数化合物不仅对其主要靶标有影响,而且对其他靶标也产生影响。这些影响取决于药物的剂量和相关的生物网络。因此,计算机蛋白质化学计量学建模被证明是有用的技术,特别适合分析蛋白质配体的选择性或混杂性。
此外,多任务学习神经网络非常适合同时处理具有多维度的不同类型数据。DL模型应用广发,甚至可以使用多维度的关系信息,例如与DTI相关的异构网络和药物诱导的基因表达谱。
基于网络的方法也可使用异构网络,能够集成两种以上的节点(药物、靶蛋白/基因、疾病或副作用)和各种类型的边缘(药物之间的相似性、蛋白质之间的相似性、药物‑药物相互作用(DDIs))、PPI、药物‑疾病关联、蛋白质‑疾病关联等)。
网络中节点之间的局部相似性是使用这种方法的关键。例如,当考虑以药物为节点、药物‑药物相似度值作为边权重的相似性网络时,可以利用它们之间的关系和拓扑特性来预测DTI。
DeNovo药物设计领域的深度学习技术
一般来说,从头药物设计方法是根据DL模型进行分类。但是,仅了解模型的目的可能还不够。为反映最近的趋势变化、目的和可用性,使用DL的药物设计方法已经被重新分类(如图3)。
图3
药物设计中,对新候选药物的研究方法有两种。
第一种方法是生成尽可能多的任意化合物,然后根据目的通过几个步骤进行过滤,最终筛选出少量的候选药物。
第二种方法是按目标生成物去设定强制条件或特征属性。不能说哪个方法更好。但在相对较早时期,人们普遍使用了随机生成方法,近期才出现许多关于控制条件的研究。
条件可控模型在创建新药或优化现有药物时确实非常有用,这是因为条件控制模型可以修改分子结合亲和力、分子量、副作用和毒性等特性,同时又能保持分子的主要结构特征。
如图4,目前该模型可适用于各种位置,使用方法也较多。一些科学家使用VAE中的条件模型去操纵目标化合物的特性(图5)。这个简易模型通过向VAE的编码器和解码器添加分子属性(MW、logP、HBD、HBA、拓扑极表面积(TPSA))来训练。
在创建新化合物时,研究人员只需将所需的属性添加到决定化合物结构的潜在向量中。输入值和输出值之间的差异约为10%。
图4
图5
典型的基于结构的分子表示是由原子及其连接点组成,例如SMILES或图形方法。然而,化合物在支架水平上比在原子水平上具有更多相似的特性。基于片段的DL模型的优势在于,当生成相对较大的分子时,它们输出的产物很可能以自然状态存在。
例如,在基于原子的模型的情况下,所产生的化合物可能包括一个由10个碳组成的环,或一个由碳组成的非常长的线性化合物,这在自然界中是非常罕见的。如果使用支架而不是原子作为参考,则可以在保持化合物主要子结构的同时训练和创建支架。
专家根据现有的知识可以对实验结果进行解释和反馈。例如,β‑内酰胺具有特征支架(如图6),因此在开发新抗生素时,可以在保持支架的同时创建各种类型的药物。一些科学家使用SMILES对核心支架添加片段(他们称之为装饰器),然后再进行建模。
基于片段的生成有一个局限性,因为只能生成与现有支架结构相似的化合物,因此很难找到新的分子实体。此外,分子中使用的原子和键的类型非常少,而支架如果不受某些标准的限制则会有很多类型。
图6
当前的技术挑战和前景
数据稀缺和不平衡缺乏标记数据是使用基于DL的药物发现的主要难题。
药物发现研究产生的数据量很小,因为它需要昂贵的实验和很长时间才能生成DTI数据。例如DTI预测最常用的基准数据集是Yamanishi_2008数据集。该数据集提供了不到1000种药物的数据,而且还包含非常有限的DTI信息,平均稀疏率为3.6%。
当针对特定疾病或新发现的目标时,数据量很小,很难进行AI训练。在这种情况下,迁移学习是一个很好的选择。
作为终身学习的一部分,迁移学习的灵感来自于人类从过去其他类似经历中获取新知识的速度。迁移学习可以通过将另一个或一般领域的大数据集的预训练模型微调到实际的小规模数据集来改善许多数据不足的问题。
多任务学习也经常用于药物发现。如果迁移学习是使用大型数据集获取初始化良好的DL模型的权重并将其用于目标模型,则多任务学习会同时训练具有许多公共部分的多个任务。通过多任务学习,可以使用不同的任务来训练难以用小数据集训练的内在特征。
与传统的随机森林方法或逻辑回归方法相比,使用多任务学习增加了AUC。一些数据集的AUC略有下降,但对于大多数数据集,AUC显著增加。所以,它的优点是可以显著减少训练时间和计算量。
合肥科生景肽生物科技有限公司成立于2018年,目前已经打造了全球领先的以肽为核心的生命分子发现、合成生产、结构优化、递送平台,主要瞄准肽发现及靶向递送,专注于为各大制药企业、生物技术公司、科研单位提供一站式的定制化研发服务。 公司独有的KPDS™平台(KS-V Peptide Discovery Services Platform)是国际领先的的多肽药物发现平台,我们致力于创新药物的高效和精准开发,以科生景肽专有KPDS技术为核心,提供一站式,定制化的多肽发现服务,以灵活的产品形式和服务模式助力广大客户各类药物发现项目的快速推进和应用探究,包括但并不限于疾病诊断及保健功能产品、多肽药物、核素偶联药物(RDC)、基于小分子的肽药物偶联物(PDC)和多功能肽偶联物等。中文官网地址:https://www.ks-vpeptide.com.cn/
英文官网地址:https://www.ks-vpeptide.com
领英:https://www.linkedin.com/company/ks-v-peptide/