什么是机器学习?
机器学习是一种旨在从多维数据集构建预测模型的数据分析技术,它正成为现代生物学研究中不可或缺的一部分。使用机器学习人们能够生成大型数据集并进行结果预测,机器学习还可以用于药物设计在这篇文章里,作者讨论了在机器学习和网络生物学的交叉领域所面临的机遇和挑战。模型训练过程中经常会出现过拟合和欠拟合的问题。过拟合可以通过增加训练数据集的大小和/或减少学习模型的复杂性来解决,而欠拟合可以通过增加模型的复杂性来纠正。输入数据的质量和训练数据的数量对整个机器学习过程至关重要。计算机科学中的名言“垃圾进,垃圾出”在机器学习应用中就十分适用。任何给定的机器学习算法的性能都取决于用于训练模型的数据。适当格式化、清理和归一化输入数据是很关键的一步。输入数据集可能存在许多缺失值,因此是不完整的。处理缺失数据的方法包括直接推断缺失值(例如,插补)或简单地移除稀疏特征。此外,给定生物数据集中的每个输入特征都不一定都有预测输出标签。事实上,包括不相关的特征可能会导致过拟合,从而阻碍了机器学习模型的性能。我们常常使用特征选择过程来进行数据筛选。特征选择技术的是将所有输入特征与标签进行相关性分析,并保留满足预定义阈值的特征。
下一代机器学习-深度学习
深度学习代表了下一代机器学习方法,其特点是利用多层神经网络来处理复杂和庞大的数据。神经网络通过多个加权、相互连接的计算单元或神经元传递信息,从而学习数据中的模式和特征。深度神经网络通常包含多个隐藏层,隐藏层逐层连接,每个隐藏层通过前一层产生的转换表示学习数据结构的属性。研究人员可以根据学习模型的目的来定义隐藏层的数量和大小。例如,循环神经网络(RNN)用于处理一维序列数据,如句子中的单词或DNA序列中的碱基。卷积神经网络(CNN)则用于处理二维或多维数据,如二维图像或高维多组学数据。深度学习的关键在于神经网络学习如何转换数据的行为。通过反向传播算法,神经网络通过迭代调整内部参数来最小化预测误差,从而学习数据的特征,以识别复杂数据中的新模式。然而,深度学习需要大规模数据集来训练深度神经网络,而且其复杂的结构和训练过程限制了对模型预测的解释性,这可能会影响其在生物学领域揭示潜在生物机制方面的实用性。图1. 机器学习应用构建模型以解释和分析数据集
数据由在许多样本上测量的特征组成,包括基因、蛋白质、代谢产物。根据预测任务、数据的基本属性以及数据是否带标签,选择机器学习方法。如果数据没有标签,则需要选择非监督方法,如主成分分析(PCA)或层次聚类。如果数据带有标签,则可以应用监督方法,该方法将根据输入标签生成用于回归或分类的预测模型。在应用适当的机器学习方法后,必须验证预测结果。可以生成或收集新数据,并用于改进学习模型,提高预测性能并发展新的生物假设。
深度学习在药物发现中的应用
在药物发现中,科研人员需要对化合物的作用方式进行表征,从而识别药物的非靶效应,并开发有效的药物组合来治疗复杂疾病。网络生物学方法和机器学习算法已成功应用于这些领域;例如,推断网络模型和转录组学已被用于预测感兴趣化合物的可能靶点。但是,现在在弥合药物发现和开发中的生物和化学方面之间的差距方面,仍然困难重重。药物处理后得到的广泛多组学数据,以及存储在数据库如dbGAP和GTEx Portal中的大量基因型数据,为生成综合网络模型进而应用于机器学习提供了原始生物材料。现在化学物质的数据库;包含药物和药物靶标数据的DrugBank;以及包括超过1亿种药物类化合物的结构信息的ZINC数据库。从机器学习的角度来看,如何将这些网络模型和生物数据集与PubChem等化学信息的信息相结合并应用于药物发现是个十分有趣的问题。多任务学习神经网络非常适合这些类型的应用,其中一个系统可能包含多个数据类型的许多标签(例如,对药物的反应、疾病状态),这些标签由许多独立特征组成。典型的机器学习应用定义一个单一任务,其中模型被训练以预测单个标签。如果要使用相同的输入数据学习新标签,则会训练一个新模型;也就是说,学习任务被视为独立事件。然而,在某些情况下,有些重要信息可以从一个任务中学到,从而可以指导另一个任务的学习,这时典型的机器学习方法就不那么高效了。多任务学习的基本思想是同时学习一组任务。单任务学习旨在优化单个任务的性能,而多任务学习的目标是同时优化所有任务的性能。在多任务学习中,同时学习多个相关任务,利用任务之间的差异性和相似性进行预测。这种方法的前提是:学习相关概念对学习模型施加了泛化,从而在避免模型过拟合的同时提高了性能。重要的是,多任务学习神经网络可以集成或合成不同来源的数据。因此,多任务学习器可以通过考虑调节网络关系以及来自多组学实验、高通量药物筛选、生物活性检测和药物处理的表型观察数据,同时预测给定药物的生理反应及其毒性。图2.下一代机器学习方法和应用
(A) 深度学习方法包括神经网络模型,其中网络结构的深度是由隐藏层数量定义的。这些算法基于输入层、隐藏(深度)层和输出层生成预测模型。数据被处理并输入到输入层。接下来,隐藏层将数据转换为可学习和馈送到下一层的表示。然后,基于训练数据标签产生的错误通过网络进行反向传播,并调整模型以提高性能。输出层根据调整后的隐藏层生成预测(分类或回归)。
(B) 深度学习体系结构为药物发现提供了巨大的机会。深度学习网络可以设计用于执行各种预测任务,比如基于输入数据预测药物毒性和药物反应。
(C) 对于合成生物学,深度学习可以应用包括基于基因组序列、组成数据和来自现有组件和基因电路的功能数据的输入数据,来预测分子组分和基因回路。
多任务学习可以在生物和化学数据整合方面发挥作用,例如,通过将化合物的结构数据纳入其中,可以弥合药物发现中的生物和化学方面之间的差距。再比如,可以将药物的SMILES表示法作为学习器的输入数据。SMILES表示法将化合物的结构转化为线性文本字符串,可以轻松地纳入到机器学习应用中。通过将SMILES表示法和不同化合物的已确定靶点以及其转录和毒性特性配置给多任务学习算法,可以使算法训练以预测新化合物的潜在副作用或可能的靶点。
挑战
虽然,在药物发现和下一代机器学习的交叉领域存在巨大的机遇。但是,同样存在着巨大的挑战。深度学习方法对大规模数据的需求量巨大,而生物医药领域的大数据集不太容易获取。除此之外,生物医药数据集通常是稀疏的,其中许多特征可能是缺失的或者只有少量的样本。这种数据特点可能会影响深度学习模型的性能和泛化能力。解释性也是一个很棘手的问题,深度学习模型通常被视为黑盒子,难以解释模型的预测结果。在药物发现中,需要能够理解模型如何对候选药物进行预测,以便为研究人员提供信息和指导。深度学习模型在生物医药领域的预测准确性对于开发安全有效的药物也同样至关重要。因此,还需要解决如何提高模型的预测性能以及如何评估模型在临床实践中的有效性等问题。参考资料:Camacho D M, Collins K M, Powers R K, et al. Next-generation machine learning for biological networks[J]. Cell, 2018, 173(7): 1581-1592.
版权信息
本文系AIDD Pro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDD Pro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDD Pro (请添加微信号sixiali_fox59)进行删改处理。
本文为原创内容,未经授权禁止转载,授权后转载亦需注明出处。有问题可发邮件至sixiali@stonewise.cn
关注我,更多资讯早知道↓↓↓
合肥科生景肽生物科技有限公司成立于2018年,目前已经打造了全球领先的以肽为核心的生命分子发现、合成生产、结构优化、递送平台,主要瞄准肽发现及靶向递送,专注于为各大制药企业、生物技术公司、科研单位提供一站式的定制化研发服务。 公司独有的KPDS™平台(KS-V Peptide Discovery Services Platform)是国际领先的的多肽药物发现平台,我们致力于创新药物的高效和精准开发,以科生景肽专有KPDS技术为核心,提供一站式,定制化的多肽发现服务,以灵活的产品形式和服务模式助力广大客户各类药物发现项目的快速推进和应用探究,包括但并不限于疾病诊断及保健功能产品、多肽药物、核素偶联药物(RDC)、基于小分子的肽药物偶联物(PDC)和多功能肽偶联物等。 中文官网地址:https://www.ks-vpeptide.com.cn/ 英文官网地址:https://www.ks-vpeptide.com