英语原文共 15 页，剩余内容已隐藏，支付完成后下载完整资料

审查

机器学习在药物发现和开发中的应用

Jessica Vamathevan1 *多米尼克·克拉克1 ，Paul Czodrowski2 ，伊恩·邓纳姆3 ，Edgardo Ferran1 ，Lee4 ，李斌5 ，Anant Madabhushi6,7 ，Parantu Shah8 ，Michaela Spitzer 3 还有赵善荣9

摘要 | 药物发现和开发管道漫长、复杂，取决于众多因素。机器学习(M L)方法提供了一套工具，可以改进发现和决策的明确规定的问题与丰富的，高质量的数据。在药物发现的所有阶段都有机会应用ML。例子包括目标验证，预后生物标志物的鉴定和临床试验中数字病理数据的分析.. 应用程序在上下文和方法上有广泛的范围，一些方法产生了准确的预测和洞察力。应用ML的挑战主要在于ML生成的结果缺乏可解释性和重复性，这可能限制它们的应用。在所有领域，仍然需要产生系统和全面的高维数据。随着解决这些问题的不断努力，以及对验证ML方法所需因素的认识的提高，ML的应用可以促进数据驱动的决策，并有可能加快药物发现和开发的过程并降低失败率。

1 欧洲分子生物学实验室，欧洲生物信息学研究所，剑桥，英国。

2 多特蒙德技术大学，多特蒙德，德国。

3 开放目标和欧洲分子生物学实验室，欧洲生物信息学研究所，剑桥，英国。

4 布里斯托尔-MyersSquibb，普林斯顿，新泽西州，美国。

5 武田制药国际公司，剑桥，马里兰州，美国。

6 凯斯西储大学，克利夫兰，俄亥俄州，美国。

7 路易斯斯托克斯克利夫兰退伍军人医疗中心，克利夫兰，俄亥俄州，美国。

8 塞拉诺研发研究所，比利里卡，马里兰州，美国。

9 辉瑞全球研发，剑桥，马里兰州，美国。

*电子邮件： jessicav@ebi.ac.uk

https://doi.org/10.1038/ S41573-019-0024-5

生物系统是发展和疾病期间复杂的信息来源。这一信息现在正被系统地测量和挖掘在前所未有的水平上，使用了大量的“组学”和智能技术。这些高通量的生物学和疾病方法的出现给制药工业带来了挑战和机遇，其目的是确定合理的治疗假设，从中开发药物。然而，最近在一些因素方面的进展导致人们对在制药工业中使用机器学习(M L)方法的兴趣增加。加上无限可伸缩的存储，可能为ML提供基础的数据集类型和大小的大量增加使制药公司能够访问和组织更多的数据。数据类型可以包括图像、文本信息、生物特征和来自可穿戴设备的其他信息、分析信息和高维组学数据。1

在过去的几年里，人工智能(A I)领域已经从主要的理论研究转向了现实世界的应用。爆炸性增长的主要原因是新的计算机硬件的广泛提供，如图形处理单元(GPU)，使并行处理更快，特别是在数值密集的计算中。最近，新的ML算法的进展，如深度学习(DL)，构建2

在众多的公共竞赛中，从数据中得到的强大模型和这些技术的明显成功3 ，4 在过去的两年里，帮助大大增加了ML在制药公司中的应用。

虽然许多消费服务行业早已从ML领域采用较新的方法，但制药行业的吸收一直滞后，直到最近。众所周知，药物开发的成功率（从第一阶段的临床试验到药物批准）在所有治疗领域和全球制药行业都很低。最近对21，143种化合物的研究发现，总体成功率低达6.2%。5 因此，在制药工业中使用ML技术的大部分理由是由商业需求驱动的，以降低总体消耗和成本。

药物发现和开发的所有阶段，包括临床试验，都开始开发和使用ML算法和软件（图1）。16789 )确定新的目标，为目标-疾病关联提供更有力的证据，改进小分子化合物的设计和优化，增加对疾病机制的理解，增加对疾病和非疾病表型的理解，开发新的预后、进展和药物疗效的生物标记，改进生物特征和其他数据的分析。1

Reviews

目标识别和验证

复合筛选和铅发现

临床前发展

临床发展

药物发现成功应用

基于基因-疾病关联的目标识别和优先排序
目标药物性预测
确定备选目标（拼接变体）
具有理想性能的复合设计
化合物合成反应方案
配体基化合物筛选
组织特异性生物标记物鉴定
癌症药物反应特征分类
临床终点生物标志物预测
肿瘤细胞表型的药物反应测定
免疫肿瘤学中肿瘤微环境的精确测量

所需数据特性

当前数据具有高度异质性：需要标准化的高维目标-疾病-药物关联数据集
疾病和正常状态的综合组学数据
来自文学的高自信联想
成功和失败临床试验的元数据
需要大量培训数据
化合物反应空间和规则模型
金本位ADME数据
许多蛋白质结构
生物标记：基于基因表达数据的模型的重现性
单细胞数据在细胞类型和生物标记物鉴定方面的尺寸缩小
高质量和数量的蛋白质组学和转录组学数据
病理学：广泛使用的病例（癌症与正常细胞）的详细专家注释
提高模型可解释性和透明度的黄金标准数据集
样本量：每个临床试验的高图像数

图 1 | 机器学习在药物发现管道中的应用及其所需的数据特性。 在制药公司药物开发管道的各个阶段，机器学习的几个成功应用已经发表。然而，在每个数据领域，仍然存在与标准有关的挑战

利用这些方法的全部潜力来发现所需的数据质量和数据数量。的ADME，吸收，分布，代谢和排泄..

病人监测和可穿戴设备，加强数字病理成像10 并从各级分辨率的图像中提取高含量的信息。

因此，许多制药公司已开始投资于资源、技术和服务，以生成和管理数据集，以支持这一领域的研究。此外，IBM和谷歌等技术巨头、生物技术初创企业和学术中心不仅提供基于云的计算服务，而且还与行业合作伙伴一起在制药和保健领域开展工作。本综述概述了ML中使用的当前工具和技术（工具箱），包括深度神经网络，并概述了到目前为止在关键药物应用领域取得的进展。

机器学习工具箱

从根本上说，ML是使用算法分析数据，从中学习，然后对任何新数据集的未来状态进行确定或预测的实践。因此，与其用一组特定的指令（由程序员预先确定）来完成特定任务的手工编码软件例程，不如使用大量的数据和算法来训练机器，使它能够学习如何执行任务。程序员对用来训练网络的算法进行编码，而不是编码专家规则。

随着可用于学习的数据数量和质量的增加，算法自适应地提高了它们的性能。因此，将ML应用于解决大量数据和多个数据的问题是最好的

变量在手边，但模型或公式是

连续变量，而无监督的方法被用于探索目的，以开发模型，使数据的聚类方式不是由用户指定的。监督学习训练一个关于已知输入和输出数据关系的模型，以便它能够预测新输入的未来输出。未来的输出通常是数据分类的模型或结果，或者对最有影响力的变量（回归）的理解。无监督学习技术识别输入数据中隐藏的模式或内在结构，并利用这些模式以有意义的方式对数据进行聚类。

模型选择概念。 一个好的ML模型的目的是很好地从训练数据推广到手头的测试数据。泛化是指模型学习到的概念如何很好地应用于训练过程中模型看不到的数据。在每种技术中，都存在几种冰毒-ODS（图）。2 )，它们的预测精度、训练速度和它们所能处理的变量数都不同。必须仔细选择算法，以确保它们适合手头的问题以及可用数据的数量和类型。所需的参数调整量以及该方法如何将信号与噪声分开也是重要的考虑因素。

模型过度拟合发生时，模型不仅学习信号，而且还学习训练数据的一些不寻常的特征，并将其纳入模型，从而对模型对新数据的性能产生负面影响。欠拟合是指既不能对训练数据建模，也不能推广到新数据的模型。限制过度装修的典型方法是适用

图形处理单元(gPUS)。处理器旨在加速图形的呈现，每个周期可以处理数以万计的操作。

这些都是未知的。

应用ML的技术主要有两种类型：有监督学习和无监督学习。有监督的学习方法被用来开发训练模型来预测数据类别的未来价值或

重新采样方法或保存部分训练数据作为验证数据集。正则化回归方法(如Ridge、LASSO或弹性网)随着模型复杂度的增加而增加对参数的惩罚，从而迫使模型推广数据而不是推广数据

Reviews

监督学习技术无监督学习技术

回归分析方法分类器方法聚类方法

支持向量机

线性回归

弹性净回归(例如 LASSO和脊正则化)

一般线性模型

稀疏线性回归

歧视性分析

手段

层次聚类

高斯混合

偏最小二乘回归

集團

主成分回归

SVR

NLP核方法

集團

注册

找回密码

机器学习在药物发现和开发中的应用外文翻译资料

Reviews

机器学习工具箱

Reviews

您可能感兴趣的文章

登录

注册

找回密码

Reviews

机器学习工具箱

Reviews

您可能感兴趣的文章