英语原文共 15 页,剩余内容已隐藏,支付完成后下载完整资料
审查
机器学习在药物发现和开发中的应用
Jessica Vamathevan1 *多米尼克·克拉克1 ,Paul Czodrowski2 ,伊恩·邓纳姆3 ,Edgardo Ferran1 ,Lee4 ,李斌5 ,Anant Madabhushi6,7 ,Parantu Shah8 ,Michaela Spitzer 3 还有赵善荣9
摘要 | 药物发现和开发管道漫长、复杂,取决于众多因素。 机器学习(M L)方法提供了一套工具,可以改进发现和决策的明确规定的问题与丰富的,高质量的数据。 在药物发现的所有阶段都有机会应用ML。 例子包括目标验证,预后生物标志物的鉴定和临床试验中数字病理数据的分析.. 应用程序在上下文和方法上有广泛的范围,一些方法产生了准确的预测和洞察力。 应用ML的挑战主要在于ML生成的结果缺乏可解释性和重复性,这可能限制它们的应用。 在所有领域,仍然需要产生系统和全面的高维数据。 随着解决这些问题的不断努力,以及对验证ML方法所需因素的认识的提高,ML的应用可以促进数据驱动的决策,并有可能加快药物发现和开发的过程并降低失败率。
1 欧洲分子生物学实验室,欧洲生物信息学研究所,剑桥,英国。
2 多特蒙德技术大学,多特蒙德,德国。
3 开放目标和欧洲分子生物学实验室,欧洲生物信息学研究所,剑桥,英国。
4 布里斯托尔-MyersSquibb,普林斯顿,新泽西州,美国。
5 武田制药国际公司,剑桥,马里兰州,美国。
6 凯斯西储大学,克利夫兰,俄亥俄州,美国。
7 路易斯斯托克斯克利夫兰退伍军人医疗中心,克利夫兰,俄亥俄州,美国。
8 塞拉诺研发研究所,比利里卡,马里兰州,美国。
9 辉瑞全球研发,剑桥,马里兰州,美国。
*电子邮件: jessicav@ebi.ac.uk
https://doi.org/10.1038/ S41573-019-0024-5
生物系统是发展和疾病期间复杂的信息来源。 这一信息现在正被系统地测量和挖掘在前所未有的水平上,使用了大量的“组学”和智能技术。 这些高通量的生物学和疾病方法的出现给制药工业带来了挑战和机遇,其目的是确定合理的治疗假设,从中开发药物。 然而,最近在一些因素方面的进展导致人们对在制药工业中使用机器学习(M L)方法的兴趣增加。 加上无限可伸缩的存储,可能为ML提供基础的数据集类型和大小的大量增加使制药公司能够访问和组织更多的数据。 数据类型可以包括图像、文本信息、生物特征和来自可穿戴设备的其他信息、分析信息和高维组学数据。1
在过去的几年里,人工智能(A I)领域已经从主要的理论研究转向了现实世界的应用。 爆炸性增长的主要原因是新的计算机硬件的广泛提供,如图形处理单元(GPU),使并行处理更快,特别是在数值密集的计算中。 最近,新的ML算法的进展,如深度学习(DL),构建2
在众多的公共竞赛中,从数据中得到的强大模型和这些技术的明显成功3 ,4 在过去的两年里,帮助大大增加了ML在制药公司中的应用。
虽然许多消费服务行业早已从ML领域采用较新的方法,但制药行业的吸收一直滞后,直到最近。 众所周知,药物开发的成功率(从第一阶段的临床试验到药物批准)在所有治疗领域和全球制药行业都很低。最近对21,143种化合物的研究发现,总体成功率低达6.2%。5 因此,在制药工业中使用ML技术的大部分理由是由商业需求驱动的,以降低总体消耗和成本。
药物发现和开发的所有阶段,包括临床试验,都开始开发和使用ML算法和软件(图1)。16789 )确定新的目标,为目标-疾病关联提供更有力的证据,改进小分子化合物的设计和优化,增加对疾病机制的理解,增加对疾病和非疾病表型的理解,开发新的预后、进展和药物疗效的生物标记,改进生物特征和其他数据的分析。1
Reviews
目标识别和验证
复合筛选和铅发现
临床前发展
临床发展
药物发现成功应用
- 基于基因-疾病关联的目标识别和优先排序
- 目标药物性预测
- 确定备选目标(拼接变体)
- 具有理想性能的复合设计
- 化合物合成反应方案
- 配体基化合物筛选
- 组织特异性生物标记物鉴定
- 癌症药物反应特征分类
- 临床终点生物标志物预测
- 肿瘤细胞表型的药物反应测定
- 免疫肿瘤学中肿瘤微环境的精确测量
所需数据特性
- 当前数据具有高度异质性:需要标准化的高维目标-疾病-药物关联数据集
- 疾病和正常状态的综合组学数据
- 来自文学的高自信联想
- 成功和失败临床试验的元数据
- 需要大量培训数据
- 化合物反应空间和规则模型
- 金本位ADME数据
- 许多蛋白质结构
- 生物标记:基于基因表达数据的模型的重现性
- 单细胞数据在细胞类型和生物标记物鉴定方面的尺寸缩小
- 高质量和数量的蛋白质组学和转录组学数据
- 病理学:广泛使用的病例(癌症与正常细胞)的详细专家注释
- 提高模型可解释性和透明度的黄金标准数据集
- 样本量:每个临床试验的高图像数
图 1 | 机器学习在药物发现管道中的应用及其所需的数据特性。 在制药公司药物开发管道的各个阶段,机器学习的几个成功应用已经发表。 然而,在每个数据领域,仍然存在与标准有关的挑战
利用这些方法的全部潜力来发现所需的数据质量和数据数量。 的ADME,吸收,分布,代谢和排泄..
病人监测和可穿戴设备,加强数字病理成像10 并从各级分辨率的图像中提取高含量的信息。
因此,许多制药公司已开始投资于资源、技术和服务,以生成和管理数据集,以支持这一领域的研究。 此外,IBM和谷歌等技术巨头、生物技术初创企业和学术中心不仅提供基于云的计算服务,而且还与行业合作伙伴一起在制药和保健领域开展工作。 本综述概述了ML中使用的当前工具和技术(工具箱),包括深度神经网络,并概述了到目前为止在关键药物应用领域取得的进展。
机器学习工具箱
从根本上说,ML是使用算法分析数据,从中学习,然后对任何新数据集的未来状态进行确定或预测的实践。 因此,与其用一组特定的指令(由程序员预先确定)来完成特定任务的手工编码软件例程,不如使用大量的数据和算法来训练机器,使它能够学习如何执行任务。 程序员对用来训练网络的算法进行编码,而不是编码专家规则。
随着可用于学习的数据数量和质量的增加,算法自适应地提高了它们的性能。 因此,将ML应用于解决大量数据和多个数据的问题是最好的
变量在手边,但模型或公式是
连续变量,而无监督的方法被用于探索目的,以开发模型,使数据的聚类方式不是由用户指定的。 监督学习训练一个关于已知输入和输出数据关系的模型,以便它能够预测新输入的未来输出。 未来的输出通常是数据分类的模型或结果,或者对最有影响力的变量(回归)的理解。 无监督学习技术识别输入数据中隐藏的模式或内在结构,并利用这些模式以有意义的方式对数据进行聚类。
模型选择概念。 一个好的ML模型的目的是很好地从训练数据推广到手头的测试数据。 泛化是指模型学习到的概念如何很好地应用于训练过程中模型看不到的数据。 在每种技术中,都存在几种冰毒-ODS(图)。2 ),它们的预测精度、训练速度和它们所能处理的变量数都不同。 必须仔细选择算法,以确保它们适合手头的问题以及可用数据的数量和类型。 所需的参数调整量以及该方法如何将信号与噪声分开也是重要的考虑因素。
模型过度拟合发生时,模型不仅学习信号,而且还学习训练数据的一些不寻常的特征,并将其纳入模型,从而对模型对新数据的性能产生负面影响。 欠拟合是指既不能对训练数据建模,也不能推广到新数据的模型。限制过度装修的典型方法是适用
图形处理单元(gPUS)。 处理器旨在加速图形的呈现,每个周期可以处理数以万计的操作。
这些都是未知的。
应用ML的技术主要有两种类型:有监督学习和无监督学习。 有监督的学习方法被用来开发训练模型来预测数据类别的未来价值或
重新采样方法或保存部分训练数据作为验证数据集。 正则化回归方法(如Ridge、LASSO或弹性网)随着模型复杂度的增加而增加对参数的惩罚,从而迫使模型推广数据而不是推广数据
Reviews
监督学习技术 无监督学习技术
回归分析方法 分类器方法 聚类方法
支持向量机
线性回归
弹性净回归(例如 LASSO和脊正则化)
一般线性模型
稀疏线性回归
歧视性分析
K
手段
层次聚类
高斯混合
偏最小二乘回归
集團
主成分回归
SVR
NLP核方法
集團
最近的邻居
NLP
神经网络(Kohonen地图、自动编码器和DAENs)
高斯过程回归
方法(如随机森林)
决策树
神经网络(DNNs,CNNs)
和RNNs)
方法(梯度提升)
贝叶斯分类器
隐马尔科夫模型
甘斯
化合物的生物活性和测定结果
虚拟药物-目标屏幕14
目标药物性
关于PK性质和蛋白质结构或序列31–34
靶基因关联新的治疗靶点7
新分子设计45,46
RNAi筛选的癌症相关基因9
疾病和目标可用药性
多维数据17
来自文献的Target-disease-drug association19,20
组织特异性
单细胞数据特征减少以识别
细胞类型75
细胞类型和生物标记物
单细胞RNA数据76
新的靶点和来自疾病特异性剪接变异的治疗耐药性21,22,24
亨廷顿病的目标18
药物敏感性预测56,65
基因表达特征的生物标志物1
生物标志物的深层特征选择79–81
低剂量CT图像分析104
化学-遗传关联29
定量结构-活性关系41
目标中的ADME特性
以及规划化学合成40
预测临床试验成功的基因表达特征38
连续性临床终点的生物标记
可变数据61,62
复杂性状的多基因风险评分73
预测癌症药物反应的分子特征31
基于Ligand的虚拟放映53
细胞图像的表型分析9
加速MRI数据采集103
影像诊断95–98
图 2 | 机器学习工具及其药物发现应用.. 这个数字给出了机器学习技术的概述,这些技术被用来回答本综述中涵盖的药物发现问题。 一系列监督学习技术(回归和分类器方法)被用来回答需要预测数据类别或连续变量的问题,而非监督技术被用来开发能够对数据进行聚类的模型。 吸收、分布、代谢和排泄;CNN,卷积神经
网络;CT,计算机断层扫描;DAEN,深度自动编码器神经网络;DNN,深度神经网络;GaN,
生成对抗网络;MRI,磁共振成像;NLP,自然语言处理;PK,
药代动力学;RNAi,RNA干扰;RNN,递归神经网络;SVM,支持向量机;SVR,
中央处理单元(CPU)。 处理器旨在以一般的方式解决每一个计算问题,并且可以处理每个周期的几十个操作
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[238867],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。
您可能感兴趣的文章
- 选择性能量转移催化烯烃的含硼几何异构化外文翻译资料
- 瑞德西韦阻滞SARS-CoV-2聚合酶的作用机理外文翻译资料
- 铱催化的共轭二烯的C-H烯基的烯丙基化反应外文翻译资料
- 铱和布朗斯特酸协同催化烯丙醇对萘酚衍生物的对映选择性脱芳构化外文翻译资料
- 新型选择性MT2受体配体2-(苯硫基)苯并[b]噻吩类化合物的制备和药理学评价外文翻译资料
- Ilimaquinone是一种海绵代谢产物,通过gadd153介导的途径发挥抗癌作用外文翻译资料
- 用环境敏感药物释放的三氧化二砷靶向介孔二氧 化硅纳米颗粒有效治疗三阴性乳腺癌外文翻译资料
- 复方中草药对雄性荷斯坦犊牛生长表现,胴体特征和肉质的 影响外文翻译资料
- 线粒体在没有人体ATP合酶的亚基c时渗透性转 变的持久性外文翻译资料
- 基于呋喃类化合物构建环氧树脂 2,5-呋喃羧酸(FDCA)生物基环氧树脂的合成及性能研究外文翻译资料