
2024-11-11 05:07 点击次数:77
2025年2月27日ag百家乐官网,Nature期刊发布《增强东说念主工智能药物研发的四种行为》(Four ways to power-up AI for drug discovery),著作探讨了东说念主工智能在药物研发中的挑战和机遇。启元洞见编译著作东要实质,旨在为读者了解增强东说念主工智能药物研发的行为提供参考。
药物研发极其困难,德国汉堡生物技能公司Evotec的算计化学家大卫·帕多(David Pardoe)说说念:“在大要100年的当代医学发展历程中,咱们仅为约7000种刻毒疾病中的500种找到了诊疗行为。这一进程耗时过长,资本过高。”但表面上,东说念主工智能有望惩办这两个问题。
东说念主工智能应当约略整合潜在药物分子的三维几何结构和原子结构,并构建它怎样与靶卵白结合的图谱。随后,研究东说念主员不错拯救假想,使潜在药物更具遵循,或者算法不错识别全新的靶点进行探索。此外,东说念主工智能系统还可能接头到药物与靶点相互作用的复杂生物环境。某些潜在药物可能会因与多种非靶卵白产生不良相互作用而带来反作用,从而影响其应用前程。
开发约略加快药物发现的系统的关节在于大齐优质数据。与其他一些东说念主工智能应用领域的科学家比拟,药物研发领域的研究东说念主员具有塌实的数据基础:全球各地的实验室正在绵绵连续地产生大齐生物数据,为东说念主工智能技能的应用奠定了坚实基础。
可是,尽管广阔的数据范围似乎标明东说念主工智能变革药物研发仅仅时间问题,但事实并非如斯。数据质料时时难以达标,因为大多数数据的聚积并未极端针对机器学习进行假想。实验行为和数据纪录形貌枯竭一致性,以及研究甩手偏向于发表积极论断,而忽略负面或无效数据,这些身分齐会带来问题。尽管有些东说念主合计,只消数据量迷漫大,就能自动惩办这些问题,但也有东说念主合计,学术界和工业界的研究东说念主员需要联袂互助,提高用于机器学习模子的数据质料。
哪些问题最穷困?哪些惩办决议应当优先实施?这些问题仍存在争议。为进一步探讨怎样让东说念主工智能真实竣事对药物研发的变革,达到好多东说念主所渴望的进度,本文华访了多位该领域的研究东说念主员,以梳理出可选定的具体行为。
一、圭臬化论说和实验行为
巴黎东说念主工智能生物技能公司Owkin的首席数据科学官艾瑞克·杜兰德(Eric Durand)说说念:“东说念主工智能濒临的一个巨大挑战是数据的生成形貌。”
当不同实验室使用不同的行为、试剂和仪器时,数据中可能会引入所谓的“批次效应”(batch effects)。举例,样本处理进程中的隐微互异、不同批次试剂和细胞之间的变异,致使是分子结构的定名和姿首形貌,齐会导致数据的变化。而这些变化可能被东说念主工智能模子误判为具有生物学意旨的特征。杜兰德讲解说念:“你弗成平直拿两个实验室生成的数据集进行合股分析,而不进行预处理。”
好意思国马萨诸塞州剑桥生物技能公司Relay Therapeutics的算计化学家帕特·沃尔特斯(Pat Walters)说说念:“必须预防对待这些数据。它们来自不同实验室,而这些实验室的实验形貌并不相似,因此很难作念到‘同类对比’(apples-to-apples comparisons)。”
有些东说念主合计,生成安妥东说念主工智能需求的有序数据的最好形貌是制定实验运行和论说的国法。举例,不错从一启动就斡旋疾病和基因的定名,并提前达成实验公约。一个生效的案例是东说念主类细胞图谱(Human Cell Atlas),这是一个于2016年启动的全球样式,当今已以严格圭臬化的行为画图了数百万个东说念主体细胞图谱。这些一致的数据为东说念主工智能算法提供了基础,有助于寻找潜在的药物靶点。
一个名为Polaris的样式——一个用于药物研发的基准测试平台——也旨在匡助算帐和圭臬化机器学习所需的数据集。该样式在2024年底发布了一篇预印本论文,提议了关系指南,并正在征求反馈倡导。
Polaris章程了数据集的基本审核圭臬。举例,数据创建者必须阐明数据的生成形貌偏激适用范围,并明确援用其信息开头。此外,该平台领导研究东说念主员自行查验数据吞并是否存在昭彰的重叠项或不解确的信息。算计化学家沃尔特斯说说念:“咱们还邀请内行对部分公开数据集进行审核,以便向学术界和工业界提供高质料数据的参考。”为了进一步提高数据质料,Polaris还引入了一种认证标章,用于象征那些安妥圭臬的数据集。
帕多指出,淌若不进一步戮力生成斡旋且高质料的数据,那么不息研发更先进的算法可能意旨不大。他默示:“一朝这些‘优质’数据可用,咱们就能在正确的方进取取得快速且权臣的进展。”
二、意志到负面甩手的价值
东说念主工智能磨真金不怕火的数据频繁来自已发表的研究,而这些研究时时更倾向于展示生效甩手,这就导致东说念主工智能在学习时对生物学领域造成了一种诬告且过于乐不雅的领路。举例,已有的研究数据中,更多纪录的是在动物实验中阐扬精良、无昭彰毒性的老练化合物,而对那些失败的化合物纪录较少。因此,东说念主工智能在进行药物发当前,可能会因枯竭大齐荫藏失败的案例,而无法全面评估药物的后劲。
伦敦国王学院的药归天学家米拉兹·拉赫曼(Miraz Rahman)提议了一例这么的偏见问题,即在新式抗生素的研究中,东说念主工智能可能会产生误导性的建议。抗生素要阐扬作用,起程点必须生效参加细菌细胞。好多已发表的研究标明,伯胺(primary amines,一种结构肖似氨的小分子)不错匡助药物参加细菌体内。因此,东说念主工智能若基于这些研究进行分析,就会束缚推选含有伯胺基团的化合物。
但拉赫曼合计,这种推选是不可靠的。他说:“我的实验室如故积聚了大齐数据,标明这并不可行。”可是,这些失败的数据并未发表,导致东说念主工智能无法识别这个演叨,从而不息作念出演叨的预计。
制药公司同样受到偏向于分享正面甩手的影响。“被发表的老是生效案例,”拉赫曼说说念。当公司聘任不公开其负面研究甩手时,呈现给算法的征象就会比实际愈加浅薄、光鲜。
一种惩办行为是从一启动就明确聚积正面和负面甩手的意图。其中一个受到温雅的样式由好意思国加州大学旧金山分校的结构生物学家詹姆斯·弗雷泽(James Fraser)沟通,并由好意思国先进研究盘算推算署(ARPA-H)资助。该样式温雅的是药代能源学(pharmacokinetics),即研究东说念主体对化合物的作用形貌。
一种药物在体内的行止取决于其在体内的招揽、漫衍、代谢和排泄(ADME)。淌若东说念主体打消某种化合物的速渡过慢,可能会带来安全风险。但淌若它被排出得太快,药效可能也会大打扣头。“你不错假想出一个能细腻结合指标卵白的分子,但淌若该分子被赶快排出体外,它就无法行为有用的药物,”该样式的支柱者沃尔特斯说说念。此外,药物还可能与体内的非指标卵白相互作用,从而激勉毒性反应,并减缓或减少药物到达预期指标部位的量。
这些ADME问题频繁在药物研发的后期才表暴露来,可能导致野蛮的失败。“当今的进程就像打地鼠一样,”弗雷泽说说念,“你假想新的分子来排斥一个问题,但另一个问题又冒出来了,玩ag百家乐技巧然后你再围绕它进行优化。”
弗雷泽将他当今的研究称为“avoid-ome”样式,因为它旨在为东说念主工智能器具提供必要的数据,以识别这些潜在问题。该样式的指标并不是生成对于药物靶点的数据,而是研究那些科学家频繁但愿幸免的卵白质。其中枢是开辟一个实验数据和结构数据的数据库,专注于与ADME关系的卵白质结合信息。自客岁10月取得资金支柱以来,弗雷泽的实验室已启动针对ADME的代谢轨范进行测试。
这些研究后果将有助于开发预计性东说念主工智能模子,从而优化候选药物的药代能源学特色。“研究东说念主员将需要合成更少的分子,同期能更全面地评估统共潜在问题,从而更快地找到安妥统共圭臬、不错参加东说念主体检修的药物分子。”弗雷泽说说念。
三、分享行业数据与专科常识
制药公司掌持着大齐数据,包括负面研究甩手,并以圭臬化形貌聚积这些数据,使其更适用于东说念主工智能模子的分析。可是,唯唯一小部分数据被公开。拉赫曼估量,即使是相对灵通的制药公司,也仅公开其数据的15%–30%,而临床检修数据的公开比例可达到50%。
这些数据的价值,制药公司本人诚然深知。2018年,瑞士巴塞尔诺华制药公司(Novartis)的首席实施官瓦斯·纳拉西姆汉(Vas Narasimhan)曾提议,要将公司再行定位为“医药与数据科学公司”,并强调其在新药研发中拥抱东说念主工智能技能的洪志。因此,大多数制药公司对于与学术界或其他企业分享数据持极大的不服格调。
“像诺华这么的大公司——我曾在其中责任多年——领有车载斗量个化合物的测试数据,这些化合物曾被用于评估与特定卵白质的结合情况,”杜兰德说说念,“但他们不肯意与竞争敌手分享这些数据,因为这是他们的中枢钞票。”
四、促进制药公司间的数据分享
为了鼓励制药公司之间的数据分享,Owkin参与了一项欧盟资助的样式——Melloddy。该样式选定联邦学习(federated learning)行为,使十家制药公司约略在不向竞争敌手表示明锐生物和化学数据的情况下,共同磨真金不怕火预计软件。在该样式中,磨真金不怕火模子用来关联分子的化学结构与其生物活性,最终其预计准确性远超大多数公司的现存模子。
可是,并非统共东说念主齐对这一后果感到满足。不同公司选定不同形貌坐蓐的数据,在整合往夙昔会遭遇熟悉的问题。此外,对数据进行匿名化处理可能会裁减其信息的丰富度。“念念要在不露出化学结构及实验行为的前提下整合数据集,这尽头困难。”沃尔特斯讲解说念。
此外,该样式并未改善学术界所依赖的环球数据库近况。学者们深知,光靠恳求是不可能让他们松驰取得制药公司的数据。因此,一些研究东说念主员号令制药公司在数据分享方面阐扬另一项上风——资金支柱。
当今,最具研究价值的数据库之一是英国生物样本库(UK Biobank),该样式系统性地聚积了50万名英国东说念主的基因、生涯形貌、健康信息及生物样本。该样式已取得逾越5亿英镑(约6.32亿好意思元)的资助,但主要资金开头是政府和慈善机构。波士顿东说念主工智能生物科技公司Insilico Medicine的独创东说念主兼首席实施官阿列克谢·扎沃隆科夫(Alex Zhavoronkov)默示,“大型制药公司应该资助像英国生物样本库这么的样式。”
五、充分诓骗现存资源
一些研究东说念主员合计,广阔的数据量和更智能的数据处理不错在很猛进度上克服东说念主工智能在新药研发中的挑战。“只消数据迷漫多,东说念主工智能就能学会怎样进行泛化,”扎沃隆科夫默示。
Insilico Medicine通过整合好意思国政府数十亿好意思元研究资助所产生的数据,将其与学术论文、临床检修、专利以及基因和化学数据存储库相贯穿。“当代东说念主工智能器具不错顾忌某项翻新的开头,致使具体到率先的研究资助样式,”扎沃隆科夫讲解说念。
这些原始数据随后被进一步处理。在Insilico,这一进程包括引入评分机制,举例匡助东说念主工智能算法预计研究甩手的枢纽性或竟然度。“咱们有一款器具,不错评估发表论文的科学家的竟然度,”扎沃隆科夫说,“淌若一个东说念主之前撒过谎,那么他再次撒谎的概率就会更高。”
此外,Insilico还会追踪公司在公布临床检修甩手后的股价波动。淌若股价大幅下降,那么岂论公司怎样表述,咱们齐会合计检修甩手是负面的。
2019年末,Insilico Medicine的东说念主工智能驱动药物研发平台PandaOmics发现了一种针对纤维化疾病的新靶点,该类疾病触及过度的瘢痕组织增生。随后,公司诓骗其生成式东说念主工智能平台Chemistry42假想了约略阻断该靶点的化合物。该算法诓骗ChEMBL等大型分子数据库,学习化学结构的花样,并生成潜在药物。
2023年8月,Insilico完成了一项IIa期临床检修,研究对象为(idiopathic pulmonary fibrosis,IPF)成东说念主患者,这是一种导致肺部瘢痕化的疾病。公司当今矜重营后续检修,而扎沃隆科夫对异日充满信心:“自2019年以来,咱们已笃定了22种临床前候选药物。”
一些大型环球数据池无疑更难被东说念主工智能诓骗。举例,批量RNA测序(bulk RNA sequencing),其数据开头于夹杂的组织样本,因此响应的是多个细胞的基因抒发平均水平。而如今,单细胞测序(single-cell sequencing)被合计更具上风,因为它不错检测爱戴细胞所产生的卵白质,并在组织映命中提供更高的远离率。
可是,扎沃隆科夫合计,不应忽视这些并不竣工的环球数据。他默示:“这些数据必须被重叠诓骗,毕竟如故有大齐动物因此被捐躯,而东说念主工智能需要依赖这些数据进行磨真金不怕火。”他主见创建小范围、高质料的数据集,以用于测试东说念主工智能模子的预计能力,确保其在使用大范围、可能存在劣势的数据集磨真金不怕火后仍能作念出准确预计。
他进一步建议,这些高质料数据应来自自动化实验室,通过圭臬化形貌极端生成某些类型的数据,以提妙手工智能磨真金不怕火的可靠性。
免责声明:本文转自启元洞见。著作实质系原作家个东说念主不雅点,本公众号编译/转载仅为分享、传达不同不雅点,如有任何异议,迎接辩论咱们!
转自丨启元洞见
研究所简介
海外技能经济研究所(IITE)诞生于1985年11月,是附庸于国务院发展研究中心的非谋利性研究机构,主要职能是研究我国经济、科技社会发展中的紧要政策性、计策性、前瞻性问题,追踪和分析宇宙科技、经济发展态势,为中央和辩论部委提供决策征询事业。“全球技能舆图”为海外技能经济研究所官方微信账号,致力于于向公众传递前沿技能资讯和科技翻新洞见。
地址:北京市海淀区小南庄20号楼A座
电话:010-82635522
微信:iite_er