燧坤智能CEO曾亥年：AI制药是未来药神，还是虚假繁荣？丨万字长文

时间: 2021-07-30 06:32:42

盘点互联网的前十年，电子商务绝对是那个时代最耀眼的产业，也更是各个互联网企业的首次集体站队。

彼时，卓越亚马逊、eBay等平台在海外的巨大成功，以及新物流市场的全面起步，让电子商务成为国内最大的红利市场。

而当初京东、淘宝、苏宁的那次集体站队，不仅创造出了BATJ的巨头格局，甚至当初的规则还影响着现今的互联网商业模式。

如今，AI新药研发的美好前景，也开始触发巨头和新创业们的再次集体下注。

在这一切还没尘埃落定之前，少年版本的AI新药研发真的会如己所愿成为新的造富时代，还就只是一场虚假的泡沫神话。

近日，雷锋网《医健AI掘金志》以“AI制药·下一个现象级赛道”为主题，邀请燧坤智能、英飞智药、宇道生物、西湖欧米、华为云，五家先锋企业，举办了一场云峰会分享。

作为此次论坛的演讲嘉宾，燧坤智能CEO曾亥年，以《人工智能重塑生物医药研发的现状与展望》为题，进行了演讲。

曾亥年表示：如今人工智能应用已经拓展至各个行业，例如围棋、计算机图像、医学影像、安防领域等等，而在新药研发领域，通过阿斯利康、AlphaFold2等药企和AI公司的推动，也渐渐成为共同追捧的热点。

但AI+制药在创造巨大前景的同时也存在许多挑战。

例如，美国著名药化学家Derek Lowe，近日就对于AI制药企业Exscientia和住友集团合作研发的针对强迫症的创新药——DSP-1181发难。

首先，Derek 认为这个分子虽然是 AI辅助研发出来的药物，但不一定能够解决靶点本身和临床生物学不清晰的问题，而且新分子发现也并不是药物研发的限速步骤。

其次，Derek 表示，已经有大量类似小分子被发现，所以把小分子用在OCD适应症领域的想法并不是新的创新。

最后，AI并没有解决临床失败率大于90%的问题。

以下是演讲全部内容，《医健AI掘金志》做了不改变原意的整理和编辑：

大家好，我是燧坤智能的CEO曾亥年，教育背景包括生物学和化学。

本科在复旦大学学习生命科学，之后在美国有两段学习经历：分别主修植物化学，涵盖分析化学和分子生物学，另一段学习经历是美国FDA注册法规。

回国之后做过一段时间BD & licensing，然后做过两年时间创新生物药投资，也算是生物药行业一个从业者。

2019年我加入燧坤智能，成为燧坤智能CEO。

今天很荣幸能够用一个小时，在这里聊一下人工智能如何重塑生物医药行业，用具体案例讲述行业现状和面临的挑战，并且和大家一起展望行业的未来。

首先有个声明，今天所讲的东西很多来自于网上，不代表公司立场，更多的是站在一个全局角度，探讨人工智能和生物医药两者结合的现状。

大家应该还记得，2018年电影《我不是药神》在国内上映。看过这部电影的人基本上都会哭。

电影主要讲述的是这样一个故事：由于新药研发的前期投入很大，成功率很低，因此批准上市新药的定价往往非常高，这就造成国内许多重症病患，无论是吃药还是不吃药，都是一个难以取舍的抉择。

如果吃药，很有可能就会吃得倾家荡产；如果不吃药，就基本上是放弃生命选择死亡了。这是一个非常悲伤的故事。

这部电影对于医药行业算是反面的教材。医药行业就是以病人为中心，以临床需求的满足为中心，去解决病患无药可用、用不上药和用不起药的问题，也就是可及性和可负担性的问题。

所以，在今天给大家分享的主题下面，我写了一小行字：让药神被AI取代。

今天的分享分成四个部分：

第一部分是背景，将一些概念厘清；

第二部分是现状，通过案例讲述人工智能具体应用以及面临的挑战；

第三部分是展望，说说未来人工智能如何改变整个生物医药研发；

第四部分是公司的情况。

技术革命，AI能否“取代药神”？

这张图我相信大家都有看过，映射《我不是药神》里着重凸显药价过高的问题，主要源于新药研发三个大问题：失败率高、投入高、耗时长。

我在刚入行的时候，在美国问过一个新药研发科学家，“为什么药物研发那么难？”

他肯定觉得很奇怪，作为一个行业里的人，怎么连这个问题都不知道？但是他直接就回答我，说“如果你有答案，一个解决方案，那么你的解决方案至少值百万美元。”

这里面的失败率，我们写的是90%，其实远远不止90%。因为做任何一款新药，能从临床前推到临床，也就是推到人体实验，基本上都是要万里挑一，甚至有可能是百万里挑一。

这样的一个失败率远超90%，投入成本还要考虑到大量研发失败的药物，这些成本也要摊薄在一个成功上市的药物上，所以整个投入费用非常高。

还有耗时，耗时大家好像没有什么概念，大约是9~15年时间，而任何一个药物上市，专利只有20年时间。

这意味着在上市之后，药物能够在市场上独家做销售时间非常短。

这也是为什么药物，尤其是一些非常罕见的急重症新药上市之初就会面临药价非常高的市场现状。

这是一个必然，企业必须在短暂的专利保护期内将前期研发投入全部收回，此外还必须有一定盈利。

正因为存在这三个问题，整个行业一直在追求全新技术手段解决难点。

其中有一个技术手段行业逐渐重视起来，人工智能，其实分两大块：

一块可以理解成是简单的、以规则为基础，去制定相应的或者开发相应的模型；

另外可以用几个关键词笼统定义（连接主义、大数据、机器学习等等。）

大家想象一下，这相当于教一个小朋友，给他看几张猫、狗照片，然后让他试图理解什么是猫，什么是狗，接下来，他很有可能就判断出什么是猫，什么是狗。

这样的学习能力，就是基于数据判断学习，这样的学习也是狭义人工智能定义。

但大家记住核心还是基于大数据的机器学习模型，基于大数据的人工智能模型。

广义AI有一套基于CADD工具，也有一套基于机器学习的工具，这两套工具在不同维度区别非常大。

对于AI来讲，它是基于大数据的机器学习，进一步做相应特征提取、模式识别。然后这些识别结果可以应用在不同的、全新靶点或分子形态。

因此，我们需要有大量训练数据集建立这样一个模型。

而CADD不太一样，这套理论更像人工智能这一宽泛概念中，基于规则的，尤其是基于物理学规则，如量子力学规则、牛顿力学等规则的模型，这样模型更多运用在计算自由能、势能等物理参数上。

并且，CADD不是一个庞大训练数据集，而是在特定靶点或化合物上有相应数据，如蛋白质靶点结构相关数据，像共晶数据，然后再基于CADD模型搭建构效关系就会更加准确一些。

AI和CADD在算力方面要求也不太一样，AI对于算力要求其实相对比较低的，但通量比较高。

同时因为AI训练数据一开始就是几十万到几百万条，所以精度相对较高。例如计算百万级别小分子，基本就是几个小时，最多也就是几天时间。

而CADD需要的计算算力往往与计算精度成正比，精度越高，算力要求也就越高。

例如计算一个自由能扰动，或者用量子力学计算，需要12个小时甚至几十天时间才能完成。所以CADD和AI机器学习在算力要求方面的差别还非常大。

另外还有两个关键差异：

一是迭代优化，AI可以随着计算数据量不断提高，甚至这些数据不需要同一个靶点，只要随着数据不断增加，模型精度就会得到不断提升。

而CADD通常情况可以直接从头做计算，但从头计算对预算要求也很高。

另外，如果不做从头计算，CADD就需要一些已有实验数据、已有共晶结构，甚至大量结构信息和亲和力数据信息给到软件，不然构建出的模型就不会准确。

这里就有一个悖论，在大量数据情况下，商业价值就会相对较低。

第二是应用场景，由于人工智能模型、机器学习模型基于数据驱动，所以一般能够做大量基于生物学预测，如选择性、毒性预测和成药性等，所以人工智能模型、机器学习模型应用潜力更大。

而CADD更多还是基于计算化学模型，所以在生物体内几乎没有什么应用场景，这是AI和CADD在算法路径上的不同点。

回过头来看，人工智能已经在很多领域里有了非常多应用。大家可以看到有围棋、计算机图像、影像识别、安防领域的广泛应用。

在新药研发领域，这个应用也非常明确，就是通过大量数据做特征提取以及模式识别。

所以人工智能在生物医药领域中，在新药研发各个环节都可以有大量应用，无论是药物早期发现、靶点发现，还有临床前研究、临床实验如何挑选合适病人，以及药物上市之后如何拓展相应适应症、拓展药物全新靶点都有巨大应用价值。

竞相试水，大药企为何拥抱AI？

讲完了背景，接下来我想跟大家介绍几个案例，也就是具体现状。

第一个是阿斯利康。

今年3月，阿斯利康在他们的open day里提到小分子新药研发管线中，目前有超过50%项目使用了一部分 AI工具。

由于阿斯利康应用不同AI以及数据科学工具，所以他们公司在新药研发领域里整体成功率显著高于行业平均水平。

行业里面平均需要用三年时间，而阿斯利康只需要用一年时间；行业里平均需要合成几千个小分子化合物，但阿斯利康只要合成1/3到1/5数量的小分子，成功率远高于行业平均水平。

另外，阿斯利康也和AI公司开展广泛合作，比如和BenevolentAI合作，通过疾病知识图谱发现新靶点，再基于新靶点寻找候选药物。

同时，阿斯利康也有两个不同的AI工具，一个是REINVENT，做虚拟筛选；另外一个是AiZynth，做逆合成路线设计。

现在已经有越来越多药企尝试和AI公司，在不同领域开展合作，除了小分子领域，大分子领域里也有药企向AI公司抛出橄榄枝，尤其是新冠疫苗。

其中Moderna就利用了AI和machine learning高效开发新冠疫苗，应用主要有三块：

第一，评估病毒逃逸，即对于免疫逃逸或者疫苗逃逸；

第二，通过人工智能模型在设计疫苗时针对密码子进行优化，即codon optimization；

第三，对mRNA结构做优化，可以达到两个效果，一个是mRNA二级结构相对稳定，更利于翻译；另外翻译时候能够提高蛋白质产量，使得免疫诱导和免疫激活处于最强水平。

除了刚才提到两个案例，去年还有一篇非常重磅的文章，介绍MIT的James Collins课题组成果：通过人工智能发现全新抗生素。

这项成果有一定运气成分，他们所构建的模型其实是基于一个非常小的样本，只有2000多个化合物，而且仅仅针对大肠杆菌。

他们就是在这样一个小样本数据中构建模型，再放到6000多个化合物库做虚拟筛选，最后在前99个分子中找与传统抗生素非常不一样的分子。

他们最后找到一个分子，也就是Halicin，这个分子与其他抗生素确实长得不一样

大家可以关注到它与其他抗寄生虫或抗真菌类药物比较接近，如甲硝唑。

完成虚拟筛选之后，进行大肠杆菌抑菌实验，发现它的抑菌效果还不错，再拿这个分子针对其他耐药革兰氏阴性致病菌做相应抑菌试验，发现也有抗菌活性。

因为从一开始建立机器学习模型的时候，并没有考虑抗生素结构本身，而是考虑抗生素结构相关性，正是因为没有考虑到这个机制，所以他们找到了 Halicin。

这是一个完全不一样的抑菌机制：通过破坏细菌细胞膜上维持电化学梯度能力来杀死细菌，也就是这个分子把细菌质子泵能力给破坏，导致细菌没有办法产生能量，进而导致死亡，所以对于耐药致病菌也有一定效果。

这也证明机器学习模型、人工智能模型在新药研发中，哪怕是在数据量不够情况下，依然有希望找到非常好的候选药物。

两起争议，AI+制药是虚假繁荣？

下面两个案例在网上存在较大争议。

这篇文章是2019年6月份发表于Nature Biotechnology上的。

当时这篇文章在业界很轰动，因为国内传播这个文章时，用到标题是“AI在21天/46天获得先导化合物”。

这样一个标题让传统药化界为之一震：居然能够那么快速度拿到先导化合物？

但美国非常有名的药化学家Derek Lowe，也是生物医药行业评论家，却提到了几个观点：

第一，这个分子还需要进一步做优化，换言之这只是一个先导化合物，并不是PCC。

第二，这样一个分子其实和药化学家看一眼就能想到分子改造非常接近，他这里写的叫“too obvious”，这还有另外一个内涵（就是专利里很可能已经覆盖掉这个分子，所以并没有专利空间。）

第三，对应上述提到的“too obvious”，他只是把一个羰基变成一个异恶唑。

我觉得这个变化不同人可以有不同的观点，但不管怎样，至少看上去结构整体相似度还比较接近。

所以Derek Lowe就认为，整个流程并没有能够真正证明，AI确实能够把这个流程应用在不同领域里面，从而找到一个最好的化合物。

这其实还有一个问题，整个流程里用到大量针对DDR1靶点的小分子配体，大概有几百个到几千个。

大量数据构建一个模型，最多做出来的也就是一个me too、me better，连fast follow可能都不算，更不用说first in class。

那这个流程是不是真的能够应用全新的、数据量非常少的靶点上做相应药物发现，或者快速找到先导化合物，这其实是非常存疑，这也是这篇文章有争议的地方。

还有一个是关于行业里面炙手可热的一家企业（Exscientia），这家公司一直有大量新闻报道，最近这段时间也有一个药物启动临床实验，和住友一起合作研发针对强迫症的药——DSP-1181。

Derek Lowe对此也发表评论：

第一，他认为这个分子虽然是AI辅助研发的药物，但不一定真的能够解决掉靶点本身，或者生物学不清晰问题，并且他认为新分子发现也并不是药物研发的限速步骤。

第二，Derek表示已经有大量类似小分子被发现，所以把这些小分子用在OCD适应症的领域想法并不是全新。

第三，Derek认为AI并没有解决临床失败率大于90%的问题。

我觉得Derek可能混淆了AI在药物研发中起到一个主要作用，相信AI更多地是被用来判断这个分子是不是适合OCD适应症，以及适应症对应的靶点。

它本身不能解决靶点和适应症之间生物学问题，或者临床失败率高问题，AI更多地还是站在靶点、小分子之间关系去解决第一步—即药物发现。

所以在这个疑惑上，我觉得Derek可能对于AI期望太高，勉为其难。

挑战预测，AI互补生物学认知

接下来简单谈谈逆合成。

从前两年一直到今天，整个业界已经有越来越多人关注逆合成，国内好几家公司在用不同逆合成工具。

但大家对于逆合成普遍判断都是对于已有、明确有具体反应路径的分子，逆合成效果非常好。

因为它相当于计算机记住了所有反应路径，以及这些反应路径每一个原料、底物、价格、反应的得率。

所以当给到一个它见过的分子，逆合成路径推荐是非常快速。

但我们经常遇见都新分子，像现在的新药研发，无论是做fast-follow，还是first in class，为了有自己的专利空间，设计出来的一定是全新分子，甚至之前从来没有人报道过。

而这样一个分子合成路径一定是新的，此时计算机再做推荐就会存在一定问题。

所以我们得到的反馈是，大家认为从逆合成角度，现在能起到作用还相对有限，但我们相信在不久将来，逆合成预测一定会做得越来越好。

现在单步反应已经做得很不错，在未来多步反应一定也会做得越来越好，而且能够把不同维度信息全都整合进来，包括原材料成本和可及性等相关信息。

我这里还想讲的是关于hERG预测。

我们拿过自己的数据做相应实验，最后得到的结论就是，目前主流的hERG相关模型准确率都不太高，相关性基本在0.1~0.2之间。

为什么会出现这个问题呢？

这与一开始模型建模有很大关系，也就是训练数据集虽然是对的，但模型总体的框架思路，并没有真正做好相应特征提取和模式识别，导致计算机基于这样一个数据集“学歪了”，或者有一定bias，后面预测就会出现大量问题。

我相信随着对于hERG本身生物学认知的提升，以及更多训练数据集，模型最终的整体相关性会得到不断提高。

还有一个案例和肝脏毒性相关，就是药物诱导肝脏毒性 drug induced liver injury。

熟悉药物诱导肝脏损伤会知道，在做动物模型、细胞模型，还是做酶动力学实验时观测点完全不一样。

但建模时候到底用什么样数据，用什么样算法框架分析学习数据，其实需要不同算法模型团队，需要基于自己判断认知去做相应模型。

这里很容易把不同数据混到一起，导致模型什么都没有学到，或者对将特定数据类型建立一种模型，但预测却是另一个类型。

例如，想做生化实验数据模型，但我想预测细胞水平数据，这样很有可能会南辕北辙。

所以在这个领域中，算法模型、机器学习模型、人工智能模型一定要根据具体数据集、具体问题做相应调整。

还有抗原选择预测，我们在新冠期间针对新冠病毒做过大量MHC I表位结合预测，其中几个地方需要大家关注：

第一，人类其实有不同MHC表位，这些不同MHC表位在每个人发生率是不同的。

所以我们输血时候要分血型，如果是器官移植则还要看亚型，不同MHC或HLA型对应表位亲和力越好，或者表位被呈递展示出来可能性越好，其实会很不一样。

举个例子，有一段表位在两个不同亚型人种亲和力不同，相差10倍也就意味抗原设计时候要考虑生物学本质问题，不能简单认为某一特定HLA亚型最优表位，直接做抗原选择。

除此之外，还要更多考虑本身表位生成是否符合自然法则，以及当表位生成之后，怎么设计整个抗原，应该把不同表位串起来，还是直接就用一个完整S蛋白。

还有一个点RBD排序并非最高，我看一个文献，写到RBD起始氨基酸是300多到500多，并没有出现在前10名。

现在有很多疫苗用到的都是RBD表位，那是不是我们应该用一些其他表位，或者其他抗原去设计新冠疫苗，尤其考虑到有效激发细胞免疫。

这也是从人工智能角度，反过来可以给予我们生物学角度在疫苗设计上的反思。

另外通过密码子优化增加蛋白质表达量，还要考虑问题就更多，例如密码子优化模型在某一个蛋白质能做到最优同时，在其他蛋白质是否也能通用。

另外，影响蛋白质翻译因素也有很多，这些是不是都已经考虑进来，还是只考虑了一部分。

在做蛋白质的密码子优化时，还考虑产量、蛋白质稳定性的关系，这些都是人工智能模型构建过程中需要解决的问题。

展望：AI的短期及中长期潜能

AI在整个生物医药领域应用中，大家可以听到很多概念，包括探索更广泛化合物空间、从大量数据里学到很多规律再反哺不同领域，以及应用在全新靶点或全新分子角度再提高效率等等。

其实真正判断人工智能模型应用价值角度有很多，下图右侧是简单罗列一些，当然，这些都是基于自己的一些观察，不一定完全正确。

我们相信短期人工智能跟生物药结合，更多还是人脑和机器，或者human Intelligence和artificial Intelligence之间的协作互动。

这个图大家看到过很多次是DMTA的流程，从开始设计（Design），然后把实验做出来（Make），再做测试（Test），再做分析（Analysis），最后反过来的一个循环。

人工智能在建模时候远比大家想象要复杂，很多人可能以为人工智能建模，就是我有很多数据，再建了一个模型，然后就很容易到达终点。

其实不是这样，真实大数据分析是反反复复、起起落落，有很多问题，很有可能建出来的模型既没有学到合适特征也没有学到应有模式，预测出来全是瞎猜，甚至可能比丢硬币准确率还要低。

这个时候就需要大家回过头来看一下，究竟是什么地方出了问题，是最早的需求出了问题？还是数据本身出了问题？数据清洗出了问题，还是最后对于整个数据的建模错了、框架、算法选择错了？抑或是特征工程用错了？或者整体判断标准和判断依据错了？

所以建模过程非常复杂，这也是为什么在短期内我们依然需要Human Intelligence和artificial Intelligence一起来协作，才能最终达到生物医药研发上效率提升。

AI和生物科技在新药研发领域里面的深度融合内容基本上这个表里都框进来了，大部分聚焦在候选分子的发现或者优化上。

这些优化已经不仅局限于小分子，可以是多肽、表位抗体抗原选择、疫苗，也可以是生物大分子药物。

除了这一块，临床前大量研究也可以跟人工智能相结合。

临床实验中，AI可以去找到相应生物标志物，包括对一些病人分析以便我们找到对应病人，进而找到相应诊断方法，最后能够使得临床实验成功率得以提高，病人受益更多，不良反应更小。

还有药物再利用，单用也好，做联合疗法也好，也包括最简单直接快速利用人工智能算法、模型、脚本、爬虫做信息聚集和综合，构建知识图谱，最后还能汇总起来给到科学家快速做判断，这就是计算机一直以来的关键作用。

中长期来看，人工智能是全面整合到或者说是赋能生物医药的各个阶段的：

第一，能够通过人工智能提升疾病认知，包括衰老认知，包括与干细胞相关、再生医学相关。

第二，能够拓展疾病治疗创新平台，和不同、全新的一些therapeutic modality合作，不仅仅是小分子，可以是多肽、大分子，多肽+小分子、单抗的大分子，各种各样的核酸类药物。

这里有一个小例子，AI在肿瘤治疗领域的应用。

从一开始靶点发现，到药物发现，最后确定联合疗法，哪些病人哪些药物是最有用，以及如何确定给药剂量，整个流程都是可以用到人工智能、机器学习模型去起到相应辅助赋能、提升效率作用。

最后介绍一下我们公司的情况。

我们还是一个初创型企业，于2018年9月份在图灵人工智能研究院帮助下孵化成立，公司注册在南京。

现在在北京有自己人工智能算法研发中心，在上海有新药研发中心和商务中心，整个技术团队拥有可以从0~1建模能力。

因此，我们过往无论是学术上还是研发上，其实都有大量优良track record，可以做大量模型从0~1的从头开发。

我们自己也有很多软件著作，包括已经申请了的好几个模型的专利。小分子全球PCT专利已经提交两个，后续也在写几个新小分子专利。

我们和其它 AI公司不太一样在于，我们不聚焦计算化学或者物理化学上，我们更多聚焦在多领域。

例如刚才提到的小分子、多肽大分子等，我们都有相应模型可以覆盖到，而且我们也有能力为 CRO、为新药研发做相应模型建立。

我们现在合作单位已经超过20家，自主研发项目超过8个。

整个新药研发的流程是非常漫长的，都是串联的过程，我们现在在做的事情其实是在降本增效，通过人工智能平台和不同合作方合作，赋能创新生物医药的研发。

我们相信未来非常短时间里，也许是3~5年就能够重塑整个生物医药的研发流程，通过这样一个生物医药研发流程重塑再造。

我们可以真正提升新药研发效率，从而实现(让药神被AI)。

问答环节

Q1、AI公司的数据来源一般从哪里来？

曾亥年：一般情况下大家都是几个来源：

①公开数据。公开数据现在已经有很多了，但有几个注意事项：

一个是公开数据的质量很有可能是有一定问题的；

第二，公开数据其实会有大量的数据缺失，甚至会有一些隐藏的标签，而这些标签会导致建模的时候出现一个虚高的模型准确率。我们曾经有用过某一个数据库里面的某一个类型的数据，我们觉得这个数据是蛮好的，但是用完之后，模型建完发现结果异常契合，这里面一定是有隐藏标签的，这并不是一个真正的那么好的预测结果。所以像这种公开数据，大家一定要当心；

②自己实验数据；

③我们通过合作方会去做的一些数据。其实像我们公司还会关注专利里面的一些数据，然后这些专利的数据我们自己有一整套高通量、大批量的自动化提取数据的工具，所以这些数据也可以拿来作为训练数据。

Q2：AI的靶点发现怎么做？

曾亥年：新靶点发现是很难的，新靶点发现，尤其现在一般情况下，我认为分两种，一种是靶点本身是一个信号通路里，但信号通路可能以前大家不关心。

但通过大量数据组学分析之后，找到这个靶点，还有从肿瘤角度，可能尝试更多寻找突变靶点，这也是从多组学数据寻找。

Q3：似乎部分药企也有自己AI建模的能力（刚才提到阿斯利康50%的流程都用到AI），那药企愿意为面向燧坤这样的AI+制药付费吗？药企是不是更倾向自己建模？

曾亥年：我们有碰到过不同的两种公司，一种公司是愿意花钱的，而且他不仅是愿意建模，也愿意通过建模得到一系列asset，还愿意分享一部分ownership。

但也有企业不愿意做这方面付费，所以这在商业环境里面永远是有区别的。

如果大家关注大药企，尤其是欧美药企和AI公司合作，基本都上都是付费，而且金额都不少。

Q4：NLP的summarization可以实现到什么程度呢？AI可以总结提炼上万篇论文的精髓，然后给一个问题的解决方案吗？

曾亥年：其实可以实现很细，例如可以做到药物分子靶点、适应症、不良反应、药物互相作用，甚至用具体哪一个assay来做相应数据分析实验验证。

用什么样细胞模型，用什么样动物模型， NLP可以整理到非常细，当然这取决于每一个团队本身能力。

NLP只是一个大概念，不是随便去网上扒NLP工具，就能把这些东西都做好，这中间还是有大量训练过程。

Q5：跟生信相比做多组学分析的区别在哪里？

曾亥年：生信是很有可能可以找到成千上万个不同关键点，就我们统一都叫biomarker，这些biomarker如果都去分析的话，时间精力会很多。

从计算机角度，从AI角度，它可以基于一系列biomarker找出他认为最重要的几个关键生物标志物，然后再通过这些生物标志物，或者说是靶点、某些信号分子、一些factors再去做进一步分析。

而且当组学数据足够多的时候，生信分析起来是很痛苦的，计算机机器学习模型会更快一些。

Q6：真实世界数据研究在 Ai药物研发中的价值和局限性？

曾亥年：今天没有讲真实世界数据，其实真实世界数据在整个药物研发中起的作用非常大。

我们曾经做过和苏大附属儿童医院合作的项目，主要是儿童急性T细胞白血病用药预后。

标准疗法中会使用一些激素药物，但是会有一部分小朋友其实没有响应，如果用药前能够判断是否有响应，在临床上会很有帮助，这是一种类型的应用场景。

还有一种类型在临床上面汇总大量真实世界研究数据之后，很有可能找到最适合某一个特定药物一群病人，或者对病人去做分类，然后找到对应biomarker，最后这个biomarker可以作为一个伴随诊断的工具。

还有一种可能性是通过大量组学数据，反过来再去找老药新用机会，这个其实是一个特别复杂的问题，需要和生物学家，临床医生一起讨论。

Q7：数据来自文献，数据的可靠度如何解决？

曾亥年：通常情况下，如果我们都用是IC50的数据，尽管他用的测试方法可能不完全一样，但我们默认只要都是biochemical assay，不是cell-base的assay，应该都是基于酶动力学、基于酶活去做的相应的一个测试，这个数据还可以通用。

但这可能存在不同批次之间所得数据也可能会不一样问题。

所以这个问题其实是从建模角度确实是一个挑战，好在通常情况下 biological variance不会那么大，背景噪音从大数据角度也可以忍受。

Q8：deepepMHC是已经发表的吗？

曾亥年：MHC模型大家如果关心的话，可以查到蛮多团队开源模型，但我站在生物药行业角度，这些MHC模型还有各种各样问题，其实在刚才的幻灯片里面有简单提到过。

Q9：Alpha fold价值多大？

曾亥年：我不想在这里引起很大的一个争议。但很早以前，我们其实在不同的场合讨论过这个问题，Alpha fold2是不是 AI或者计算生物学里面的一个奇点事件。

其实站在我的认知范围内，我认为是一个奇点事件，但这里有一个问题，其实有很多蛋白质不是因为没有结构做不出药来，而是因为即使有了结构，我依然做不出药来。

所以Alpha fold奇点事件确实对于无论是新药研发也好，还是生物医药生命科学领域的研究也好，都是有非常大帮助。

但他们要做的工作还很多，比如第一个，现在能做到还原成为一个snapshot，就是我给你一段序列，你告诉我蛋白质应该长什么样子，三维结构应该是什么样子，对应其实是一个晶体衍射结构，或者是一个冷冻电镜结构，这还仅仅是一个snapshot，一个固定静态的结构。

其实真正要关心的是蛋白质的动态结构，或者说是蛋白质和其他的小分子，以及配体，包括多肽，其他的蛋白质复合物里面的component，它们之间的互相作用，这是一个动态的过程。

这个过程其实需要技术，包括计算，还要比现在Alpha fold2更进一步，所以留给我们后来要做的事情还有很多。

Alpha fold2是有价值的，但是这个价值，这个拐点事件后面要走的路其实还很长。

Q10：PPT提到药物临床失败率高达90%，但是恒瑞等公司临床成功率接近100%，请问是什么原因？为什么差别这么大?

曾亥年：其实国内临床成功率高主要原因是大家基本上都是做fast-follow，做fast-follow的成功率是比较高，而做first in class成功率是很低的。

Q11：未来AI制药主要商业模式还是里程碑吗？还是更多会变成自己做管线?

曾亥年：这个没有非黑即白商业模式。CADD元老级公司薛定谔商业模式最早时候是卖软件，后面除了卖软件也去换一个小公司 startup的股权。

大家都调侃说可能嫌这个股权拿太少了，所以他们就改自己做pipeline了。

所以您看一个公司30年的公司从最早卖软件到最后自己做pipeline，其实这中间也没有什么对错，包括我在PPT里面有提到 Exscientia。

那家公司其实是一个纯 CRO企业，很有可能他们以后也会自己去做管线。我觉得没有一个非黑即白的商业模式在里面。

凡是要跟生物药结合，

平台可以非常棒，但最终你一定要做到具体drug candidate，无论是小分子、大分子、多肽，但你一定要做到一个candidate，然后要把 candidate推到临床，真正解决临床上的问题，才是有意义的。

Q12：90年代硅谷曾经流行过一轮IT+BT？

曾亥年：有位老师提了90年代硅谷曾经流行过IT+BT。其实CADD最早时候诞生于80年代末，90年代初。

30年时间，CADD发展到现在有很大突破和飞跃，但我认为没有达到当时整个行业对它的一个预期，因为CADD第二个D是design，不是discovery，是computer aided drug design。

如果大家在药企里面待过，其实也知道做CADD的人在药企里面其实是往往依附于药化部门或者data science部门，这很尴尬。

现在因为CADD和AI深度融合之后，随着IT+BT整个发展方向和趋势，我相信会带来很多不一样的东西，因为 machine learning能够做到很多原先CADD做不到的东西。

所以在这一块，我们整个 AI+生物制药行业里面小伙伴们应该都有这样信心，真正去做一些事情。

最后，感谢大家参与这次的交流。雷锋网雷锋网(公众号：雷锋网)

雷锋网原创文章，未经授权禁止转载。详情见转载须知。