【VIP来稿】北生所黄牛课题组Int J Mol Sci论文:雪中送炭还是锦上添花——基于靶标结构的虚筛为新药研发贡献了什么?
ComputArt计算有乐趣 2023-01-16 10:26 发表于上海
上世纪80年代初,初出茅庐的计算机辅助药物分子设计 (Computer-aided Drug Design, CADD) 被寄予厚望,《财富》杂志以“Next Industrial Revolution: Designing Drugs by Computer at Merck”的标题盛赞为工业革命。斗转星移,近年来兴起的人工智能辅助药物设计(AIDD)迅速得到资本的追捧,扛起颠覆药物研发的大旗,给人一种似曾相识的感觉。
然而,从90年代到千禧年前后,计算机辅助药物分子设计折戟沉沙,实战能力远不及预期,尤其很少出现在最具有创新价值的先导化合物发现阶段,难以交付有实际应用的结果,朱砂痣成了蚊子血。
新世纪过去这十五年,随着计算能力的大幅提高、新算法的发展以及实战经验的积累,尤其是大量药物靶标结构的解析和筛选化合物数据库规模的迅猛增长,计算机辅助药物分子设计,特别是基于靶标结构的虚拟筛选开始逐步发力,伴随着人工智能的声音,似乎又要重回舞台中央,一时间热闹非凡,白米粒又成了白月光。
将来,是重蹈覆辙,还是一往无前?
夫以铜为镜,可以正衣冠;以史为镜,可以知兴替;以人为镜,可以明得失。
认真地客观地回溯这十五年来虚拟筛选技术的发展情况,到底是虚胖还是strong,才能对这项技术的走向和价值做出可靠判断。虚拟筛选作为综合性的技术,评价标准有很多,也有多篇综述或研究文献从各个方面进行过比较,包括算法、速度、准确性、软件易用性和数据集等等。我们知道,实践是检验真理的唯一标准,检验技术也是如此。虚拟筛选从诞生之初就作为实用技术,在这十五年的实践中,它究竟真正为新药研发交付了什么?
最近,北京生命科学研究所/清华大学生物医学交叉研究院的黄牛研究组在Int. J. Mol. Sci.杂志应邀发表了题为“A Comprehensive Survey of Prospective Structure-Based Virtual Screening for Early Drug Discovery in the Past Fifteen Years”的综述性文章 [Int. J. Mol. Sci., 2022, 23(24),15961]。文章中系统梳理了过去十五年里基于靶标结构的虚拟筛选(Structure-based virtual screening, SBVS)的文献,即采用分子对接的方法从大规模的化合物库中挑选出能够与靶点蛋白结合口袋相匹配的小分子,并进行了严格的生物学验证的419篇文献。遗憾的是我们能收集的资料仅限于已报导的文献来源,无法对工业界没有发表的SBVS的实践应用进行合理评估。然而,我们的分析结果将有助于读者建立起对SBVS的整体认识,并且利用简单的规则就能判断某项虚拟筛选工作的难度高低和质量好坏。
从真实世界新药研发的角度出发,判断虚拟筛选工作的标准很简单——靶新苗新,前瞻可证:
- 靶点的新颖性。研究越少的靶点,已知的小分子配体就越少,虚拟筛选找到苗头化合物(Hit)的难度就越大,因为缺乏可参考的化学结构类型、构效关系以及靶点结合腔穴关键作用残基等信息。但是,新靶点的开发才是药物研发的源泉,是皇冠上的明珠。
- 苗头化合物的骨架新颖性。与靶点已有小分子配体相似的苗头化合物,并不能让药化学家感到兴奋,因为结构修饰本来就是药化学家的专长。差异化的骨架在选择性等各个方面的特性有助于回答以前化合物无法研究的生物学问题,而虚拟筛选的价值在于能够提供全新骨架,把团队带到不一样的化学空间,从而探索未知的生物学效应。
- 前瞻性。重要的是预测,发现靶标以前未知的小分子配体;而不是回溯,重现靶标某类已知的小分子配体,仅仅是对所用的计算工具的验证而已。但预测不等于把虚拟筛选的得分拿去和小分子活性数据做线性回归,在目前虚拟筛选的计算精度下,有效地区分阳性阴性才是虚拟筛选用武之处。
- 生物学验证工作。All models are wrong, but some are useful(所有模型都是错的,但其中有些是有用的)。虚拟筛选也只是模型,需要严格的生物学验证,例如酶活测定、热力学或动力学的结合、复合物实验结构、细胞活性和动物药效模型等等。生物学验证工作的深度,决定了虚拟筛选所能展现的价值。
至于其他评价虚拟筛选的标准,譬如Hit rate,苗头化合物活性等,其实对真实世界新药研发影响不大。Hit rate在不同靶点和不同化合物库千差万别,没有统一的判断标准。对于研究较多的老靶点,再高的Hit rate也没有太大的意义,而对于研究很少的新靶点,即使从上亿化合物库里找到一个两个苗头化合物也是大功一件。苗头化合物的活性找到μM级别的小分子配体即可满足下一步结构优化工作。虚拟筛选能找到nM级别的小分子配体,却是可遇而不求的事情。
那么基于此,这十五年来基于结构的虚拟筛选工作,到底达到了什么样的水平?
首先,我们发现70%的虚拟筛选工作是靶向酶,包括激酶、蛋白酶、磷酸酶和其他酶,其次是膜受体、核受体和转录因子。令人吃惊的是,超过50%的虚拟筛选工作是针对已有非常多小分子配体的老靶标(已知小分子配体数量超过100),只有~20%的工作是针对研究较少的新靶标(已知小分子配体数量少于10)(Figure 1)。截至2020年10月,只有10%的人类靶标有已获得批准的药物或已知小分子配体。由此可见,15年来虚拟筛选对于扩展可成药靶标的贡献并不大。但是,只有针对全新靶标,尤其是很难开发出高通量生物活性筛选的全新靶标,通过虚拟筛选发现和提供生物活性化合物作为化学探针研究细胞和生物体中的靶标功能,才能真正为新药研发做出靶点验证和提供苗头化合物的重要贡献。

其次,对于大家关心的用什么样的软件来做虚拟筛选比较好的问题,我们没有发现对接软件种类与化合物活性或者Hit rate有关联性。但如果比较大规模化合物库(分子库规模>1000万)虚拟筛选,我们发现DOCK 3系列因为速度快且学术免费等原因,在实践中有更多的成功案例报导(Table 2),特别是对于超大规模虚拟筛选(分子库规模过亿)。超大规模虚拟筛选之所以重要,正如相比于湖泊河流,在广阔的大海里我们更有可能发现全新物种,超大规模虚拟筛选有潜力找到全新结构和高活性苗头化合物,例如在虚拟筛选1.38亿个化合物的项目中,发现的D4多巴胺受体的苗头化合物显示出比先前报道更好的生物活性。超大规模虚拟筛选有望成为新药研发的有力工具。

第三,从虚拟筛选找到的苗头化合物分析得知(Figure 3),虚拟筛选在大多数工作中并没有发现高活性的苗头化合物,尤其是全新靶标,以μM级别的更为常见;但虚拟筛选所发现的苗头化合物却与已知配体小分子在化学结构上有较大差异,即使对于那些已经有超过1万个已知小分子配体的老靶点,比如PI3K, SIGMAR1和NTRK1等, 虚拟筛选仍然能够找到多种结构新颖的苗头化合物。在真实世界的药物研发中,苗头化合物结构的新颖性、多样性和可扩展性,与活性相比,对于项目成功推进更为关键。虚拟筛选的价值之一是提供的新骨架结构具有新物理化学和药效性质,帮助团队更好地探索以前化合物无法触及的靶点新生物学功能。虚拟筛选在新药研发扩展化合物新骨架空间上已经做出了重要贡献。

第四,虚拟筛选的结果需要进行严格的生物学验证。缺乏生物学验证的计算预测,无法对真实世界的新药研发产生影响,蛋白和小分子的形状匹配成了俄罗斯方块游戏,还是缺乏趣味性的那种。记忆犹新的是2020年新冠爆发之初,国内外多家科研机构和公司纷纷出场,各种计算预测、“老药新用”,一时间计算无所不能,“神药”天天都有。虚拟筛选的结果通过综合实验进行验证,包括但不限于结构、生化、细胞功能和体内测试。复合物结构的确定是评估结合模式的金标准。我们分析了252个具有较好结构新颖性(Tc < 0.4)的对接筛选,发现17.1%的研究解析了复合物晶体结构,65.8%的研究进行了细胞活性实验,只有9.5%的研究进行动物药效试验。表格3里列出了苗头化合物新颖性强且进行了综合生物学验证的虚拟筛选工作,然而类似工作在过去15年的虚拟筛选工作中占比非常少,说明计算预测和实验验证的融合仍然稀缺,如何打通“计算”和“实验”的任督二脉是产业界急需思考和解决的问题。具有延续性的虚拟筛选工作,才能展现虚拟筛选的价值,才能对真实世界中新药研发产生影响力。
因为配体结合位点高度疏水性,所以传统的ACC抑制剂缺乏成药性。Nimbus公司通过在ACC变构结合位点虚拟筛选130万种化合物,发现了苗头化合物ND-022对hACC1和hACC2的IC50分别为3.9 μM和6.6 μM。基于解析的hACC2和ND-022复合物晶体结构,ND-630被开发成为临床候选化合物,正在进行非酒精性脂肪性肝炎的II期临床试验(NCT03449446)。
虽然FTO蛋白被认为是调控肥胖和代谢的重要靶标,但可以抑制FTO酶活的小分子抑制剂是否具有调控代谢的功能一直悬而未决。北生所黄牛实验室通过虚拟筛选FDA已批准上市的药物,发现恩他卡朋可以选择性地抑制FTO,并且在动物药效模型上显著地降低体重和血糖。基于虚拟筛选的结果和后续的生物学验证,促使开展了研究者发起的恩他卡朋用于肥胖(NCT02349243) 和胃肠道间质肿瘤 (NCT04006769) 的临床研究。
新冠病毒肆虐全球,3CL蛋白酶是抑制病毒复制的重要靶标,以Pfizer为代表,基于酶底物开发肽类、共价抑制剂是当时的主流方向。但是日本盐野义公司独辟蹊径,通过对公司内部的化合物库进行基于结构的虚拟筛选找到了可口服、非共价、非类肽的小分子苗头化合物,对于3CL蛋白酶的IC50是8.6 μM,最终优化得到了临床候选化合物S-217622,并且于2022年11月22日在日本获批上市。据我们所知,是历史上第一个源自虚拟筛选工作的化合物被批准上市,创造了历史。而其他公司或科研院所没有发现这类化学结构的主要原因,我们通过专利查询,发现其化合物骨架是来自盐野义公司内部另一个项目P2X Purinoceptor 2/3 receptor的化合物,而公开化合物库(ZINC)未包含这类骨架结构,说明化合物库的大小和结构多样性的重要性。
激活α2AAR被认为具有缓解疼痛的生物学效应,但已有的靶向α2AAR的小分子都带有很强的镇静副作用。UCSF的Brian K Shoichet研究组通过虚拟筛选2000万fragment-like和2.81亿lead-like的小分子化合物,发现了高活性的苗头化合物(52 nM),而且因为骨架新颖,与蛋白作用方式不同,在动物药效中不仅显示了药效,而且去除了镇静的副作用。

综上,我们发现在过去的15年里,大部分虚拟筛选工作还是局限在老靶点的研究,缺乏对新靶点的探索。但无论是老靶点还是新靶点,虚拟筛选都有可能找到结构新颖的苗头化合物,扩展了化学空间。遗憾的是,大部分虚拟筛选工作仍然缺乏系统的生物学验证工作,但过去15年间也有少数高质量的虚拟筛选工作,对真实世界的新药研发产生了重要影响,推动了临床研究,并且最终创造了历史,有一个源自虚拟筛选工作的化合物成功获批上市。
当然,限于篇幅,我们只研究了基于蛋白结构的分子对接虚拟筛选工作, pharmacophore-based, machine-learning, ligand-based, QSAR model和AI等其他各类虚拟筛选工作并未包含在内。但因为评价虚拟筛选工作的客观标准比较明确,所以可以通过梳理各领域里工作来回答,这项技术究竟为真实世界的新药研发交付了什么?
药物研发中的新技术层出不穷,号称显著提高新药研发成功率的也如过江之鲫。滚滚历史长河,浪花激起泡沫,浪花也淘尽英雄。一项技术从诞生到成长再到成熟,总有其内在的客观规律,无论是同时期与其他技术相比,还是不同时期与自身对照,唯一的金标准还是能否成功交付结果。如我们对15年来工作的梳理,虽然基于蛋白结构的分子对接虚拟筛选技术还存在着各种各样的问题,而且也不是当下最吸人眼球的技术,但重剑无锋,大巧不工,经历过高峰与低谷后,虚拟筛选技术正在抛却花哨与繁复,一步步地夯实能力,对真实世界新药研发的影响力逐渐凸显,并有望持续输出贡献。
所谓,两岸猿声啼不住,轻舟已过万重山。
参考文献
Hui Zhu, Yulin Zhang,Wei Li,Niu Huang. A Comprehensive Survey of Prospective Structure-Based Virtual Screening for Early Drug Discovery in the Past Fifteen Years. Int. J. Mol. Sci., 2022, 23(24),15961. doi: 10.3390/ijms232415961.
转自ComputArt计算有乐趣公众号