williamhill体育网页版智能算法与软件团队崔学峰教授在Big Data Mining and Analytics在线发表了题为Exploring Fragment Adding Strategies to Enhance Molecule Pretraining in AI-Driven Drug Discovery的研究论文,首次提出了FragAdd药物小分子的预训练方法,该策略显著提升了分子的表征质量,为虚拟筛选等领域的任务提供了创新的解决路径。
文章链接:https://ieeexplore.ieee.org/document/10452166
在药物发现领域,研究与开发成本的激增已使得一个新药的研发费用飙升至数十亿美元,过去十年的数据显示这一费用呈现指数级增加。伴随着大数据技术的广泛应用,深度学习技术在加快药物研发流程方面的潜力正受到日益增长的关注,其应用已经扩展到包括化学合成、虚拟药物筛选和创新药物设计等多个交叉研究领域。尽管如此,深度学习技术的效率很大程度上依赖于高质量的标注数据,而这些数据的采集不仅代价昂贵、耗时巨大,有时还难以实现。
FragAdd药物小分子预训练策略示意图
预训练技术通过挖掘大量未标注数据中的基础知识来应对标注数据不足的挑战,这已被验证可以显著提高特定任务的执行效果。在小分子预训练领域,传统方法受限于分子词汇的有限性和结构的非线性特点,这些限制影响了它们在药物虚拟筛选等关键领域的实际应用。为了克服这些挑战,论文提出了一种创新的预训练策略,称为FragAdd(如上图所示)。该策略通过在分子中引入化学上不合理的片段,并训练模型分辨出哪些是分子原有的合理片段,哪些是添加的不合理片段。这一过程有助于模型掌握并领会分子的基本化学原理。
FragAdd显著提高了雌激素受体α抑制剂虚拟筛选的性能
论文将能够解析分子内在基本化学原理的深度学习模型应用于药物小分子的虚拟筛选过程,为验证这一策略的有效性,开展了模拟实验,旨在筛选雌激素受体α的抑制剂。如上述图表所示,实验结果表明FragAdd预训练策略显著提高了模型识别潜在药物分子的能力。与传统的分子指纹搜索方法相比,深度学习无需手工设计特征,而是以数据驱动的方式,直接从分子结构中学习有用的信息。此外,深度学习模型能够识别分子结构中那些复杂的模式和非线性关系,这些往往是传统分子指纹难以捕捉到的。基于FragAdd预训练策略,研究团队正积极研发创新的天然产物药物方向,并已进入湿实验验证阶段。
山东老员工命科学学院2018级本科生孟昭旭(现为美国西南医学中心在读博士生)作为论文的第一作者,在其本科学习期间完成了该研究工作。williamhill官网登录入口的崔学峰教授,作为共同通讯作者,提出并指导实施了FragAdd预训练技术。微生物技术国家重点实验室赵巍副教授作为共同通讯作者,从药物化学的理论与经验上参与了该方法的优化完善。Big Data Mining and Analytics是中国科学院一区学术期刊,具有13.6的影响因子和17.7的CiteScore引文评分。该期刊专注于挖掘和分析庞大的数据集——包含生物学领域的大数据,旨在揭露其中隐匿的模式、关联性、深刻见解以及知识。
(文:崔学峰、赵巍、孟昭旭 审核:于东晓 责任编辑:宋曙光、李雅洁 供稿单位:williamhill体育网页版)