摘要
药物合成反应,特别是不对称反应是现代药物化学的重要组成部分。化学家们投入了巨大的人力和资源来识别各种化学反应模式,以实现高效合成和不对称催化。量子力学计算和机器学习算法在这一领域的最新研究证明了通过计算机学习现有药物合成反应数据并进行精确虚拟筛选的巨大潜力;然而,现有方法局限于单一模态的数据来源,并且由于数据少的限制,只能使用基本的机器学习方法,使它们在更广泛场景中的普遍应用受到阻碍。因此,提出两种融合多模态数据的药物合成反应的筛选模型来进行反应产率和对映选择性的虚拟筛选;并给出了一种基于Boltzmann分布进行加权的3D构象描述符,将分子的立体空间信息与量子力学性质结合起来。这两种多模态数据融合模型在两个代表性的有机合成反应(C-N偶联反应和N,S-缩醛反应)中进行了训练和验证,前者的R~2相对于基线方法在大多数据划分上的提升超过了1个百分点,后者的MAE大多降低了超过0.5个百分点。研究结果表明,在有机反应筛选的不同任务中采用基于多模态数据融合的模型都会带来好的性能。
-
单位哈尔滨工业大学(深圳); 中国科学院成都计算机应用研究所; 中国科学院大学