摘要

定量构效关系模型在化工产品设计中发挥着重要作用。基于自然语言处理技术的深度学习建模方法是构建定量构效关系模型的有效方法之一。提出一种基于基团词嵌入模型(Group2vec)的深度学习物性预测框架。首先,建立数据库用于预训练与物性预测。其次,利用基团分割方法,将数据库中分子SMILES文本转化为基团序列。再次,通过CBOW算法将基团序列进行词嵌入预训练,获得包含相似性结构信息的基团向量。最后,基于基团向量构建包含注意力机制的深度学习模型,并在不同物性数据库上进行模型测试,同时将其与现有模型进行比较,对比结果表明基于Group2vec的深度学习物性预测模型不仅具有较高的预测准确性与通用性,也具备一定的可解释性。

全文