摘要

数学公式解题任务要求模型根据数学问题生成表达式用于解答。该任务的主流方法是将目标表达式当作文本序列来生成。然而,这一设定导致模型忽略了表达式树作为树形结构所带有的偏序关系,如交换律、分配律等。这不仅降低了模型对表达式生成的学习效率,也减弱了模型的泛化能力。为解决这一问题,该文提出一种基于对比学习的表达式偏序关系建模方法。该方法的核心做法是在模型训练时,对表达式树做微调扰动,产生和原有表达式等价和不等价的正样本和负样本,并通过对比学习最小化原式和等价式子之间的距离,且最大化与不等价负样本式子之间的距离。在公开数据集Math23K和MAWPS上的对比实验表明,该文方法相对于基线模型具有显著性能提升。