摘要
科学文献中蕴含的大量历史数据和经验知识,对材料设计与研发具有重要参考价值.文本挖掘尽管能高效地探索并利用被存储在海量科学文献中的信息,但高质量文本数据的获取困难阻碍了其在材料领域更广泛的应用.本文从品质和数量双视角剖析了材料领域的文本数据质量问题及其相关研究工作,提出高质量的材料科学文本挖掘数据集构建方法.该方法通过可溯源的文献自动获取方案确保文本数据的源头可追溯;以下游任务为驱动对文献进行预处理以提升预标注文本语料的质量;基于材料四面体准则定义适配全体系的标签注释方案以完成对语料的高品质标注;利用融合材料领域知识的有条件文本数据增强模型实现材料文本数据量的扩充.在不同体系数据集上的实验结果表明,该方法可有效地提升下游文本挖掘模型的预测精度,其中在NASICON型固态电解质材料实体识别任务上的F1值达84%.本文为文本挖掘在材料领域的深入应用提供理论指导和解决方案,并有望推进数据与知识双向驱动的材料设计与研发.
- 单位