基于生成式预训练语言模型的学者画像构建研究

作者:柳涛; 丁陈君; 姜恩波; 许睿; 陈方
来源:数字图书馆论坛, 2024, 20(03): 1-11.
DOI:10.3772/j.issn.1673-2286.2024.03.001

摘要

大数据时代,互联网中以多源异构、非结构化形式存在的学者信息在实体抽取时伴有属性混淆、长实体等问题,严重影响学者画像构建的精准度。与此同时,学者属性实体抽取模型作为学者画像构建过程中的关键模型,在实际应用方面还存在较高的技术门槛,这对学者画像的应用推广造成一定阻碍。为此,在开放资源的基础上,通过引导句建模、自回归生成方式、训练语料微调等构建一种基于生成式预训练语言模型的属性实体抽取框架,并从模型整体效果、实体类别抽取效果、主要影响因素实例分析、样例微调影响分析4个方面对该方法进行验证分析。与对比模型相比,所提出的方法在12类学者属性实体上均达到最优效果,其综合F1值为99.34%,不仅能够较好地识别区分相互混淆的属性实体,对“研究方向”这一典型长属性实体的抽取准确率还提升了6.11%,为学者画像的工程化应用提供了更快捷、有效的方法支撑。

全文