面向知识获取的电力科技领域语言模型研究

作者:徐翀*; 王其清
来源:电力信息与通信技术, 2023, 21(04): 31-36.
DOI:10.16543/j.2095-641x.electric.power.ict.2023.04.05

摘要

为克服电力科技文本专业化、跨学科特点给知识获取带来的挑战,提出构建电力科技领域语言模型,实现更准确的文本表示。文章收集大量电力科技论文、专利、项目等文本,基于Transformer模型预训练得到领域语言模型,设计电力科技术语分类和电力科技远程监督实体关系抽取2类知识抽取任务进行模型验证,实验结果表明,所提领域语言模型在术语分类任务上的F1分数较word2vec基准模型提升超过10%,在实体关系抽取任务上的AUC分数比BERT语言模型基准模型提升约2%,所提模型有利于为下游知识获取任务提供更高质量特征表示。

  • 单位
    国网能源研究院有限公司

全文