摘要

[目的/意义]“文博热”的到来在互联网中催生了大量与文物有关的信息资源,其中大多数以非结构化数据的形式存在,如何从中抽取实体关系是进行信息资源深度利用、传播文物知识、弘扬中华优秀传统文化的基础。[方法/过程]文章提出了一种利用关键词抽取算法获取信息资源中与文物主题有关的关键词作为外部知识库检索词,使用SPARQL检索获取实体关系并根据语义进行对齐后,利用远程监督自动进行信息资源实体关系抽取的方法。[结果/结论]在与其他方法的对比试验中,该方法在多个关键词阈值下取得了较好的效果,融合了多种关键词抽取方法在获取信息资源内容上的优势与特点,有效解决了远程监督关系抽取带来的噪音以及关系长尾问题,是一种面向网络信息资源自动进行实体关系抽取的可行方法。

全文