摘要
为提升词汇信息抽取的精准度,以WordSmith4.0语料库为研究背景,提出一种英文词汇结构信息抽取方法。获取WordSmith4.0语料库中的英文词汇集合后,划分词汇结构与标注词汇属性,根据获得的词汇结构相似度,完成阈值设定。设定相似度判定依据,获取簇内高相似度、类间低相似度的各模式簇,利用编辑距离矩阵中的逆向最短编辑距离,实施泛化处理。基于字符序列与对应属性,经过多个映射阶段,实现结构信息抽取。实验结果表明,所提方法各指标值均较高,说明具有比较理想的有效性,提升了抽取结果的准确率。
- 单位