基于动态语料的分级词表动态生成

作者:张引兵; 宋继华; 彭炜明*; 郭冬冬; 张曌; 宋天宝
来源:吉林大学学报(工学版), 2020, 50(06): 2212-2220.
DOI:10.13229/j.cnki.jdxbgxb20190927

摘要

在对词汇属性进行分析的基础上,结合所构建的词汇构词知识库,以及词汇的"减字类推"、"组合类推"类推机制,基于所给定的特定语料,给出了词汇对相应语料的综合覆盖贡献度评价方案。该方案对词汇相对于语料的重要程度进行了量化表示,为词汇的分级奠定了基础。为了使词汇的学习者最先学习到"更有用"的词汇,词表制定过程中最先收录对于语料综合覆盖贡献度最高的词汇。为了使分级词表的动态生成能够在有限时间内得到求解,使用贪心算法处理词表动态生成过程中的词语收录选择。与已有相关研究相比,本研究具有较强的可解释性和可移植性,可以通过对相关参数的修改对最终生成的词汇及其对应等级进行调整;可以根据需要,适当地加入专家知识进行人工干预,并且实现了词汇等级词表生成的程序化、自动化,为分级词表的生成提供了一种全新的方法,为今后各类词汇大纲的制定及完善提供思路和方法上的参考。