摘要
[目的] 探索集成不同语料库的方式,从而提升评估词汇复杂程度的综合表现。 [方法] 本文提出一种多领域词汇复杂度评估模型,通过特征泛化模块适应各种领域,在下游微调任务中学习词汇复杂度预测,通过特征融合模块探索了手工特征与神经网络深度特征的组合意义。 [结果] 在LCP-2021数据集上,相较公开的SOTA结果,模型的Person系数提升1.48%,Spearman系数下降0.51%,MAE、MSE相较提升2.79%和6.56%,R方下降2.55%;集成手工特征后未得到提升;二次迁移到CWI-2018数据集,相较当时公开的基线结果,模型在三个新语料领域上MAE提升16.8%、31.01%、23.55%。 [局限] 文中采用向量拼接来集成手工特征和深度特征,未能充分融合不同类型特征;设计特征泛化模块时的算法选择也具有一定局限性;构建综合数据集可有进一步尝试。 [结论] 集成不同语料库,有助于提升模型整体评估效果,和新领域下“冷启动”表现。
- 单位