摘要

【目的】利用在线招聘文档,准确分析用人单位需求,为解决劳动力供需失配提供技术支持。【方法】提出一种基于跨域迁移学习的专业技能词识别方法(CDTL-PSE)。CDTL-PSE将专业技能词的识别任务当作序列标注任务,首先将SIGHAN语料库分解为三个源域,利用插入在Bi-LSTM层和CRF层之间的域自适应层来有效实现从各个源域到目标域的跨域迁移学习;然后采用参数迁移法训练每个子模型;最后通过多数投票获得标签序列的预测结果。【结果】在自建在线招聘文档数据集上,相对于基线方法,使用交替训练的具有Bi-LSTM域自适应层的CDTL-PSE的F1值提高0.91%,能减少50%左右的标记样本。【局限】模型的可解释性有待进一步改善。【结论】CDTL-PSE能有效实现对技能词的自动抽取,还可有效缓解目标域标注样本的不足。