摘要

问卷调查一般通过开放文本题采集职业信息。这种题型虽能提供丰富信息,但数据管理复杂,需要将原始数据进行编码。传统的人工编码法耗时耗力。本文首次尝试将机器学习中两个常见分类器"朴素贝叶斯"和"支持向量机"运用在中文职业文本编码上。结果显示,它们在职业大类编码上的表现令人满意,但在职业细类上性能不足,而且在不同职业类别间性能差异很大,其中"农林牧渔水利业生产人员"和"不便分类的其他人员"的分类效果较好。

全文