摘要

构建了一个基于海量语料库的智能标注系统,用于大规模语料数据的标注处理,系统主要用户角色分为管理员、众包标注用户和专家标注用户。采用三级标注的方法来保证语料标注的效率和准确度,众包标注用户在已经由算法预标注过的语料基础上进行二次标注,系统通过判断语料状态三元组的值来决定是接受该标注结果还是继续分发给下一个众包标注用户,或是将语料派发给专家用户进行标注。专家用户仅仅对困难语料进行标注,同时通过错误反馈进一步提高算法标注和众包标注的准确度。系统设定了三个自定义标注参数以适应不同标注任务,同时提供词性查询字典、用户留言、查询统计等辅助功能,操作界面简易、友好,应用结果显示该系统能较好的完成海量语料库的标注任务。