摘要
数据驱动是当前机器学习和人工智能技术的一大特征。高质量、大规模的标注数据集是领域技术发展的根基。在自然语言处理领域,标注数据的质量和数量直接决定了某个语言处理任务是否标准化,方法模型能否在公平条件下被评估和比较。而语言数据的人工标注是一个十分繁琐和复杂的过程,其中涉及诸如标注质量、标注管理、标注效率等诸多问题。为了解决这些问题,研究者提出了大量语言标注的工具和框架。本文介绍了语言标注的基本理论和技术,并对主流的两个语言标注框架GATE和UIMA进行评述和比较。
-
单位网络与交换技术国家重点实验室; 北京邮电大学