从助词标注看汉语分词软件的问题

作者:郭康平; 冯莉
来源:牡丹江大学学报, 2023, 32(02): 37-44.
DOI:10.15907/j.cnki.23-1450.2023.02.007

摘要

以中文分词标注软件CorpusWordParser对助词标注的结果为研究对象,总结出六种标注错误类型:动词标记为助词、名词标记为助词、量词标记为助词或介词、代词标记为助词、助词标记为动词、助词标记为形容词。同时,比较了同类型的分词标注软件“ICTCLAS”,发现“ICTCLAS”分词和标记词性的正确率高于“CorpusWordParser”,且两款软件存在共同的标记错误之处。最后,根据存在的共同错误类型,提出了相应的改进建议。汉语分词、标记技术研究以及方法研究等方面还有待改进和提升,人工检查在研究中必不可少,加强人工检查,能够提高词性标记的准确率。

全文