汉语学习者文本多维标注语料库建设

作者:王莹莹; 孔存良; 杨麟儿; 胡韧奋; 杨尔弘*; 孙茂松
来源:语言文字应用, 2023, (01): 88-100.
DOI:10.16499/j.cnki.1003-5397.2023.01.005

摘要

本研究以中介语多元对比分析的理论和方法为指引,以计算机智能辅助写作为导向,构建了一个大规模、高质量、篇章级别的汉语学习者文本多维标注语料库——YACLC。YACLC设计了一套多维度富信息标注体系,包括最小改动、流利度提升、句子可接受度、上下文依赖性四个维度,采用众包策略标注了2,421篇、32,124句语言使用场景下的汉语学习者文本,获取到331,292个最小改动标注句和137,708个流利提升标注句。YACLC的建设既解决了现有汉语学习者语料库语料来源封闭、标注结果单一和流利维度欠缺的问题,又为学界分析学习者语言与两个参照语变体三者之间的多元互动,揭示二语习得的规律提供了参考及扩展空间。

全文