汉语学习者文本多维标注语料库建设

王莹莹; 孔存良; 杨麟儿; 胡韧奋; 杨尔弘<sup>*</sup>; 孙茂松

doi:10.16499/j.cnki.1003-5397.2023.01.005

摘要

本研究以中介语多元对比分析的理论和方法为指引，以计算机智能辅助写作为导向，构建了一个大规模、高质量、篇章级别的汉语学习者文本多维标注语料库——YACLC。YACLC设计了一套多维度富信息标注体系，包括最小改动、流利度提升、句子可接受度、上下文依赖性四个维度，采用众包策略标注了2,421篇、32,124句语言使用场景下的汉语学习者文本，获取到331,292个最小改动标注句和137,708个流利提升标注句。YACLC的建设既解决了现有汉语学习者语料库语料来源封闭、标注结果单一和流利维度欠缺的问题，又为学界分析学习者语言与两个参照语变体三者之间的多元互动，揭示二语习得的规律提供了参考及扩展空间。

单位
北京语言大学; 北京师范大学; 清华大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-18 20:40

汉语学习者文本多维标注语料库建设

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友