摘要
粤港澳大湾区是中国开放程度最高、经济活力最强的区域之一,在“一国两制”政策实施的背景下,广东、香港、澳门地区的语言文化(普通话、粤语、英语、葡萄牙语等)呈现出了多样性状态,使得语言规则变得复杂,目前尚未存在同时支持针对粤港澳地区多语种语料文本标注和分析的语料库。该文以大湾区政府新闻语料为主要研究对象,在粤港澳大湾区复杂的语言环境背景下,通过研究经验总结出多语种语料库建设的常见问题和解决手段,构建出数据规模大、符合多语种生态的高质量语料库,促进教育、文化、语言研究事业的发展。
- 单位
粤港澳大湾区是中国开放程度最高、经济活力最强的区域之一,在“一国两制”政策实施的背景下,广东、香港、澳门地区的语言文化(普通话、粤语、英语、葡萄牙语等)呈现出了多样性状态,使得语言规则变得复杂,目前尚未存在同时支持针对粤港澳地区多语种语料文本标注和分析的语料库。该文以大湾区政府新闻语料为主要研究对象,在粤港澳大湾区复杂的语言环境背景下,通过研究经验总结出多语种语料库建设的常见问题和解决手段,构建出数据规模大、符合多语种生态的高质量语料库,促进教育、文化、语言研究事业的发展。