摘要

新冠肺炎的蔓延使得线上移动教学成为教育发展的必然趋势,该文以适合为学习者自动推送的汉语口语素材为研究对象,抽取10 341条生活类口语语料,对词汇的整体特点进行计量分析,在此基础上采用腾讯AL LAB公开的中文词向量数据,使用K-means算法对口语词汇进行词语聚类。参考词语聚类结果及对口语语料话题和场景的考察,该文构建了一个包含15个一级话题、102个二级话题及81个交际场景的汉语口语话题—场景素材库,同时对各级话题常用词进行了总结。该文可为教材自动定制的素材库提供资源支持。

  • 单位
    北京语言大学