摘要
本文探讨了数据挖掘技术在日语作文特征分析中的应用方式。词汇密度和文本特征分析显示,作文是一种独特的文体,与其他本族语语料差异显著。其特点表现为,词汇密度低,名词、数词等使用偏少,动词、形容词等占比高,句子短,书面语程度低。学习者与本族语使用者产出的作文之间存在明显差异。前者中状态描写偏多,动态描写较少,动词、助动词等占比低。相比之下,八级作文更加接近本族语使用者作文尤其是高年级组作文,但部分词汇的使用能力仍显不足。词语共现网络显示,随着等级的提高,学习者的描述逐渐细致、具体,词汇逐渐接近本族语使用者的产出,错误明显减少,但始终无法完全摆脱母语的干扰。
-
单位上海外国语大学