摘要
本文对基于语料库挖掘的日语性别角色语言提取方法加以概述。该方法首先从日语口语语料库中抽取异性会话的文本,其次统计在异性的会话参与者中各种词汇的使用频度,最后引入特征选择方法之一的fisher精确检验的思想来抽取异性的会话中使用差异性较大的词汇。本研究将这种方法应用于日语自然会话语料库来提取性别角色语言。本研究的结果表明,除了已经被广泛接受的人称代词和终助词以外,日语中的「うん/(嗯)」「ええ/(嗯)」「ああ/(啊)」「ねー/ねえ/(表示确认)」「なあ/(啊)」「さ/(吧)」「よー/(哟)」「どー/(怎样)」「という/(表示说话,思考的内容)」等词汇可以被视为日语的性别角色语言。