摘要

<正>词汇是一个动态开放系统,是一个语言社会知识系统的全部映射,是所有成员内部词库的“并集”,并会因时、因地、因人、因事而在应用中发生变化,所有词典都无法描述词汇系统的全部。对于这样复杂性系统的“可控”,不仅是中文信息处理的重要“瓶颈”,也是中文教学现代化关键的基础工程。实现词汇系统的动态可控需要做到:对已知词汇的充分描写;充分的分析和分类;充分有效的预测。预测主要是面向现有词典工具书所收入的词语之外的词语,即“未登录词”合理性的判断和动态识别。这些未登录词包括所有新词、新语以及各类专有名词。判断未登录词的合理性,通常有两条:一是构词规则,二是构词材料。规则和材料都是来自于已知的词语集合。