新词发现是自然语言处理中的一项重要研究工作,本文先对corpus进行最小粒度分词,采用N-gram思想将最小粒度分词结果重组,最后给出基于边界自由度和内部凝固度结合停用词库的新词发现方法,并在大规模语料库上进行实验,验证本文新词发现算法的可行性,同时结合并行计算方法,大大缩短实验时间,提高了整个系统的效率和性能。