摘要

自然语言语义语料库构建是智能云计算环境中实现信息交换的关键步骤,对语义语料库构造技术进行了分析,提出了一种基于词频-逆文本频率(term frequency-inverse document frequency,TF-IDF)和字向量距离的新型网页去重复算法,该方法专注于解决语音识别中的存储问题,为分词和句法分析提供功能支持。该方法可以直接用于语义语料库构建,能提高网页重复数据删除的效率。实验结果表明:该方法能实现云计算平台的语义库构建,且性能优于其他方法,说明了该方法的可行性和有效性。