摘要

传统网络检索自动分词系统存在检索速度慢、分词准确率和召回率低等问题,为解决上述问题,设计基于数据挖掘的网络检索自动分词系统。首先,依据网络检索自动分词器的工作原理对网络检索词汇进行分类;其次,基于数据挖掘技术挖掘词汇数据库中的网络检索词汇数据,利用分词主题来查询网络检索主题,将搜索后的网络检索结果与主题相匹配,以完成网络检索词汇的分词处理;最后,根据词频数据总和与阈值的关系,改进网络检索自动分词算法。实验结果表明:所设计系统对人民日报BCC语料网络检索词汇的自动分词准确率为94.33%,召回率为91.87%,F值为90.29%,且系统的平均分词速度达到了127 kb/s。

  • 单位
    福州外语外贸学院

全文