摘要

针对在多用户、多Web站点的网络访问环境下存在的数据采集问题,提出了一种新的数据采集及清理方法。引入网络嗅探的方式进行浏览行为数据的采集;在结合传统数据清理方法的基础上,提出一种利用HTTP请求间存在的引用和时间关系来清除HTTP请求产生的大量的非用户显式点击的附带请求。实验结果表明,该方法可以有效地采集浏览行为数据并清除大量的附带请求,抽取出能够反映用户显式点击的页面基请求,为用户浏览行为建模提供准确的数据源。