基于模型融合的搜索引擎用户画像技术

作者:郭梁; 王佳斌; 马迎杰; 朱新龙
来源:科技与创新, 2020, (07): 17-22.
DOI:10.15913/j.cnki.kjycx.2020.07.006

摘要

由于搜索引擎中用户数据的不完整性,导致在构建用户画像时标签缺失,提出预测多维用户标签的Stacking模型融合方法,以预测用户画像的三个标签为例,进行实验和分析。该模型为两层结构,第一级模型中使用TF-IDF算法提取用户搜索词特征并用多分类器训练,同时将Doc2Vec模型构建具有关联信息的文本特征并用BP神经网络训练,第一级模型的输出作为第二级模型的输入,用SVM支持向量机进行分类和预测,得到用户的标签信息。实验用该模型与传统模型进行了实验对比,证明该模型在搜索引擎数据的用户标签预测任务中有较高的准确率。