摘要
由于搜索引擎中用户数据的不完整性,导致在构建用户画像时标签缺失,提出预测多维用户标签的Stacking模型融合方法,以预测用户画像的三个标签为例,进行实验和分析。该模型为两层结构,第一级模型中使用TF-IDF算法提取用户搜索词特征并用多分类器训练,同时将Doc2Vec模型构建具有关联信息的文本特征并用BP神经网络训练,第一级模型的输出作为第二级模型的输入,用SVM支持向量机进行分类和预测,得到用户的标签信息。实验用该模型与传统模型进行了实验对比,证明该模型在搜索引擎数据的用户标签预测任务中有较高的准确率。
- 单位