摘要
[目的/意义]构建基于迁移学习的微博文本隐私自动分类模型,对用户欲发布的可能包含隐私的文本进行合理的提示,避免用户无意间泄露隐私,这将在很大程度上降低用户隐私泄露的风险。[方法/过程]采集并标注微博文本隐私分类数据集,使用深度迁移学习实现新浪微博文本的自动化分类,并对比分类平衡前后的结果。[结果/结论]在类别和数据不均衡的状态下,模型出现过拟合。数据再平衡后,模型的各项指标明显提升。通过与基线模型的对比,模型对于隐私类别的召回率接近83.7%,比基线模型高近34%,验证了模型的实用性。
- 单位