摘要
【目的】针对当前城市画像领域数据计算面临的相关文本非结构化、长短不一、主题非单一化等问题,研究利用机器学习技术,分析获取社交长文本的多标签,为城市画像文本分析和其他相关分析提供新的思路。【方法】从知乎平台获取有关城市印象的社交文本,对文本进行分句和降噪处理,结合已有的城市画像标注框架,对部分文本进行人工标注,采用支持向量机分类模型、卷积神经网络模型、朴素贝叶斯模型行训练,并对三种模型的结果进行对比分析。通过效果最优模型得到所有长文本的全部标签,使用ML-kNN多标注学习模型进行训练得到多标签社交文本分类模型。【结果】在单标签文本分类模型方面,支持向量机分类模型整体效果最优,对于短文本标注准确率达0.690 0。使用ML-kNN构建多标签文本分类模型,准确率最高达到0.810 3,平均汉明损失为0.035 3。【局限】没有充分考虑文本前后关联对主题分类的影响。【结论】基于社交长文本数据,利用ML-kNN多标签学习算法,构建长文本多标签分类模型,能够有效实现城市画像社交长文本的多标签识别。
- 单位