摘要

随着大数据时代的到来和数据挖掘技术的发展,各类数据都变得愈发重要。在自媒体发展的热潮中,新浪微博已成为国内最大的社交媒体之一。网民们可以在微博上以文字、图片、视频等形式发布微博,实现信息的即时分享、传播互动。如何获取这些非结构化形式的数据并存储以便后续利用是一个挑战。笔者阐述了新浪微博数据爬取的方式,并模拟登录新浪微博、验证码识别、对网页进行解析、对爬取的数据进行保存和处理。

  • 单位
    南京森林警察学院