摘要
大数据学情分析系统开发主要涉及构建大数据平台、采集岗位信息、数据存储、数据处理、数据分析、数据可视化、上线部署等关键环节。其中,采集岗位信息环节需要借助Scrapy爬虫框架从招聘网站采集就业岗位数据,配置爬虫数据萃取表达式,对采集到的HTML内容提取出csv格式,数据内容包括岗位、公司、月薪、福利、职位描述、职位要求等。对采集数据进行简单的筛选,保留有价值的信息。在资源条件有限的前提下突破网站的反爬策略实现数据爬取是一个难题,以实现某网站爬虫为具体案例,简要介绍从需求分析、设计方案以及具体技术实现过程,并对爬取过程中页面结构不一致、边界、去重、突破反爬机制等问题进行总结。
- 单位