摘要

本文开发了一套基于Python的网络爬虫,并预留API,从而构建一个新闻聚合系统。新闻聚合系统中的新闻数据需要爬虫来获取,然而不同的网站有不同的页面布局,本研究旨在创建一个能够从不同页面布局中提取数据的开源爬虫,其中包括网络爬虫、API、网络爬虫调度器以及Socket服务器的实现等。开发过程中使用Python语言开发网络爬虫,利用Beautiful Soup作为网络爬虫的web提取工具,以Laravel为web应用程序框架,以PHP作为主要后端语言,承载CMS和API。网络爬虫可以通过利用用户创建的配置文件来适应从不同的页面布局中提取数据,并将提取的数据导出到JSON文件或数据库系统中。

  • 单位
    山西管理职业学院