摘要

本文探讨利用Python技术从HTML网页信息中提取需要的、有价值的数据和链接。本文采用的Scrapy网络爬虫框架,从海量数据中获取所需要的新闻线索汇聚给媒体编辑记者。