摘要
当前开源网络爬虫存在不能实现增量信息采集的问题。通过调研IIPC合作的第一次世界大战、Twittervane、Memento三个网络信息存档项目,发现目前各类型存档项目存在增量采集困难的情况。在分析OutbackCDX和UKWA-Heritrix系统基础上,提出了一种基于OutbackCDX和UKWA-Heritrix增量采集方案,该方案能够在不需要爬虫程序重启的情况下实现定题、增量采集,并以ISO标准格式WARC(Web ARChive)为存储格式,实现不同类型系统直接的数据交换。
- 单位