摘要

自20世纪90年代起,网络用作语料库(Web as Corpus,简称WaC)已经成为获取大量文本数据的主要方式,其分析研究可被用作验证很多语言学假设的证据,其他应用方法还包括:自然语言处理工具和方法的评估,计算机词典编纂,以及对趋势或话题监测的大量文本实操分析。基于网络来构建语料库的优势有很多,例如低成本、效率高、实效好;但其弊端依然显著,例如,非常有限的源数据(metadata)、难以自动化清理网络文本内容等。这篇文献综述聚焦网络用作语料库过往相关研究,尤其是WaC经典示例和爬虫技术所面临的挑战。