摘要

正则表达式是数据验证技术中功能十分强大的输入控制技术,将这种技术应用于WEB数据采集能够大大提高数据采集的准确性和效率。文章通过对正则表达式NFA和DFA引擎运行过程的研究,使用优化后的正则表达式作为数据检索引擎采进行web数据采集。以期提高在多种数据结构中正则表达式的检索速度。