摘要

企业数据信息采集是构建企业搜索引擎的基础,被采集数据分为结构化数据与非结构化数据两类,两者在存储结构与方式等方面有很大差异。文章阐述了结构化数据与非结构化数据的特点,以中小企业为应用背景,从低成本角度出发,对结构化数据与非结构化数据采集进行了详细分析,包括:方案设计、采集策略、索引数据库构建、采集流程、企业文件管理系统的优化等,最后对设计方案的优势进行了总结。基于Solr的低成本企业数据采集对中小企业搜索引擎开发具有一定的参考意义。