摘要

搜索引擎是一种数据密集型应用,其性能极大依赖于底层文件系统的性能.文中主要讨论分布式文件系统在搜索引擎应用环境下的性能评估和性能优化问题.首先概述了分布式文件系统的性能影响因素及相关研究进展;在此基础上提出基于Hadoop的开放架构,系统地评估HDFS和Lustre在搜索引擎应用场景下的性能;最后针对实验评估发现的HDFS在写性能及小文件数据处理方面的不足,提出改进方案,为搜索引擎的分布式文件系统优化提供参考.