提出基于Hadoop的分布式贫困户检索架构,结合数据的特征项提取及文本聚类技术,对相似文本进行聚合,根据查询精度要求建立对应文本特征向量空间,同时,过滤关联性差的数据,使其不参与搜索,以提升系统的执行效率降低内执行速度。结果表明,贫困户检索算法查全率和查准率对比全节点遍历检索具有较高的查全率和查准率,减少访问的数据源数量,节省了系统的总体计算和网络资源,具有很大的应用推广价值。