个人敏感信息泄露是目前多发的网络安全事件之一,可能危及人身和财产安全,损害公民名誉和身体健康等.本文通过爬虫技术获取网页内容及附件,然后提取其正文并通过ElasticSearch实现全文索引和查询,实现了个人敏感信息的检测.以手机号码为例,采用不同分词器和查询方式对查询效率进行测试后得出结论:通过自定义分词器进行全文索引并使用正则表达式查询进行个人敏感信息检测具有最高的效率.