随着互联网上的信息资源日益丰富,数量上难以计数,几乎每一个网页都包含与关键信息无关的噪音信息。如果想要收集自己需要的信息,仅通过手工方式存储到数据库或者文档中,需要消耗大量的时间和人力来整理以及存储并且存在一定的难度。基于此,本研究选用windows系统作为开发平台,运用JAVA对网页信息抽取进行研究,实现一个基本、简略但具备可行性的算法。当前台通过关键字搜索,后台算法即会过滤噪音信息,自动抽取出智能及相关网站的信息并自动存储到数据库中。