网络技术发展和广泛应用导致Web数据量与日俱增,形成海量网络数据,如何从中获取有益信息,并对其进行分类管理是发掘海量网络数据隐藏价值的关键所在。本文基于PYTHON语言探讨如何从网络中抓取与研究目标相关数据,利用机器学习技术选择分类特征并对数据进行分类管理。对当下考研信息的获取和分类处理实例表明本文提出用网络爬虫、特征词选择和贝叶斯分类器相结合的方法是一种有效的海量网络信息获取和分类管理方法。