摘要

随着互联网内容的快速增长,对于网络内容的快速识别压力越来越大。本文进行基于聚类算法的内容识别研究,为维护网络安全、网络内容健康,具有非常重要的意义。目前的互联网内容识别方式主要以关键字检索方法进行识别,但是面对日益丰富的网络内容和不同方式存储在服务器的内容,这种方式已经无法满足实际的需求。从实际问题出发针对互联网内容中以图形、图像、音频等非结构化数据形式存储在服务器中的内容进行识别,依据互联网内容的发展规律对现有的聚类算法进行改进,以求能够最大程度地对互联网内容进行筛选和甄别,维护互联网安全。

全文