目前很多图书馆都更加信息化和数字化,馆藏书籍数量也因此不断提高。如何通过聚类算法做出海量图书类目的精确分类,以便用户更加方便快捷地筛选,成为亟需解决的问题。提出的熵加权聚类改进算法是以传统熵加权聚类算法为基础所设计的新的聚类中心矩阵计算方法。通过选取具有代表性的样本点作为初始聚类中心,降低数据维度和冗余。此外,通过合并策略对信息熵加权隶属表示进行修改,从而避免聚类过程中的局部最优。实验结果表明,提出的聚类方法在处理书籍大数据分类任务时具有较高的精度和稳定度。