摘要

随着短视频关注度的不断提高,抖音短视频已经成为当前时代热点。针对于短视频、短文本,向量空间模型(VSM)表示方法存在高维度、同义多义问题,导致难以准确度量文本相似度,该文提出了一种基于隐含语义分析的聚类方法,利用LSA将训练数据聚类成隐含语义主题,通过奇异值分解,将词向量和文档向量投射到一个低维空间,用层次聚类算法确定初始中心,然后聚类得到结果。结论表明,短视频中的核心语义内容被成功保留下来,运用矩阵降维方法降低了计算量,冗余的相关性干扰得以解决,改变了视频语义检测的整体效果。