摘要

成分数据典型相关分析是一种研究多个成分数据变量之间线性相关关系的方法,在经济、管理、地质、化学等多个领域应用广泛。在海量数据背景下,研究如何针对成分数据流展开典型相关建模分析,具有重要的理论意义和实用价值。本文提出了成分数据典型相关分析的增量建模方法,通过对增量成分数据的协方差分解,实现对成分数据流典型相关性的精确计算。此外,进一步给出两种分块增量算法,可处理多组成分数据的数据流建模问题。其一为序贯式分块增量算法,即按照数据流的先后顺序进行计算;其二为并行式分块增量算法,可以达到提高计算效率的目的。通过对不同概率分布和样本规模的成分数据流的仿真研究以及微博假新闻的实例分析,验证了本文提出的方法相比于传统的非增量方法,在保证计算准确性的前提下,具有提高运算效率的优势。

全文