摘要
针对传统TextRank摘要提取算法导致大量的冗余数据的问题,提出了一种改进后的Word2Vec+MTextRank模型。首先通过使用神经网络预训练模型Word2Vec将文本数据编码得到具有高相关性、高抽象型和高概括性特征的词向量,然后使用改进后的M-TextRank算法依据句权重构建句向量图,最后使用共现关系构造任两点之间的边,迭代传播各节点的权重进行文本摘要提取。实验结果表明,提取方法对于中文数据在保证内容的全面性的同时,尽可能地减少冗余信息,提高摘要的可读性和可用性,同时提高了模型的准确性和效率。
- 单位