摘要
提取的一大难题是如何在不丢失关键信息的情况下简约地描述整个文档。监督模型因通常需要大量的训练语料而在实际使用中受限。子集选择算法是无监督自动文档摘要的有效方法。在该类模型中,摘要提取被建模为求解某个目标表达式的最优值。然而,优化子集选择表达式是一个NP问题,当前普遍采用贪婪式算法来求解。基于此,提出了一种新的基于遗传算法的非监督摘要提取框架,并充分考虑了中文中段首句和段尾句的重要性。实验结果表明,该方法具有较好的提取性能。
-
单位中国电子科技网络信息安全有限公司; 四川省科学技术信息研究所