摘要

文本分类是指用计算机对文本(或其他实体)按照一定的分类体系或标准进行自动分类标记。伴随着信息的爆炸式增长,人工标注数据已经变得耗时、质量低下,且受到标注人主观意识的影响。因此,利用机器自动化对文本进行标注具有一定的现实意义,将重复且枯燥的文本标注任务交由计算机进行处理能够有效克服以上问题,同时所标注的数据具有一致性、高质量等特点。其应用场景众多,包括:情感分析、主题分类、意图识别等;其分类标签可以是:情感分析(积极、消极、中性)、主题分类(历史、体育、旅游、情感)等。传统的文本分类早期是通过模式词、关键词等,同时结合一些规则策略进行。此方法的缺点很明显,人工成本高,且召回率比较低。此后,使用经典传统的机器学习方法做文本分类任务初显成效,即“特征工程+浅层分类模型”,被称为传统机器学习方法。近些年,伴随深度学习的异军突起,基于深度学习的文本分类方法兴起,本文基于LSTM文本分类,针对LSTM网络结构的缺陷,引入注意力机制Attention,优化文本分类模型,在文本长度较长的情况下,效果尤为显著。