摘要

自然语言处理(natural language processing, NLP)是人工智能研究的一个重要领域,旨在构建能够理解和生成自然语言、实现人机自然交互的技术方案。近5年,基于神经网络的自然语言处理方法取得突飞猛进的发展。基于海量无标注数据和大量标注数据进行建模,使得机器翻译、自动问答和阅读理解等很多任务的水准都得到了极大的提高。本文将从3个角度回顾神经自然语言处理的最新进展,包括模型、训练和推理。在模型部分,我们将介绍典型的神经网络建模方法,包括词嵌入建模、句子嵌入建模和序列到序列建模等。在训练部分,我们将介绍常用的学习方法,包括监督学习、半监督学习、无监督学习、多任务学习、迁移学习和主动学习等。在推理部分,我们将介绍典型的推理框架,包括非神经网络方法和神经网络方法。之所以强调推理方面的研究,是因为推理是构建基于知识的可解释自然语言处理模型的关键技术。本文的最后将概括介绍我们对自然语言处理未来发展方向的一些思考。