摘要

词汇语义表示是自然语言理解的基础。传统的基于语义词典的编码表示构建成本高昂,而独热表示又存在高维稀疏等缺点。词汇的分布式表示将词汇映射为低维稠密的实值向量,能有效捕捉词汇间的语义关联,是当前主流的表示技术。本文从数据特征、学习目标和优化算法三个方面,对现有的词汇表示学习方法进行了全面深入的分析,重点介绍了这些方法的理论基础、关键技术、评价指标及应用领域。此外,本文还总结了该方向面临的主要挑战以及最新研究进展,并对词汇表示学习未来的发展方向做了展望。