摘要

过去几年,自然语言处理(NLP)技术飞速发展,文本表征成了计算语言学的核心。其中,分布式词向量表征在语义表达方面展现出巨大的潜力与应用效果。文章从语言学理论基础出发,介绍了计算语言学的重要术语——词向量。探讨了词向量的两种表示方式:离散式与分布式;介绍了词向量在语义变迁等历时语言学领域的应用。在此基础上,指出词向量语义计算法存在的局限性,并总结了两种词义消歧方法:无监督与基于知识库。最后,文章提出大规模知识库与词向量的结合可能是未来文本表征研究的重要方向之一。