本发明涉及一种基于语义对齐的视觉对话生成系统。本发明对图像信息的提取从两个方面进行:分别是全局和局部。通过语义对齐获取全局的基于语义的图像表示,同时通过dense caption获取局部密集图像描述,文本表示的高级语义有助于更好的信息获取。两者共同为生成回复提供图像信息的线索。同时从文本流畅度、文本连贯度和正确度来进行全面的约束,指导回复的生成。此外,本发明实施例提出采用关键词约束的方法来约束回复的正确性,进而丰富生成回答的表示形式。