基于多模态智能交互的虚拟数字人

作者:李晓明; 张宾; 魏晓鹏; 孙喜民; 刘丹; 周晶
来源:电力大数据, 2022, 25(12): 36-43.
DOI:10.19317/j.cnki.1008-083x.2022.12.002

摘要

虚拟数字人是元宇宙中的重要虚拟角色,构建虚拟数字人需要完整复杂的技术体系。本文提供一个多模态的虚拟数字人进行实时交互,与传统的基于文本或语音的系统相比,多模态的数字人提供了类似于人类的交互(例如,生动的声音、自然的面部表情和身体姿势)。用户给定一个语音请求,虚拟数字人能够在毫秒的延迟时间内响应高质量的回复。为了提供身临其境的用户体验,多模态智能交互虚拟数字人无缝集成了多模态技术,包括声学语音识别(automated speech recognition)、多轮对话、语音生成(text to speech)、虚拟数字人生成等人工智能技术。凭借庞大的知识库,多模态智能虚拟数字人能够与用户进行各个领域内容的多轮对话包括天气、设备控制、新闻推荐等,以及通过结构化知识回答问题。