摘要
为提高智能翻译机器人人机交互的准确率,提出一种基于视觉识别的智能翻译机器人人机交互方法。方法通过采用Faster R-CNN模型提取视觉图像序列特征,并采用图结构表示提取的视觉图像序列特征,然后进行编码-解码,实现了智能翻译机器人的人机交互。仿真结果表明,所提方法提取的视觉图像特征具有较高的准确率,在ImageNet数据集上的准确率均超过80%,在MS COCO数据集上的准确率均超过70%;图结构表示准确率较高,达到80%以上。相较于基于SOTA模型和基于VLN模型的人机交互方法,所提方法无论是使用束搜索还是预搜索进行评估,其加权路径长度和错误率更小,成功率和路径长度加权成功率更高。指令匹配的成功率达到95.42%,识别准确率较高,提出方法具有一定的有效性和优越性,可用于实际智能翻译机器人人机交互。
-
单位西安思源学院; 西安博物院