摘要
为提升机器英语翻译的有效性、翻译精度以及机器翻译模型的邻域自适应能力,该文研究了基于数据挖掘的机器英语翻译模型。利用LDA模型挖掘平行语料内文本中的主题信息,利用词表上的多项式分布表示主题,判断文档集合内各文档主题所占比例,依据概率抽样主题相应词表的多项式分布获取具体单词,利用极大似然估计方法处理目标语言单语语料,并将平行语料作为训练目标,通过重要性采样以及全概率公式估计目标语言单语语料,建立机器英语翻译模型,选取束搜索方法采样获取估算期望值,实现英语语句翻译。模型测试结果表明,采用该模型翻译不同语料库内语句的语义信息的召回率高于96%,GLEU值高于58,邻域自适应能力较强。
- 单位