摘要
本发明通过对外国人名特征的研究,结合统计学的概率模型,提供一种在自然语言处理系统中基于上下文语义的外国人名自动识别的控制方法,其特征在于,包括如下步骤:a.分析待识别文本并获取候选外国人名字串集;b.利用外国人名规则集对所述候选外国人名字串集进行修正和筛选获取第一中间外国人名字串集;c.利用概率统计以及概率模型对所述第一中间外国人名字串集进行进一步筛选获取已识别外国人名集;以及d.根据所述已识别外国人名集确认未被识别出的外国人名。本系统充分利用了人名的上下文特征及外国人名的用字特征,大大降低了由于分词而产生的识别错误,较好的解决了其他命名实体识别为人名的情况,提高了识别效果。
- 单位