摘要

基于统计机器学习的信息抽取方法正日益成为研究的热点,在研究与应用方面虽然也产生了一些实用的基于机器学习的文本信息抽取框架与系统,但大多面临着交互性弱、可扩展性低、语言移植能力差等缺陷。为此,研究并提出一种通用可行的支持多语言的信息抽取框架,并基于该框架实现了一个原型系统。原型系统集成了最大熵、支持向量机两种机器学习算法,使用这两种算法对中英文文本的实验验证了系统的实用性。