摘要

信息抽取能够自动地从大量的非结构化文档中识别和提取信息,是人工智能领域的一个研究热点。基于此,笔者提出了基于半监督条件随机场模型的信息抽取方法。该方法引入基于本体的相似度计算方法预测未标记样本的类别,有效利用了未标记数据训练条件随机场模型,利用包含在本体中语义信息扩展特征解决数据稀疏问题。提出的方法能够同时在有标记和无标记的数据集下学习,既降低了人工注入成本,又提高了信息抽取效率。实验表明,该方法在包含大量未标记样本数据中的信息抽取准确率和召回率较高。