摘要

医学文献快速增长,如何从医学文献文本大数据中挖掘出有价值的知识是一种巨大挑战。聚焦医学文献中定量风险语句的风险事件抽取,构建智能临床决策支持系统医学风险知识库。运用序列标注算法中重要的隐马尔可夫模型、最大熵马尔可夫模型和条件随机场三种模型分别对医学文献非结构化全文文本中风险事件信息进行抽取,并对算法进行比较。从三个模型平均F1测度值来看,条件随机场效果最好,其次为最大熵马尔可夫模型,然后是隐马尔可夫模型,但是每个模型都有自己对某些风险事件抽取的准确率或者召回率的优势。