摘要

目的:用大数据技术,实现对复杂类型数据即席查询、文本搜索处理的临床大数据筛选和分析平台。方法:应用基于Hadoop的文件分布存储(HDFS)、大数据仓库(Hive)、数据抽取技术(Sqoop)以及分布式文本搜索(Solr)大数据开源项目,实现对临床大数据的分布存储管理、即席查询、筛选规则加载和病历文本分析。结果:按照"Bolondi再分期模型对肝切除术后患者总体生存预测"课题的数据筛选要求,平台能帮助研究者从大量的具有复杂结构的临床数据中获取符合规则的样本数据。结论:融合应用大数据开源项目是海量医疗临床数据筛选和分析的有效技术方法。