摘要
面向精准医疗的信息安全标准资源来源广泛,具有语义丰富、结构复杂、噪声数据多等特点。为了稳定、有效地对这些资源进行持续获取,并在数据采集时即过滤掉部分噪声数据,本文构建了一体化爬虫,利用自动生成的轻型知识结构库,将开放获取的领域专家知识融入资源获取部件,简化语义爬虫的工程复杂度,实现资源判别、获取、存储的一体化与语义结构生成与进化的一体化。实验结果表明,这种方法对信息安全标准体系资源的自动获取是稳定、高效的。
- 单位
面向精准医疗的信息安全标准资源来源广泛,具有语义丰富、结构复杂、噪声数据多等特点。为了稳定、有效地对这些资源进行持续获取,并在数据采集时即过滤掉部分噪声数据,本文构建了一体化爬虫,利用自动生成的轻型知识结构库,将开放获取的领域专家知识融入资源获取部件,简化语义爬虫的工程复杂度,实现资源判别、获取、存储的一体化与语义结构生成与进化的一体化。实验结果表明,这种方法对信息安全标准体系资源的自动获取是稳定、高效的。