摘要
本发明公开了一种网络学术报告预告信息的关键字段自动提取方法,其特征是包括:1、收集学术报告站点,构成学术报告站点数据库,用作网络爬虫的爬取种子;2、利用网络爬虫对每个报告站点进行报告爬取;3、对爬取的每个学术报告详细页进行内容抽取,抽取的内容包括报告标题,报告简介,报告人,报告人简介,报告举办时间,报告举办地点和报告举办单位,将这些内容进行封装和结构化;4、将结构化的报告内容进行数据持久化操作;5、重复以上所述步骤,直至收集的所有站点爬取完毕。本发明通过整理网络学术报告站点信息和处理网络学术报告内容中的HTML标签,从而能有效地提取出网络学术报告关键信息。
- 单位