基于Python的通用论坛正文提取研究

作者:赵光亮; 令狐雨薇; 朱德孙; 赵顺艳; 杨陶; 陈凤
来源:电脑知识与技术, 2018, 14(24): 259-260.
DOI:10.14004/j.cnki.ckt.2018.2887

摘要

该文主要探讨BBS类论坛网页的文本数据的爬取与分析。首先,对该类论坛网页的HTML结构进行研究分析。在该类在论坛类网页中,文本数据主要包含链接页面中的全部主贴、全部回帖。其次,结合正则表达式、网络文本挖掘、Python工具、HTML等工具构建该类型论坛网页文本数据的抓取算法。为了便于用户阅读文本,还需要构建整理、清洗网页文本数据的算法,将抓取的网页文本数据整理为主题和回帖对应的json终极数据格局。

  • 单位
    贵州师范学院

全文