本文基于scrapy构建分布式爬虫系统爬取今日头条、微博、微信公众号等新闻媒体文章以及相关评论,通过文本去重、文本过滤等数据清理手段,采用分词、关键词提取、文本摘要等自然语言处理算法挖掘文本价值,并以此为基础建立基于neo4j图数据库的知识图谱,通过知识图谱建立智能语义分析系统。