摘要
近年来随着电影市场飞速发展,对电影票房影响因素分析及预测既能降低电影市场的投资风险,又能吸引投资者的目光。因而使用网络爬虫技术采集2993部电影的相关数据。通过对各变量进行可视化分析,选取了口碑、上映档期、影片类型、关注度、前期票房和影片片长作为变量。以此构建多元线性回归和随机森林模型。经过比较模型发现,随机森林的模型拟合较理想,因此,选取随机森林模型对近期上映的15部电影票房进行预测,结果表明,有73.3%的电影票房预测误差可以控制在10%之内,93.5%的电影票房预测误差能够控制在25%之内。由此可见,基于随机森林的电影票房影响因素分析及预测的模型具有一定的实用性。最后根据分析结果,对中国电影业的未来发展提出了合理的建议。
- 单位