摘要

本次试验以电影的豆瓣评分为研究对象,从四个方面出发选择影响电影评分的因素,并用以预测。经过数据筛选后,获得了包含552个观测值的华语电影数据集。利用特征工程方法对部分特征进行赋值,将含有众多文本信息的定性特征转化为定量特征,得到赋值后的数据集。分别建立多元线性回归、LASSO回归和随机森林回归三种模型,并根据变量重要性指标得到变量排序。结果表明适宜选入预测模型的变量包括:编剧、导演、演员、关注人数、语言、发行年份和电影类型。