摘要

定序变量常常用来表达人们对事物的态度和偏好,例如在推荐系统中,消费者对商品的打分评价是定序变量,在自然语言处理中,情感分析的情感也是定序变量。目前学术界采用定序Logit模型来处理定序变量,但是定序Logit回归模型要求定序变量大体服从均匀分布,当自变量没能很好符合均匀分布时,定序Logit回归模型预测定序变量的结果并不理想。基于此,文中提出一种自适应的集成定序算法。首先,借助Boosting思想提出了类Boosting算法,根据定序Logit回归模型的思想构造了定序多层感知机模型和定序随机森林模型,这两个模型同Softmax多分类模型和定序Logit模型构成类Boosting算法。在处理数据中,当4个模型产生的预测值不完全相同时,该样本进入类Boosting模型继续进行训练,直到训练轮数超过某个阈值时,停止训练。然后,利用随机森林模型构建训练集的全部预测值到真实值的映射函数。所提算法在定序变量是任意分布时,仍然有较高的预测精度,极大地提升了定序Logit回归模型的适用范围。将所提算法用于白酒质量数据集、红酒质量数据集上对酒的质量进行预测时,其准确率优于定序Logit模型、多分类算法Softmax、多层感知机和KNN。