摘要
指标选择一直是数据包络分析中一个引人注目的问题。随着大数据时代的到来,学者们面临着更加复杂的指标选择情形。机器学习的蓬勃发展为解决这一问题提供了机会。然而,在容易过拟合或欠拟合的情形下,如果使用不恰当的方法,很可能会筛选出质量差的指标。一些学者已经率先使用最小绝对收缩和选择算子来克服过拟合情形下的指标选择难题,但迄今为止,研究者并没有提出将数据包络分析所面临的大数据场景划分为容易过拟合或欠拟合的情形,也没有尝试为这两种情形开发一套完整的指标选择体系。为了填补这些研究空白,本研究采用了机器学习方法,并在此基础上提出了一种平均得分法。蒙特卡洛模拟表明,最小绝对收缩和选择算子在过拟合情形下的指标选择问题中表现优异,但在欠拟合情形下往往不能选择出好的指标,而集成方法则能在欠拟合情景下占据一定程度的优势;至于本文提出的平均得分法,则在两种情形下都有较好的表现。基于不同方法的优势和局限性,本研究提出了一种智能指标选择机制,以协助数据包络分析领域的学者们进行指标的选择。
- 单位