摘要

科学研究中常因过高的试验成本导致机器学习的小样本问题,其难点在于数据集信息不足以描述原始问题的全部特征,因此需要根据学习算法特点精心安排试验以最大化小样本数据集的信息量。针对多元线性回归建模提出了一种样本选择方法:依托正交设计变量的水平特性,采用汉明距离评估试验样本相似性,以样本集最小汉明距离表征数据集的偏差;根据回归建模的样本量最低需求,采用深度优先算法建立最大最小汉明距离样本集以建立回归模型。最后以航空发动机高压涡轮盘为例验证该方法有效性,试验证明这种样本选择策略能在保证建模精度前提下降低试验费用。

  • 单位
    东北大学; 流程工业综合自动化国家重点实验室; 中国铁道科学研究院通信信号研究所

全文