摘要
目的探讨神经网络(neural networks,NN)在倾向分数值估计中的应用价值,并与基于logistic回归(logistic regression,LR)的倾向分数方法进行比较,检验其统计性能。方法采用SAS 9.2软件,生成包含10个定性/定量协变量、1个结局变量(定量)、1个分组变量(二分类)的数据集,模拟当5种处理因素与协变量存在非线性关系和交互作用的情形,设定样本量分别为500、1 000、2 000、5 000、10 000。在纳入部分协变量(与处理因素和结局变量同时有关及只与结局变量有关,即LR1或NN1)或纳入全部协变量(同时有关、只与结局有关、只与处理因素有关,即LR2或NN2)情况下分别采用LR和NN估计倾向分数值。比较不同模型中平均处理效应(average treatment effect,ATE)估计值的标准误、偏倚、均方误差。结果基于NN的倾向分数法估计ATE的95%可信区间较LR更窄。随着处理因素与协变量关系复杂程度的增加,ATE的标准误、偏倚、均方误差逐渐增加,LR1与NN1的ATE的标准误、偏倚、均方误差小于LR2与NN2。当只采用与结局变量有关的协变量估计倾向分数时,NN通常较LR产生的ATE估计值的偏倚更小。随着样本量的增加,两种方法估计的ATE估计值的标准误和均方误差逐渐减少。结论当处理因素与协变量之间存在潜在复杂关系时,基于NN的倾向分数法可能会产生更小的偏倚和更精确的ATE。
-
单位成飞医院; 四川大学华西医院; 四川大学华西第二医院