摘要
本文基于半监督推断方法,研究了标记数据来自病例对照抽样而逻辑回归模型不正确时相关目标参数的估计问题.在二分类任务中,常用病例对照抽样解决数据结构不平衡的问题,常用逻辑回归模型作为统计模型.但在现实应用中,模型假设往往是错误的.若逻辑回归模型错误,仅利用病例对照抽样获得的标记数据无法对病例比例进行识别进而无法对目标参数,即使得总体风险达到最小值的参数进行估计.本文借助于半监督推断方法,首先利用标记数据和无标记数据得到病例比例的无偏估计,然后基于该估计,构造逆概率加权的损失函数来纠正病例对照数据中的抽样偏差.本文证明了求解以上的损失函数得到的解是关于目标参数的相合且渐近正态的估计,并且其极限分布的方差也可以通过观察到的数据进行一致地估计.同时,模拟研究的结果表明论文提出的方法能对目标参数给出相合的估计.