摘要

弱监督机器学习算法解决标签模糊类的问题具有更好的优势,该类算法缓解了数据标签的精度要求。病案的相似性度量就是这类问题,其对医疗数据的应用有着极其重要的基础性作用。鉴于现有病案相似性度量算法通常只基于病理关系的理论规则模型提出,忽略了数据本身包含的信息,文中提出一种弱监督机器学习算法应用于病案相似性度量。该算法首先基于多指标概率分配的方法进行病案组的构建,避免陷入局部最优的情况;然后根据理论模型进行标签赋值,充分利用理论信息;最后通过输入、损失函数、学习模型的分析,从机器学习的角度进行病案的相似性度量。与经典病案相似性度量算法相比,该算法提高了病案相似性度量的准确性,解决了高成本标签的问题。