摘要

目的基于深度学习算法BERT进行特征表示和文本分类,实现对随机对照试验(RCT)文献的自动化偏倚风险评价。方法计算机检索Cochrane图书馆,收集RCT相关信息并获取偏倚风险评价数据,据此构建文本分类所需数据集。采用BERT进行特征提取,构建文本分类模型,完成7类偏倚风险值(高、低)的评价。将原始数据集的80%作为训练集,10%作为测试集,10%作为验证集。采用准确率(P值)、召回率(R值)和F1值评价模型的性能,并将所得结果与传统机器学习方法(结合n-gram与TF-IDF的特征工程方法和LinearSVM分类器)结果进行比较。结果该模型在7类偏倚风险值评价任务上取得78.5%~95.2%的F1值,较传统机器学习方法高14.7%。在除"其它偏倚"外的其它6类偏倚描述句的提取任务上取得85.7%~92.8%的F1值,较机器学习方法高18.2%。结论基于BERT的自动化偏倚风险评价模型能够实现对RCT文献较高准确率的自动化偏倚风险评价,提高完成系统评价的效率和速度。