摘要

GitHub是著名的开源软件开发社区,支持开发人员在开源项目中使用问题追踪系统来处理问题.在软件缺陷问题的讨论过程中,开发人员可能指出与该缺陷问题相关的其他项目问题(我们称为跨项目相关问题),为缺陷问题的修复提供参考信息.然而, GitHub平台中托管了超过2亿的开源项目和12亿个问题,导致人工识别和获取跨项目相关问题的工作极其耗时.提出为缺陷问题自动化推荐跨项目相关问题的方法 CPIRecom.为了构建预选集,采用项目之间历史相关问题对的数量和问题发布时间间隔筛选问题.其次,为了精准推荐,采用BERT预训练模型提取文本特征,分析项目特征.然后使用随机森林算法计算预选问题与缺陷问题的相关概率,最终根据相关概率排名得到推荐列表.模拟CPIRecom方法在GitHub平台的使用情况. CPIRecom方法的平均倒数排名达到0.603,前5项查全率达到0.715.

全文