摘要
软件自承认技术债是描述开发人员追求项目短期利益而有意实施的技术折中.前人工作表明,根据代码注释能够构建分类器,并用于识别自承认技术债.然而绝大多数分类方法未能考虑代码注释中较少自承认技术债所造成的类别不平衡问题.即使考虑,已有方法也缺乏理想效果.文中提出基于交叉过采样的方法,即首先将技术债数据切分成短文本池,继而在短文本池中随机选择短文本进行拼接来生成新的技术债样本,这种做法有效扩展自承认技术债数据,成功解决了文本数据的类别不平衡问题.此外,采用词向量空间法来构建特征空间,利用信息增益这一特征选择方法来构建多个分类器以识别自承认技术债.实验结果表明文中工作在Precision、Recall和F1-score等3个性能量度上的结果普遍优于前人所提方法,能够帮助项目人员有效识别软件自承认技术债.
- 单位