摘要
本发明公开了一种基于双重自动编码器的半监督跨领域文本分类方法,其步骤包括:采用双重自动编码器同时获取源领域文本数据集合和目标领域文本数据集合之间的全局和局部特征表示用于跨领域文本分类任务;第一重自动编码器为基于自适应分布的边缘降噪自动编码器,它主要用来学习源领域和目标领域文本数据集合的全局特征表示;第二重自动编码器为基于多类别的边缘降噪自动编码器,它以更细粒度方式学习源领域和目标领域文本数据集合的局部特征表示。本发明能更好地挖掘源领域文本数据集合和目标领域文本数据集合中特征之间的潜在关系,从而进一步提高文本分类的正确性。
- 单位