摘要

互联网的迅速发展为人们的生活提供了极大便利,但也为有害思想的传播提供了温床和便捷.网络截图成为信息传递的新手段,获取其中用户观点通常需要先进行文本识别,然后运用自然语言处理方式进行数据清洗,但部分关键信息可能在语言处理过程中遗失,导致数据失真.结合信息安全背景,提出一种在文本图像中寻找特定文本区域的微博截图用户观点定位方法.首先对字符区域感知模型进行迁移学习,增强其在目标任务上的泛化能力;然后使用训练后的字符区域感知模型进行字符级定位;接着使用逻辑推理对单字符形态进行分析,根据不同字符具有不同的外观特征和同行文本具有相似的行特征识别用户观点文本行;最后将逻辑定位结果与模型定位结果进行融合.实验结果表明,对微博截图的用户观点筛选能力较好,能有效实现用户观点定位,实现在文本图像中获取特定文本区域的目的.