基于网络资源的大规模珊瑚数据集构建

作者:花明珠; 王连明*; 江佳蔚
来源:东北师大学报(自然科学版), 2023, 55(01): 72-79.
DOI:10.16163/j.cnki.dslkxb202209230003

摘要

针对目前公开已有珊瑚数据集种类、样本少等问题.为构建种类丰富的大规模珊瑚数据集,本文首先以珊瑚属名为关键词,通过爬虫技术在网络中搜集大量珊瑚图片形成初始数据集;其次使用感知哈希算法对初始数据集中的图片进行去重处理;再次采用YOLO V3深度学习网络对去重后的数据集进行清洗,去除大噪声样本;然后通过旋转、镜像、随机裁剪、改变亮度和对比度等方法进行数据增强,均衡各个珊瑚属包含的图像数量;最后,构建了一个包含34个珊瑚属,218 467张珊瑚图像的珊瑚数据集.所构建的珊瑚数据集种类和样本数均高于已有的、公开的珊瑚数据集.所提出的珊瑚数据集构建方法也适用于其他难以获得样本的数据集的构建.

全文