中文图文数据集构建

作者:邓洲; 刘茂福; 胡慧君*; 冯文贺
来源:武汉大学学报(理学版), 2020, 66(03): 253-260.
DOI:10.14188/j.1671-8836.2018.0210

摘要

为了从更深层次语义信息来描述图像,定义了图像、文本、事件文本、事件图、图像关键要素和文本关键要素六元组,以六元组为对象建立了中文图文数据集。基于事件语义模型与事件语义标注规范,在对采集的图像文本标注事件语义角色与事件关系的基础上,采用事件图对其语义进行形式化表示。对该中文图文数据集的统计分析表明,该数据集中各个事件语义角色都有所涉及且分布适中,图文对应区域数量相对句子长度表现适中,图文对数据质量较高。