摘要
古籍文献汉字切分作为古籍数字化基础工作之一,其中交错、粘连文字切分一直是研究的重点与难点,开展切分技术方式研究可以提高文字切分的准确性与适用性,在促进古籍数字化工作方面具有重要的意义。文章根据古籍文献汉字呈现的特征,借鉴流水模式的思路,提出古籍文献汉字切分新方式。首先,对古籍文献图像进行预处理;然后利用投影法与图像形态学处理实现列切分;最后在列基础上进行逐字切分。在字切分时如遇到交错与粘连情况,则先通过阈值划出待切分区域,在此区域内借鉴水流下落时呈现的运动轨迹作为切分依据,实现古籍文献汉字切分,并将此方式命名为流水算法。以6本古籍文献为例,对算法效果进行实践,样本共计14,503字,最终切分精准率为99.00%,召回率为95.62%,F值为97.27%。实验表明,流水算法在不同类型古籍文献中对间隔、交错、粘连汉字均能实现有效切分。