摘要

随着大数据与信息化的发展,海量电子文档涌现。不同格式的文档若采用不同方式解析,会对文档的快速集成与内容理解造成影响。明码文本格式是大数据环境下的首选格式。Markdown格式能记录一定的文档结构特征,利于处理以报告为主的地质资料等行业文本数据,但受文本化技术、地质资料编辑标准、人工等原因的影响,极易出现文档格式不规范问题。从文档格式特征标记的角度出发,对Markdown格式的地质资料的封面、目录、章节、表格、地质剖面介绍等文档的格式特征及格式问题进行归纳总结;定义由正则表达式、优先级、关联条件等构成的文档格式规范特征描述语言;遵循文档格式规范特征描述语言,对不同文档格式规范特征进行计算机存储与解析,生成文本化地质资料文档格式规范。实验表明,该方法对Markdown格式的地质资料能起到很好的规范作用。