摘要
随着中国政府采购规模上升和信息公开透明程度的增大,越来越多的学者开始关注政府采购公告数据并使用该数据进行研究。但是在数据使用上相关研究还存在一些重要问题:第一,中国政府采购网数据在时间上的合理使用范围并没有达成一致;第二,同类型研究之间使用的政府采购公告样本量差异较大;第三,对于数据库之间的匹配以及政府采购公告文本数据处理等问题并没有清晰的界定。本文回顾了中国政府采购数据的数据公开政策的发展过程,整理了截至2021年底中国政府采购网上可以获取的全部1 300余万份采购公告,并采用多种文本识别方法提取了基本数据信息。本文展示了各省份历年采购中标公告数量的分布,发现其呈现明显的空间集聚特征。通过与各省级政府采购分网发布的公告进行比对,本文在2015年财政部相关采购信息发布文件出台之后采购公告上传率大幅上升至80%以上,因此采用2015年以后的中国政府采购网数据进行研究更为合适。本文还针对特殊类型公告的识别与清理、缺失字段的补充、采购金额变量的提取以及同区域和企业层面数据库之间的匹配进行了总结与讨论。
- 单位