摘要
传统建筑维修工单管理系统容易忽视对工单文本描述部分的分析,导致有价值的信息被淹没在大量杂乱数据中,使得重复、高频工单难以快速准确提取。针对上述问题,采用一种基于关键词库的中文分词算法,对建筑维修工单报修内容的长文本描述进行合理分词;然后,采用基于K-means的密度检测算法,引入工单各属性的权值,从而计算任意两个工单间的赋权欧式距离,得到各工单密度并提取候选重复工单集合;最后,采用基于密度的DBSCAN聚类算法,确定最终的重复工单集合,并在实际工程中进行应用验证。可较为精准有效地从大量数据中提取重复工单,有助于提升建筑维修工单分析效率,保障后勤精细化管理水平。
-
单位上海建工四建集团有限公司