摘要

目前建筑工程风险隐患数据多为人工录入的非格式化的文本数据,为了从提取风险隐患数据中的有效信息,设计一套基于文本挖掘的建筑质量风险隐患提取模型。首先,根据文本的有向无环图和动态规划算法,对风险隐患数据进行切词处理;然后,根据TF-IDF算法计算切词后各词语的权重;最后,使用TF-IDF权值最高的2000个词汇构建LDA主题模型,并提取质量风险隐患主题和主题词汇。实验结果表明:(1)墙面开裂、孔洞封堵、混凝土填充、渗漏水、钢筋连接、接缝施工、外墙涂装和机电安装等为常发质量风险隐患;(2)未来可收集数量更多的风险隐患文本数据,提高LDA模型的精准度。

  • 单位
    上海建科工程咨询有限公司

全文