摘要

当前电子商务商品实体算法无法适应具有多源异构性质的电子商务大数据背景,因而研究了大数据背景的电子商务商品实体识别算法,利用分布式处理的基础架构Hadoop平台中的Map-Reduce执行引擎实现大数据任务处理,通过Hadoop平台的Map阶段合并处理同样模式关系相同值;利用Hadoop平台的Reduce阶段比较输入值与之前各等价值集合,将等价属性/值节点合实现属性/值的规范化处理,将合并后的等价值集合用图表示,用不同实体以及实体间的相似关系表示图顶点与边,通过图聚类思想的实体划分算法依据电子商务商品实体节点收缩邻居信息关系,划分图获取具有统一实体的实体簇实现大数据背景的电子商务商品实体识别。实验结果表明,采用该算法可有效识别大数据背景的电子商务商品实体,数据量为2 000 GB时识别精度高达99.82%。