基于语义相似的中文数据清洗方法

李碧秋; 王佳斌; 刘雪丽

登录

免费注册

赞收藏引用

科研之友

微信

新浪微博

Facebook

分享链接

基于语义相似的中文数据清洗方法

作者：李碧秋; 王佳斌; 刘雪丽

来源：现代计算机(专业版), 2021, (19): 58-61.

摘要

目前关于数据清洗的研究大多针对英文数据,相关算法较为成熟,而对中文文本数据的清洗研究较少,且中英文差距较大,面向英文的清洗方法不完全适应于中文。基于此提出一种面向中文的相似重复数据清洗方法,充分考虑中文存在的一词多义与多词一义现象,在中文文本向量化过程中引入位置向量,降低文本数据转为数学表达后语义信息的丢失程度。

单位
华侨大学

收藏分享被引浏览

更新时间：2024-04-17 19:15

相似论文
引用论文
参考文献

产品服务

科研之友科研之友机构版科创云

站内浏览

科研成果科研人员科研机构

服务支持

帮助中心隐私政策服务条款

联系方式

在线客服：【立即咨询】客户热线：400-1616-289 电子邮箱：support@scholarmate.com

微信公众号