针对特定领域的新词发现方法研究

申兆媛; 巢翌; 李晓龙; 张伟

登录

免费注册

赞收藏引用

科研之友

微信

新浪微博

Facebook

分享链接

针对特定领域的新词发现方法研究

作者：申兆媛; 巢翌; 李晓龙; 张伟

来源：计算机仿真, 2022, 39(06): 269-335.

摘要

如何准确识别文本中的领域新词是保证企事业内数据安全中的一项重要任务，针对特定领域语料的特性，提出一种针对特定领域的新词发现方法。首先预处理语料，其次采用Jieba结合本领域的成词策略分词，N-gram滑动取词得到候选词串，再次利用点互信息、邻接熵、词频与归一化得分筛选新词，从次新词向量化并降维，最后K-means分离领域或常用新词，从而得到领域新词集。解决了通用新词发现方法在特定领域的不适应性问题，在某领域约10万行的语料数据上，通过对比实验验证了上述方法的有效性。

单位
北京控制与电子技术研究所

收藏分享被引(3) 浏览

更新时间：2024-03-19 14:38

相似论文
引用论文
参考文献

产品服务

科研之友科研之友机构版科创云

站内浏览

科研成果科研人员科研机构

服务支持

帮助中心隐私政策服务条款

联系方式

在线客服：【立即咨询】客户热线：400-1616-289 电子邮箱：support@scholarmate.com

微信公众号