针对网络用作语料库相关研究的文献综述

张世伟

登录

免费注册

赞收藏引用

科研之友

微信

新浪微博

Facebook

分享链接

针对网络用作语料库相关研究的文献综述

作者：张世伟

来源：校园英语, 2023, (31): 184-186.

摘要

自20世纪90年代起，网络用作语料库（Web as Corpus，简称WaC）已经成为获取大量文本数据的主要方式，其分析研究可被用作验证很多语言学假设的证据，其他应用方法还包括：自然语言处理工具和方法的评估，计算机词典编纂，以及对趋势或话题监测的大量文本实操分析。基于网络来构建语料库的优势有很多，例如低成本、效率高、实效好；但其弊端依然显著，例如，非常有限的源数据（metadata）、难以自动化清理网络文本内容等。这篇文献综述聚焦网络用作语料库过往相关研究，尤其是WaC经典示例和爬虫技术所面临的挑战。

收藏分享被引浏览

更新时间：2024-03-19 01:07

相似论文
引用论文
参考文献

产品服务

科研之友科研之友机构版科创云

站内浏览

科研成果科研人员科研机构

服务支持

帮助中心隐私政策服务条款

联系方式

在线客服：【立即咨询】客户热线：400-1616-289 电子邮箱：support@scholarmate.com

微信公众号