摘要

语料库语言学,在一定程度上,随着计算机科学的发展而发展。Python语言因其语法简单、接近自然语言、拥有数以万计的第三方类库,近些年发展迅速,同时深受各领域学者喜爱。Python语言的第三方类库Requests通过几行代码就可获取网页文本信息,同时第三方库BeautifulSoup也仅需数行代码就可从海量文本信息中提取指定信息。使用Python构建语料库,可以明显提高语料库建库效率。本文结合实例,详述基于Python的快速获取语料和文本提取过程。

  • 单位
    上海杉达学院