摘要
针对现有方法从微博中识别时空信息精度较低且相对粗略的问题,该文提出基于双向长短期记忆网络和条件随机场(BiLSTM-CRF)与分类分层标注的微博中突发事件时空信息精细识别方法(MFISIE)。首先,设计一套适用于微博中突发事件的分类分层时空信息标注体系(CHSIAS),构建微博语料库;然后,结合BiLSTM-CRF构建微博时空信息识别模型,并利用117 567条标注的微博语料进行实验。结果表明:与人民日报语料标注体系相比,CHSIAS与CRF、BiLSTM、BiLSTM-CRF 3种方法结合进行时空信息识别,F值均较高,且可获得多层级、精细化的突发事件时空信息,其中,基于BiLSTM-CRF的MFISIE方法的F值(91.2%)最高。使用CHSIAS时,BiLSTM-CRF对时间信息的识别效果最好,其对兴趣点、建筑物和相对位置描述识别结果的F值比BiLSTM方法分别提升了8.8%、6.3%和12.3%,比CRF方法分别提升了7.1%、7.7%和8.9%。MFISIE可更精确地提取微博中突发事件的时空信息,为突发事件应急信息的快速感知与精准应用提供技术支撑。
- 单位