摘要
泰语命名实体识别是把泰语文本中的人名、地名、机构名等识别出来。由于泰语构词方法和语法规则复杂,针对这一问题,将泰语命名实体识别任务转化为对泰语句子中的词汇序列进行标记。结合泰语语言特点,选择合适的泰语上下文特征,分别使用隐马尔科夫模型和条件随机场模型在泰语实体识别训练语料上进行了模型构建,并在测试语料上对所构建的序列标注模型进行了实验验证。实验结果表明使用隐马尔科夫模型和条件随机场模型进行泰语人名、地名、机构名实体识别是可行的,并取得了较好的效果。
-
单位昆明理工大学; 自动化学院