摘要
基本篇章单元(Elementary Discourse Units,EDU)识别对篇章分析工作意义重大,是构建篇章结构的基础。从篇章衔接性视角看,每个EDU都由要表达信息的起始点——主位和要传达的新信息——述位两部分构成。该文结合已有研究和汉语实际情况,给出了一个基于主述位理论的汉语基本篇章单元识别方法。该方法将EDU识别转化为主述位识别问题,由主位、述位的位置间接地确定EDU的边界,最终完成EDU的识别。而主、述位间具有明显的信息序列化特征,因此可通过序列化标注方法进行。基于主述位理论的汉语基本篇章单元识别方法更关注EDU作为一个独立的篇章单元的内部构成,在汉语篇章话题结构语料库CDTC上的实验也进一步验证了该方法的有效性,EDU识别的性能F1值达到了89.46%。
- 单位