摘要
因果是人类由弱人工智能时代迈向类人智能时代的关键,加之大数据时代下,数据的多样性及其信息的丰富性促使挖掘文本数据中的因果知识成为新的研究热点.目前的因果推断方法更多地应用在低维的、结构化观测数据,对文本数据的利用并不充分.为了实现对非结构化文本数据的因果分析,本文首先结合现代汉语的句型系统,提出了一种基于规则的事件抽取方法.之后,提出了一种基于文本的概率因果图推理方法.具体来说,针对已抽取出的事件,该方法采用聚类算法抽象并泛化语义相似事件的公共语义特征,以定义文本数据中的变量及观测的概念,并基于语义依存关系抽取因果关系来指导文本中因果事件链条的抽取,以进一步发现文本蕴含的因果网络,进而采用因果图模型完成了对文本数据中因果效应的推断.最后,本文分别选取司法文书及金融研报作为语料进行实验,具体展示了针对文本数据的概率因果推理过程.
- 单位