摘要

数据具备结构化特征是人工智能应用的基础,但是目前法律文书的数据特征是非结构化的,给人工智能应用的扩展带来极大挑战。为了逐渐逼近真正意义上的法律人工智能应用,研究多源异构数据的自动结构化方法。法律领域多源异构数据广泛存在于公开网络平台,如侦查过程,庭审记录,审判结果等,其特点是散乱、无序和碎片化。结合多源异构数据的结构化探索,研究提出了一种BERT-BiLSTM-CRF深度学习模型进行命名实体识别工作。实验结果显示研究提出的模型对于命名实体的识别率平均F1值为96.55%,验证了所提方法的有效性,证明了上述研究有效地提高了命名实体识别准确率。