为能在缺乏粤语分词语料的情况下进行粤语研究,提出一种基于无监督与有监督结合的粤语分词方法。利用多源语料完成粤语词库的构建;利用二元字典与粤语词库对初步结果进行初筛分词和二次分词;利用DAG对粤语通用句式切分错误进行分析并修正;将修正后的粤语分词语料利用深度学习模型固化分词效果,得到基于Bert-BiLSTM-CRF三层架构的分词模型。实验结果表明,该方法能有效克服预分词语料的缺失问题,在无需大量分词语料的情况下,F值达到74.3%。