摘要

[目的/意义]乡村振兴战略给农业技术推广提出新的要求,使农业推广知识的供给形式有待进一步创新。以果蔬农技知识服务为需求导向,基于前沿大语言模型技术,面向新型农业知识导读和知识问答等农技推广服务,构建果蔬农技知识智能问答系统。[方法]基于草莓种植户需求分析,把草莓栽培农技知识划分为不同主题,形成知识对象识别和知识问答两种大模型下游任务,结合机器自动标注和人工标注的方法构建小样本高质量训练语料;通过对比已有的4种大语言模型:Baichuan2-13B-Chat、Chat GLM2-6B、Llama-2-13B-Chat、Chat GPT的性能表现,选择性能最优的模型作为基础模型,按照“优质语料+预训练大模型+微调”的研究思路,训练具有语义分析、上下文关联和生成能力,能够适应多种下游任务的深度神经网络,构建农业知识问答大模型;采用数据优化、检索增强生成技术等多种策略缓解大模型幻觉问题;研发果蔬农技知识智能问答系统,生成高精度、无歧义的农业知识答案,同时支持用户多轮问答。[结果和讨论]以精准率和召回率为命名实体识别任务的性能表现指标,参与测评的国内主流模型在微调后不同知识主题下的平均精准率均超过85%,平均召回率表现各异,其中知识实体类型的数量、标注语料数量等因素都会影响大模型性能;以幻觉率和语义相似度为知识问答任务的性能表现指标,数据优化、采用检索增强生成技术等策略以10%~40%的幅度有效降低大模型幻觉率,并有效提高大模型的语义相似度。[结论]在农业领域的命名实体识别和知识问答任务中,预训练大模型Chat GLM的表现性能最优。针对预训练大模型下游任务的微调和基于检索增强生成(Retrieval-Augmented Generation,RAG)技术的模型优化可以缓解大模型幻觉问题,显著提升大模型性能。大模型技术具有创新农技知识服务模式、优化农业知识推广的潜力,能够有效降低种植户获取高质量有效知识的时间成本,引导更多的种植户实现农业技术创新和转型。但是由于性能不稳定等诸多问题,大模型的优化方法和具体场景应用仍需进一步深入研究。