摘要

生物活性肽作为21世纪人类健康的新宠儿,研究证明其对人体生命活动有着很好的作用,其检测方法也是备受关注,太赫兹时域光谱技术因为其独特的性质在检测生物活性肽中有着不可比拟的优势。选用牛骨肽、海参肽和牛肽这三种生物活性肽,通过透射式太赫兹时域光谱系统得到其在0.5~2 THz的吸收系数曲线。从太赫兹吸收系数曲线来看,鱼肽吸收系数大于海参肽和牛骨肽。因为生物活性肽的氨基酸种类和肽键的相互作用,导致其在太赫兹频段内没有明显的吸收峰,为了更好的对其进行检测区分,建立分类判别模型,寻找出最适合这类物质的方法。在对太赫兹原始吸收系数数据进行S-G平滑处理,归一化预处理之后,随机选取四分之三预处理好的数据划分为训练集,其余为预测集,导入分类判别模型。模型包括分类器和最优参数选取两部分,分类器选取支持向量机,随机森林和极限学习机等有监督的分类方法,使用遗传算法、粒子群算法和网格搜索等智能优化算法选取支持向量机最优参数。为了减少原始光谱数据维数并提高模型的运算速度,使用主成分分析进行预处理,将降维之后的结果导入分类模型。综合考虑其准确率和运行时间等因素,虽然基于粒子群算法的支持向量机具有最高的准确率98.3%,但是运行时间较长为180 s;使用极限学习机能够有着最短的运行时间0.2 s,但是准确率为73.3%。基于网格搜索的支持向量机准确率为95%,运行时间为11 s,能够在准确率较高的情况下使用较短的时间,证明基于网格搜索的支持向量机对生物活性肽太赫兹吸收光谱具有快速,准确的分类结果。研究结果表明,利用太赫兹时域光谱技术结合机器学习算法能够实现快速、无损检测生物活性肽,为生物活性肽的检测提供了一种新思路,同时也为THz-TDS结合机器学习对吸收峰不明显的多肽之间的鉴别提供参考。