摘要
蛋白质交互关系(PPI)是生物医学领域的重要研究内容之一,目前通过生物医学实验得到的PPI信息主要以文本的形式存储在相关文献中。随着生物医学文献数量的飞速增长,人工识别PPI的方式已经难以满足实际应用需求。文中采用基于弱监督的PPI识别基础框架,以少量有交互关系的蛋白质对作为种子集,通过对种子集的不断迭代扩充,最终实现蛋白质交互关系识别。相比于现有的其他方法,该方法仅需少量有标注数据实现了较好的识别效果,节省了大量人力物力。在此基础上,利用词向量对现有的表达交互关系的关键词进行扩充,并对关键词的可靠性进行评分,根据扩充后的关键词集合对基础框架的聚类过程做了改进,将聚类的输入词汇模式集合根据所包含的关键词分数做降序排序。实验结果表明,基础的PPI识别框架仅有少量有标注数据取得了较好的结果,在此基础上改进后的关键词扩充算法进一步提高了PPI识别结果,第一次迭代后的F值最高为67.20%,比改进前的算法提高了1.54%,三次迭代后的F值为69.05%。
- 单位