摘要

专利数据是分析企业创新网络和技术情报的重要信息来源,基于专利数据资源进行著录项信息整合、分析和挖掘在企业创新实践中有着重要应用。然而,由于形近字和同音字的存在,在基于汉字的某些输入法向我国专利数据库中录入著录项信息时,很容易产生发明家姓名歧义问题,这些歧义会影响企业对优秀发明家的识别、挖掘和培养,而且还会影响到发明家及其合作关系作用等的考察。鉴于此,针对发明家姓名中可能产生的歧义,本文在大规模专利数据环境下设计了一套发明家姓名消歧算法。最后以国内医药企业的专利信息为实例,验证了消歧算法的有效性和科学性,揭示了该算法对提高专利信息清洗效率的重要作用。