摘要
现阶段新闻出版行业一般都会应用采集标准结构化信息的方式,以此来说标准文献当中的标引工作进行实际的标引,如果没有根据标准的实际内容完成标引工作,可能会造成用户没有办法在查询过程中很快地定位到标准内容,基于此,标准碎片化标引方案被新闻出版行业提了出来。按照标准的特点,对标准的结构还有内容进行存储,从而把新闻出版行业的词库建立起来,并通过统计加权算法做好分词工作,对词频、词性、词长,还有位置进行综合的考虑。在实验当中论证,这一方案能够帮助新闻出版行业标准实现碎片化的标引,从而使检索的效率还有质量得到进一步的提高。
-
单位北京万方数据股份有限公司