基于文献计量的信息检索相关性分析研究

发表时间:2017/9/5   来源:《知识-力量》2017年7月下   作者:董红丽
[导读] 本文选取 CNKI 期刊收录的近10 年我国信息检索相关性研究的论文.

(黑龙江省 哈尔滨市 黑龙江大学 研究生学院)
[摘要]:本文选取 CNKI 期刊收录的近10 年我国信息检索相关性研究的论文,基于文献计量学对收集的数据进行了量化分析,从年度发文数量、主要关键词分布,文献来源分析,高产作者分析等方面对信息检索相关性的研究进展及研究概况进行了全面系统的梳理,期望为该领域进一步研究提供借鉴。
[关键词]: 文献计量分析 信息检索 相关性
Ⅰ.引言
        自 19 世纪 50 年代人们对信息检索相关性问题开始探讨以来,相关性一直是信息检索领域的核心研究内容之一,也是该领域一个非常重要的概念,得到了国内外研究人员的青睐,也取得了颇为丰硕的研究成果。

Ⅱ.数据来源
        笔者以中国知网CNKI 学术文献总库为数据统计来源,检索条件设置为:主题=信息检索 并含 相关性(精确匹配),或者篇名=信息检索 并含 相关性(精确匹配);发表时间:2007年1月1日到2016年12月31日;检索时间是 2017年 02 月 16 日。共检索出733篇相关文献。

Ⅲ.统计结果分析
3.1年度分布分析
        年度分布分析可以直观的反应每年在中国知网CNKI上发表的期刊数量,间接的反应出信息检索相关性这一课题领域的总体发展趋势和该领域每阶段的研究热度。近10年来,我国对信息检索相关性的研究热度基本平衡,2008年论文发表量相对较少,2008以后呈明显上升趋势,并在2011年达到研究峰值,发表论文数量达到99篇,自2011年后,对该课题的研究热度呈逐年下降趋势,研究热度的下降可能是在信息检索技术的发展存在一定关系。通过对发表文献的内容进行简要分析发现,基础理论介绍类文章占有一定比例,技术和实证类文献数量有待提高。

3.2 关键词统计分析
        基于文献计量学中的齐普夫定律,分析某一研究领域中关键词频次分布以及关键词间的关系,可以总体了解该领域的知识结构,研究热点以及作者著述特征等。本文选取了出现频次在10次以上的关键词进行统计分析, 对上述关键词进行分类梳理,发现关键词主要分为两大类。搜索引擎,主题爬虫,图像检索,语言模型等关键词是对计算机检索系统的运行机制和检索技术方面的研究;查询扩展,相关性,相似度,个性化等关键词是对检索用户与系统之间的相关性评价和相关性反馈方面的研究。从关键词频次统计,除了信息检索,相关性等频次较高的关键词,查询扩展,搜索引擎,信息检索模型等词出现频次较高,说明近10年信息检索相关性研究领域的研究热点主要集中在查询扩展和搜索引擎等几个方面。这与近年来检索技术的发展和进步有着密切的关系。

3.3 文献来源类型分析
        分析文献来源得知,733篇文献来源类型相对较全面,包括硕博士学位论文,期刊论文和少部分国内会议文献。其中,硕博士学位论文数量分别为364篇和118篇,占文献总量的近70%, 说明信息检索相关性研究群体大部分来自各高校研究生和博士生,研究人员普遍学历水平更高。


期刊论文数量为241篇,占文献总量的32.87%,具体统计可知,将近半数的论文发表在相关领域核心期刊中,论文下载数量及被引用率均很高,说明信息检索相关性的研究成果质量较好。文献类型中还存在10篇国内会议论文,说明信息检索相关性研究在国内相关会议中具有一定的学术关注度。

3.4 核心期刊载文分析
        布拉德福定律是文献计量学的重要定律之一,利用布拉德福定律,可以确定某一学科领域的核心期刊,对学术研究具有重要意义。本文对检出的237篇期刊文献进行分析,利用布拉德福定律确定发表信息检索相关性文献的核心期刊,找到研究该课题的主要阵地。依据布拉德福定律,将本文检出的237篇期刊论文所载的期刊,按刊载论文量的多少,以递减顺序排列,并根据载文量的多少分成3个区域,平均每个区域的文献数量为文献总量的1/3,即约为80篇。初步确定了信息检索相关性的核心期刊为《图书情报工作》《情报杂志》《现代图书情报技术》《情报科学》《计算机工程与设计》《计算机科学》《情报探索》《情报理论与实践》《计算机工程》。上述期刊为研究信息检索相关性的主要阵地,关注该领域的核心期刊,方便研究人员了解该领域的科研动态和研究热点。

3.5 高产作者分析
        洛特卡定律是文献计量学三大定律之一,是由美国学者A.J.洛特卡在20世纪20年代提出的描述科学生产率的经验规律,利用洛特卡定律可以根据某一学科领域内作者发文量的多少找出该学科领域的高产作者,分析其科学生产力,从而衡量该门学科的发展。普莱斯在洛特卡定律的基础上总结出高产作者计算公式,经过对信息检索相关性领域不同作者发文量统计,M=0.749√Nmax(其中 Nmax 为最高产作者论文数) 统计得知,王明文为最高产作者(8篇),则计算 M 值为 2.11,M 取邻近最大整数为 3,发文≥3 篇的作者称为高产作者。

        Ⅳ 结语
        关于信息检索相关性的研究在国外已经比较成熟,有近百年的研究历史,但在中国的研究起步较晚,取得了一定成效,但大多数都停留在理论研究阶段,关于技术等的研究相对缺乏,在今后的研究中还需加强。近年来由于技术等的限制,研究成果相对有所下降。研究热点主要集中在搜索引擎,查询扩展等检索技术方面。研究高产机构和作者均出现在高校,硕士博士学位论文占很大比重,研究群体体现出高学历,高素质的特点,如高校教师图书馆员等是信息检索相关性研究的主要力量。在未来的研究中,研究人员应多以理论为指导,结合技术发展进行实践研究,做到理论与实践的结合,改善信息用户检索结果。

参考文献:
1.蒲攀,丁苗苗,宋辰皓. 基于文献计量分析的我国信息检索相关性研究[J]. 情报探索,2014( 11) : 102 -106.
2.慕慧鸽,张军. 国内情报学领域信息检索相关性研究进展分析[J]. 图书馆学研究,2016 ( 6) : 10-14.
3.任雅晴,吴景海. 国内图情领域检索相关性研究分析[J]. 情报探索,2016 ( 2) : 122-126.
4.李洋. 国内信息检索用户相关性研究现状分析[J]. 情报工程,2015 ( 10) : 59-67.

 

投稿 打印文章
留言编辑 收藏文章 推荐图书 返回栏目 返回首页

  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: