引文分析(Citation Analysis)是利用数学及统计学的方法和比较、归纳、抽象、概括等逻辑方法,对科学期刊、论文、著者等各种分析对象的引证与被引证现象进行分析,进而揭示其中的数量特征和内在规律的一种文献计量分析方法。
方法简介
引文分析方法的数学基础是
概率论与
数理统计。在进行分析比较时,已将其作用排除在测度结果之外了。
科技文献的引证与其被引证现象进行研究的过程。使用的方法有图论、模糊集合、数理统计等数学方法和逻辑思维方法,目的在于揭示文献所蕴含的情报特征和相关关系。
现代科学论文的一个重要特征是,在“参考文献”标志下依序列出所援引文献的著录事项。参考文献 (被引用文献)与正文(引用文献) 的简单逻辑关系就是引文分析的基础和背景。致力于引文分析理论和技术研究的文献学家主要有
格罗斯、.布朗等。
普赖斯于1956年发表重要著作《科学论文的网络》,为引文分析奠定理论基础,E.加菲尔德于1953年受
法律业务工具书
《谢泼德引文》的启发,于1961~1963编成
《科学引文索引》(SCI),使引文分析具备了实用的工具。
引文分析适于探索科学的微观结构,便于超越时间空间,跨学科组织文献,同传统的分类法和主题法截然不同,使文献有序化,有利于对文献由表及里地深入展开分析,更易于量化。
引文分析中还有一些辅助概念,运用也较普遍:①文献耦合。一篇参考文献被两篇文献引用便构成一个引文偶,引文偶愈多,说明两篇文献关系愈密切。②同被引。两篇论文共同被后来的一篇或多篇论文所引用的现象,其量度是同被引强度,即两篇(或多篇)文献同被后来的文献所引用的频次,显然,同被引频次愈高,两篇论文相关性愈强。③自引。作者引用自己以前发表的独撰与合撰论文的现象,自引还可以扩展到杂志、学科、地区、团体乃至国家对文献的反身自用。
引文分析主要用于指导编制各种新型
检索工具,为科学管理提供量化的依据,探讨科学的结构,评价与选择期刊,考察科学著作及科学家的社会影响等。关键是开发或引进更为有效的分析方法。
类型
从不同的角度和标准来划分,引文分析方法有着不同的类型。如果从获取引文数据的方式来看,有直接法和间接法之分。前者是直接从来源期刊中统计原始论文所附的被引文献,从而取得数据并进行引文分析的方法;后者则是通过“
科学引文索引”(SCI)、“期刊引用报告”(
JCR)等引文分析工具,查得引文数据再进行分析的一种方法。若从文献引证的相关程度来看,则有自引分析、双引分析、三引分析等类型。如果从分析的出发点和内容来看,引文分析大致有三种基本类型:
1.引文数量分析:主要用于评价期刊和论文;研究文献情报流的规律等。
2.从引文间的网状关系或链状关系进行研究:科学论文间存在着一种引用关系网,如A被B引, B被C引, C又被A引等。研究这种关系主要用于揭示学科的发展与联系,并展望未来前景等。
3.从引文反映出的主题相关性方面进行研究:主要用于揭示科学的结构和进行文献检索等。
主要内容
从不同的角度或从各种基本要素出发,对科学引文的分布结构进行描述和分析,便形成引文分析的基本内容,一般包括:
引文年代分析
一般来说,随着年度的由远而近,引文量呈增长趋势,即时间愈近,被引用的文献愈多;文献被利用的峰值是该文章发生以后的第二年。如果以引文年代为横轴,各年引文量为纵轴,在坐标图上描绘各年数据点,然后用一条线连接起来,便可得到一条引文年代分布曲线。通过对该曲线的分析,不仅可以了解被引文献的出版、传播和利用情况,而且可以研究科学发展的进程和规律,特别是在文献老化和科技史的研究中,引文年代分析更是一种广泛应用的有效方法。
引文量分析
引文量是某一主体对象含有的参考文献数量。它是引文链的基本特征之一。通过引文数量的分析,不仅可以揭示文献引证与被引证双方的相互联系,而且还可以从定量的角度反映出主体之间的联系强度。如果两篇论文或两种期刊之间的引文数量大,就可以认为它们之间的引证强度大,说明其联系较紧密。引文量的分布规律可从下列几个方面分析:
(1)引文量的理论分布:我们将一定量的论文的引文量数据进行分析比较,发现其变化规律表现为以平均数为中点,接近中点的频数最多,离平均数远的频数趋于减少,形成中间高两极低的正态理论分布。
(2)引文篇数分布:即每篇研究论文平均占有的引文篇数的分布。它不仅反映了论文作者引用文献的广度和深度,而且还能说明引文与被引文的学科内容之间的联系强度。
集中与离散规律分析
引文分布的集中性与离散性是相对于一定的测度指标而言的。引文按来源期刊的分布,引文篇数的频数以平均数为中心的分布,引文按年度、语种、文献类型等的分布,都表现出这种集中与离散的趋势。
引文类型分析
科学研究中引用的文献很广,有期刊论文、图书和特种文献。对被引文献的类型进行分析,将有利于确定文献情报搜集的重点。
引文语种分析
引用文献是由不同语种的文献构成的。某一语种的文献被引用量愈大,则说明该语种比较常用和重要。考察和分析引文语种的分布,对于人们有计划地引进外文文献、译文选题、外语教育等,颇有参考价值。
引文国别分析
对引文的国别分析,特别是各国文献互引情况的统计分析,可以探明各国互引文献的状况,弄清国际文献交流的数量和流向。
常见特点
广泛适用性
引文分析的素材是引文与被引文,而引文现象又是普遍存在的。以期刊论文为例,全世界范围约有90%以上的科学论文附设了引用文献,平均每篇论文有引用文献15篇。我国当今88%左右的重要科学论文带有引用文献,平均每篇中文科学论文有引用文献8.9篇,可以说,凡是有引用文献的地方,引文分析方法就有用武之地,所以,引文分析方法具有广泛适用性。
简便易用性
由于引文分析不要求其它先决条件和辅助条件,不需要使用者具有十分专深的知识,研究的深度、广度可以由自己控制,所以一般的信息人员都可以借助于这种方法,完成一些有价值的研究课题,解决一些工作中的实际问题。总之,这种方法的使用限制极少,简便易用,很值得在广大的信息人员中普及推广。
功能特异性
由于引文分析方法具有广泛适用性和简便易用性的特点,通过一些不太复杂的统计和分析,就可以确定核心期刊、研究文献老化规律、研究信息用户的需求特点,甚至可以研究学科结构、评价人才等,我们不能不为其功能而感叹。
局限
著者引用文献是一个人为控制的思维和判断过程,而作为其表现形式的引用文献,仅仅是宏观的、表面的测度,受到许多限制因素的影响。
关系上假联系的影响
引用文献的原因多种多样,两篇论文可能出于完全不同的原因或从不同的角度引用同一篇早期文献,一篇可能是引用其方法,另一篇可能是引用其结果,那么这两篇文献在内容上的联系就有可能是虚假的。引文有些是发生在前言和篇名中;有些是发生在正文中;有些发生在结论或讨论中。在这些情况下,作者对原著的引用内容和程度是不相同的。引文对原著的关系和重要性也各不相同,但在的引文分析中,对它们都是同等看待,不加区分的。这样也容易造成成假关系。新刊的论文得不到大量引用;小型期刊被引率往往低于大型期刊;引而未用或用而未引的情况也时有发生。文献引用中的这些现象都会影响引文分析方法的应用和效果。
马太效应的影响
有的研究者认为,在文献引用方面也存在着马太效应的影响。人们往往以“名著”、“权威”作为选择引文的标准,有的确是出于需要,也有的则是为了装饰门面,抬高自己论文的身价。一种期刊因为发表名人的文章而为众人所引用,以至引起连锁反应,结果其引文率很高。这种马太效应的心理作用,掩盖和影响着文献引用的真实性。
测度指标
一般来说,对科学期刊进行分析时常用的测度指标有五种:即自引率、被自引率、影响因子、引证率与当年指标。在对专业和学科结构进行研究时,除用引证率外,还可用引文耦合和同被引等测度指标。
1.自引率
在引用文献的过程中,限于主体本身范围内的引用称之为“自引”。包括同一类学科文献的自引、同一期刊文献的自引、同一著者文献的自引、同一机构文献的自引、同一种文献的自引、同一时期文献的自引、同一地区文献的自引。自引率就是对主体本身范围内文献引用的次数与主体引用的文献总数的比值。
2.被自引率:这是被引用现象的一个测度,被自引率就是主体文献被自引的次数与主体被引用的总次数的比值。它反映出被引用中有多少是被自己引用的。
3.影响因子:主要在研究科技期刊时使用,等于期刊在规定时间内(一般是两年)论文被引量与可引论文总数之比。
4.引证率:期刊引证率等于该刊中参考文献量除以期刊载文量。这是衡量吸收文献能力的一个相对指标。
5.即时指标:这是测度期刊被引用速度的指标,它是期刊某年发表的论文当年被引用的次数,除以该刊这一年所发表文章的总数,是衡量期刊重要性的一种依据。
6.引文耦合:当两篇文章同时引用一篇或多篇相同的文献时,这种现象称引文耦合,这两篇文献就具有耦合关系。引文耦合的文献之间总存在着这样或那样的联系,其联系的程度称为耦合强度。
7.同被引:当两篇(多篇)论文同时被别的论文引用时,则称这两篇论文具有“同被引”关系,引用它们的论文的多少,即同被引程度,称为同被引强度。
应用领域
引文分析技术日趋完善,应用不断扩大,已发展成为
文献计量学的重要方法之一。引文分析方法的应用主要有以下几个方面:
1.测定学科的影响和重要性:通过文献引用频率的分析研究可以测定某一学科的影响和某一国家某些学科的重要性。
2.研究学科结构:通过引文聚类分析,特别是从引文间的网状关系进行研究,能够探明有关学科之间的亲缘关系和结构,划定某学科的作者集体;分析推测学科间的交叉、渗透和衍生趋势;还能对某一学科的产生背景、发展概貌、突破性成就、相互渗透和今后发展方向进行分析,从而揭示科学的动态结构和某些发展规律。
3.研究学科信息源分布:通过文献间的相互引证关系,分析某学科(或专业)文献的参考文献的来源和学科特性,不仅可以了解该学科与哪些学科有联系,而且还能探明其信息的来源及分布特征,从而为制定本学科的信息管理方案和发展规划提供依据。
4.确定核心期刊:引文分析方法是确定核心期刊的常用方法之一。这种方法的主要特点,是从文献被利用的角度来评价和选择期刊的,比较客观。加菲尔德通过引文分析,研究了文献的聚类规律。他将期刊按照期刊引用率的次序排列,发现每门学科的文献都包含有其它学科的核心文献。这样,所有学科的文献加在一起就可构成一个整体的、多学科的核心文献,而刊载这些核心文献的期刊不过1000种左右。利用期刊引文的这种集中性规律可以确定学科的核心期刊。
5.研究文献老化规律:有关文献老化的研究一般是从文献被利用角度出发的。D.普赖斯曾利用引文分析探讨文献的老化规律。通过对“当年指标”和“期刊平均引用率”的分析,他认为期刊论文是由半衰期绝然不同的两大类文献构成的,即档案性文献和有现时作用的文献。科学文献之间引文关系的一种基本形式是引文的时间序列。对引文的年代分布曲线进行分析,可以测定各学科期刊的“半衰期”和“最大引文年限”,从而为制定文献的最佳收藏年限、对文献利用进行定量分析提供依据。同时,一个学科的引文年代分布曲线与其老化曲线极为相似。这有力地说明文献引文分布反映了文献老化的规律性。因此,从文献引用的角度研究文献老化规律是一种有效的途径和方法。
6.研究信息用户的需求特点:利用引文分析方法进行信息用户研究是一种重要途径。根据科学文献的引文可以研究用户的信息需求特点。一般来说,附在论文末尾的被引用文献是用户(作者)所需要和利用的最有代表性的文献。因此,引文的特点可基本反映出用户利用正式渠道获得信息的主要特点,尤其是某信息中心对其所服务的用户所发表的论文的引文分析,更具有直接的指导意义。通过对同一专业的用户所发表的论文的大量引文统计,可以获得与信息需求有关的许多指标,如引文数量、引文的文献类型、引文的语种分布、引文的时间分布、引文出处等。
7.评价人才:在人才评价方面,常采用引文分析方法。这是因为某著者的论文被别人引用的程度可以是衡量该论文学术价值和影响的一种测度,同时,也从科研成果被利用的角度反映了该著者在本学科领域内的影响和地位。因此,引文数据为人才评价提供了定量依据。从对历年
诺贝尔奖金获得者的论文被引用情况的统计来看,物理学、化学、医学领域中诺贝尔奖金获得者中,其论文被引次数最高者(L.D.Landan)为1888次;最低的也有79次(J· H· D· Jensen);只有六名低于 200次。可见,这些科学界的论文的引用次数是很高的。