近年来,“影响因子”被广泛应用于各种学术业绩的评定中,旨在测度学术成果的质量和影响。本文简要论述相关的问题。
“影响因子”的定义和计算
“影响因子”(Impact Factor, IF)的定义算式如下:
期刊A在X年的“影响因子”= 分子/分母
式中:
•分子= 数据库中X年的所有出版物对期刊A发表于(X–1)和(X–2)两年中所有文章的总被引数
•分母= 期刊A发表于(X–1)和(X–2)两年的正式论文的总数
•“正式论文”包括研究论文(Research Articles)、评述和综述(Reviews,Overviews)、研究短文(Research Notes)、进(Proceedings)等一般须经同行评审才能录用的文章
•“所有文章”包括“正式文章”、来信(Letters)、公告(Announcements)、评论(Editorials)、新闻(News)、通讯(Correspondence)、书评(Book Reviews)及其他所有刊登的文章。
“影响因子”和各种被引测度不能胜任对原创学术的质量和影响的有效测度
由上可见,“影响因子”计算一种平均被引率,因而更贴切之名是期刊的“被引因子”(Citation Factor)。而被引率在多大程度上能反映学术影响或质量,颇具争议。简述如下:
•学术质量和贡献与学术影响虽有正相关,但也很不同,这或多或少像畅销书与学术专著之间的关系。学术质量和贡献与长期学术影响的正相关较大,而与短期学术影响的正相关较小。连SCI和“影响因子”的创立者尤金·加菲尔德都曾说过:论文的影响与论文的重要性及意义是两码事。何况,IF只考虑两年内的平均被引率,尽管有些根据,但它至多只能相当片面地反映期刊所刊论文“昙花一现”式的短期学术影响,而与长期经久的学术影响关系较小。这正像以下情况:一本书在出版后两年的销量与其学术影响、特别是学术质量和贡献关系不大。
•各种“被引”测度都无视期刊对不写SCI论文的大量读者的影响,比如工程和应用研究人员,因而至多只能片面反映对SCI论文作者的一定影响,而不能反映对应用和实践的直接影响。所以,以平均被引率来度量影响,对工程和应用研究领域的期刊明显不公。
•被引率根本不考虑期刊所载文章的原创性和原创度。非原创文章有可能不被计入分母而被计入分子,所以也刊登不少非原创文章的期刊比只发表原创论文的纯学术期刊在IF的计算上明显占优,非原创文章篇数的比例越大越占优。而且,期刊的被引率有赖于可读性、可获得性(比如开源期刊)等众多非原创性因素。
•引源不同,所引意义可以悬殊。比如,一项成果被写进广为采用的教科书、被采纳为某项政策的基础,等等,与一般引用有天壤之别。被重要文章所引与被泛泛之作所引,不可同日而语。被一篇参考文献寥寥无几的文章所引,与被一篇参考文献众多的文章所引,也大有区别。然而,被引率对此都“等量齐观”。
•“引”的种类繁多,性质和意义各不相同,它包括正引(正面之引)、反引(批判性、反驳性之引)、他引、自引、实引(实质之引)、虚引(非实质之引)、褒引(褒扬尊敬赞同之引)、例引(举例列举比较之引)、崇引(崇拜而引)等诸多类型,以及迫引(被迫而引)、互引(友情互引、交易互引、团队成员互引等)、转引(未读而引)、漏引暗引(用而未引)、谀引(阿谀奉承之引)、再引(误归荣誉给非首创者之引)、代引(不引原文而另引他文)等不妥行为。各种被引测度对这些区别“视而不见”。
•IF的算式无视各个引用的不同作用和重要程度。在一篇论文中频频被引的主要参考文章、仅被引一次的无关之引,以及有力引用、适度引用、罗列引用、只引不用、表面引用、无关引用,等等,都被“一视同仁”。
•被引率不等于被用率,被引的文献不等于实际参考过的文献:由于种种原因,“引而不用,用而不引”的现象并不罕见。此外,引用引证行为常常图方便省力,容易造成马太效应等“失真”现象。
上述各点均说明,作为测度学术影响、质量、原创度和贡献的工具,“影响因子”及各种被引测度大有弊端和局限。
“影响因子”的影响因素
短时滞期刊/研究的IF高:①若期刊的出版时滞长,则大多所引文献老于两年,不被计入IF算式的分子中,造成相应领域的IF偏低,因为学科领域自引和期刊自引在IF算式中所占比例非常大。注意,不少审稿严格(要求审稿人数多且多次反复修改)的高水平高质量期刊的时滞长,其IF严重受损,明显低于其实际影响水平。②研究课题越能速成,其领域期刊的IF越高。比如,分子生物学、临床医学等领域的时滞远比工程科学的短。③意味深长、影响深远、打破常规的研究成果因不易理解而影响时滞长,短期被引率较低。④“引界”认可“先者为王”:作者常倾向于只引首先发表的,因而时滞短的更易占得先机。总之,IF鼓励有急功、多近效的学科、领域、期刊和行为。
学科领域的影响:①由于种种原因,IF所用数据库收录的各学科期刊的总数差别很大,学科领域越是热门新潮,其期刊越容易被收录。比如,IF所用数据库收录的期刊总数曾有多年过半与生物学医学有关。再如,在计算机科学,有些会议比SCI期刊的声誉和质量高不少,却未被SCI数据库收录。②学科领域自引在IF分子中比重极大,因此,相互易懂的大学科领域的IF较高,而“曲高和寡”、“隔行如隔山”相互难懂的小学科领域的IF较低,即越专精艰深的学科领域,IF越低。研究表明,生命科学期刊的IF值大都远远高于数学期刊(可达20倍左右);就平均IF而言,生物学领域最高,工程技术领域最低。③多产速效、人多势众的学科领域,IF较高。④一个学科领域录用文稿的平均门槛越低,则可引论文越多、领域越大,因而IF越高。⑤有些领域在行文习惯上比其他领域的参考文献数目大(比如有些医学论文频频注引出处),因而相应的IF占优。总之,不同学科和专业范围的期刊,IF不具有可比性。
期刊种类的影响:显然,所有文章的总被引数> 正式论文的总被引数,这个差值越大,IF越高。这个差值的存在没什么道理,主要是因为难以得到后者而用容易得到的前者来代替。所以,也刊登不少非正式文章的期刊比只发表正式论文的纯学术期刊的IF明显占优。这是医学期刊IF较高的一大原因。由此很容易理解,如下几类期刊的IF较高:快报、通讯等“短平快”类期刊(时滞短、差值大),综合性期刊,多学科和交叉学科期刊,综述类期刊或综述文章比例大的期刊。所以,IF前几名的期刊往往是生命科学和医学期刊以及综合性期刊《自然》和《科学》。期刊所覆盖的学科领域越专一,IF越低。再者,与大期刊相比,小期刊IF的时间波动更大。
英语期刊的IF高:IF所用数据库中英语期刊的数目远大于其他任一语种的期刊数,而且,同语种期刊的互引远远高于跨语种的互引。何况,英语是世界学术通用语,他种语言引英语远远多于英语引他语。
期刊被引率可迥异于论文被引率
一种期刊的被引率是该期刊被引情况的一种宏观测度,它约等于期刊中各论文的平均被引率(不全相等,因为上述所有文章数> 正式论文数)。所以,正如不能用一组大小各异之数的平均值来代替其中的一个数,也不能用期刊的被引率来代替其中一篇论文的被引率。研究表明,期刊中各篇论文的被引率,其分布极不均匀,很多期刊半数以上论文对期刊被引率的总贡献只有10%。
论文类型的影响:就被引率而言,评述论文、综述论文、介绍新方法的论文比原创研究成果类论文的明显高,热门领域的比非热门领域的高,新领域课题的比老的高,争议性大的论文比非争议性论文高。
结论
•学术影响、质量和贡献无法恰当合宜地量化,而且各学科领域千差万别,难以统一。因此,要想得到一个普适于所有学科领域,评判学术影响和质量的公平而统一的量化指标是不可能的。可能的是,遵循同类比较原则,得到这样一种各学科领域的通用评判方法,它充分考量学科领域各自的情况和特定变量。不同学科领域之间是难以做量化比较评判的。正因为如此,(非量化)同行评议才是国际学术界学术评判的长期传统;汤森路透公司不提供横跨各学科的分区或排名,而当下流行的中科院文献情报中心科学计量与评价课题组的跨学科大类分区思想值得商榷,遑论其实现基础是IF、被引率和一个所谓“普适于”各学科领域的经验公式——布拉德福集散定律。
•对科研产出的评判更重要的是深层的质量、原创度和影响,而不是表象的被引率。何况,“影响因子”更贴切之名是期刊的“被引因子”,而平均被引率只是期刊的短期学术影响相当片面而不够恰当的测度,遑论靠它来测度其中一篇论文的质量、重要性和影响。IF旨在反映期刊的平均被引率,而不是其中一篇论文的被引率,因而很不适用于测度个人和单篇论文的影响。
•不同学科和专业范围的期刊,“影响因子”不具有可比性。速效多产易懂领域的期刊“影响因子”较高。
•在学术评判中滥用IF有诸多恶果。例举如下:
不同类型的期刊,其IF的可比性很小。热门学科领域的IF值较高,IF的滥用明显助长了东亚、尤其是国内科技界近年来日益跟风追潮的风气。
IF太偏重于短期被引率,偏向于时滞短的研究领域和研究行为,因而片面追求高IF则鼓励急功近利,这是国内及东亚科技界近年来日益心浮气躁的原因之一。
IF的滥用是国内学术界学术论文引用引证不良行为日渐加剧的一大原因。
作为另一个佐证,国际上有越来越多的专家学者对IF的大范围滥用表示不满,比如可参见2016年7月14日的《自然》期刊,特别是Ewen Callaway的文章“Publishing elite turns against impact factor——Senior staff at societies and leading journals want to end inappropriate use of the measure”。美国微生物学会甚至在几周前公开声明将在它的期刊、网站、市场和广告中删去IF。
•话说回来,对于评价一个国家、一个地区、一所大学等成员众多的集合的总体情况,一个合理的客观评价指标,在没有成为被优化的指标时,相当有价值。但是,它一旦成为被优化的指标时,价值也就大打折扣。对于个人和小单位,采用这类客观指标一般都大有弊端,往往是弊大于利。把“影响因子”用于测度个人和小单位的学术影响和质量,正是如此。
作者:李晓榕,信息融合与目标信息处理领域的国际著名专家,在目标信息处理、信息融合、性能评估、估计、滤波、决策等领域有所建树,曾任国际信息融合学会主席,2009年入选国家“千人计划”。
——————————————————
来源:李晓榕的科学网博客
链接:http://blog.sciencenet.cn/home.php?mod=space&uid=687793&do=blog&id=994339