インパクトファクターの信頼性

 インパクトファクター(impact factor:以下IF)とは、トムソン・ロイター(Thompson Reuters)社の有料サービス Journal of Citation Reports によって提供される科学雑誌の評価基準です。IF は毎年計6月下旬頃に発表されています。例えば、最新の2009年の IF の計算方法を下に示します。


2009年の IF = (対象雑誌の2007年と2008年に掲載した論文が2009年に引用された合計回数)÷(対象雑誌が2007年に掲載した論文数 + 2008年に掲載した論文数)*1


 つまり発表後2年以内に、論文あたりできるだけ多く引用されている雑誌ほど影響力が強いという指数といえるでしょう。去年からは、5年 IF というのも公表されています。


2009年の5年 IF = (対象雑誌の2004年、2005年、2006年、2007年と2008年に掲載した論文が2009年に引用された合計回数)÷(対象雑誌が2004年に掲載した論文数 +2005年に掲載した論文数 +2006年に掲載した論文数 + 2007年に掲載した論文数 + 2008年に掲載した論文数)


 科学雑誌を発行する大手出版社の中には、IFを使って、対象分野ごと、例えば Biology 分野なら、73雑誌中2位の IF を持つ雑誌、というように宣伝し購読と投稿を募っている状況があります。雑誌の注目度があがればそれだけ購読する必要がでてきます。投稿数が増えれば、それだけ掲載スペースをめぐる競争が激化し、受理されるのが難しくなります。つまり、IF の高い雑誌は購読数が増えるだけでなく、そういった雑誌に掲載されることが研究者間の評価にもつながりうる素地を与えています。


そのような状況下では、IF が高い雑誌に論文を発表しているかということが研究者の評価基準として用いられる傾向があります。そして、多くの研究者は、自身の論文をできるだけ高い IF をもつ雑誌に投稿する傾向が強くなっていくのです。


 さて、そんな IF ですが、最新のものにミスがあったようで、Noticesとして公表されています。しかし、まだ現行の Journal of Citation Reports には反映されおらず、9月くらいにまとめて更新されるようです(Notices は9月まで毎週更新される予定)。


Journal Citation Reports® Notices


 人間が関わっているサービスなのでミスがあるのはあたりまえでしょう。しかし、気になっていろいろ調べてみると、IF の計算や使われたデータにはよくわからない部分がけっこうあるのに気づきました。


 例えば、雑誌が創刊されてまだ1年しか経ていないのに、2年の IF や5年 IF が公表されている点です。データのない年をゼロとしてカウントしても両方のインパクトファクターが原理的には計算されますが、おかしいのは、2年 IF より5年 IF の方が高くなっていることがあるからです。


例えば、2008年に創刊されたばかりの Nature Geoscience をみてみましょう。公表されているのは 2年IF = 8.108、5年IF = 8.115 です。各雑誌ごとに計算のもとなったデータも公表されています。それをみると、


Cites in 2009 to items published in:
2008 = 1035
2007 = 19
Sum: 1054


Number of items published in:
2008 = 130
2007 = 0
Sum: 130


Calculation:
Cites to recent items / Number of recent items
= 1054 /130 = 8.108



2010年7月26日付けJournal of Citation Reportsより


 2007年のitems(出版論文数)は確かにゼロなのに、2007年論文が2009年に19回も引用されています。2007年には論文が発表されていないはずなのになぜ? この2007年の19をなかったことにすると、IF = 1035/130 = 7.96 と、7点台に落ちてしまいました。


さらに5年 IF の計算を見ると・・・


Cites in 2009 to items published in:
2008 = 1035
2007 = 19
2006 = 0
2005 = 0
2004 = 1
Sum: 1055


Number of items published in:
2008 = 130
2007 = 0
2006 = 0
2005 = 0
2004 = 1
Sum: 130


Calculation:
Cites to recent items / Number of recent items
= 1055 /130 = 8.115


2010年7月26日付けJournal of Citation Reportsより


 論文の存在自体ありえないはずの2004年論文が1回引用されています(これで5年 IF の方が高い値をとっている)。


同様に、2006年に創刊されたPLoS ONEも、まだ5年経っていないのに、2年IF = 4.351より5年IF = 4.383の方が大きい値をとっています。これも5年IFの計算を見ると・・・


Cites in 2009 to items published in:
2008 = 10624
2007 = 6580
2006 = 720
2005 = 3
2004 = 4
Sum: 17931


Number of items published in:
2008 = 2725
2007 = 1229
2006 = 137
2005 = 0
2004 = 0
Sum: 4091


Calculation:
Cites to recent items / Number of recent items
= 17931 /4091 = 4.383


2010年7月26日付けJournal of Citation Reportsより


 ありえないはずの2005年と2004年の論文が2009年に引用されていたりします。


 他にも創刊2年または5年に満たない雑誌にもすでに2年IFと5年IFが計算されており、同様の意味不明の数値が散見されます。


とはいえ、IF にしてわずか0.2点未満のミスで、たいした意味をもたない誤算の範囲内かもしれません。しかし、IFが全体として低い分野だと、小さな変動が雑誌の順位を大きく上下させてしまうこともあるでしょう。


例えば、Entomology(昆虫学)分野で大きなミスのあった例として、Insect Conservation and Diversity があります。この雑誌も2008年から創刊されたばかりなのに、2年IF = 2.828 と5年IF = 2.862の両方が公開されています。


Cites in 2009 to items published in:
2008 = 46
2007 = 36
Sum: 82


Number of items published in:
2008 = 29
2007 = 0
Sum: 29


Calculation:
Cites to recent items / Number of recent items
= 82 /29 = 2.828


2010年7月26日付けJournal of Citation Reportsより


ここでもありえない2007年の論文が引用されています。しかも数字が相対的に大きい。この2007年の引用をなくすと、2年IF = 46/29 = 1.59と、2.83 からいっきに1.24ポイントも下落しました。2.828 は、Entomology分野で74誌中4位でしたが、補正後には15位まで落ちてしまいます。


 さすがに Insect Conservation and Diversity については、JCRの方も間違いをNoticesにて訂正しています。しかし、訂正後の2年IFは 1.621 で私が勝手に補正した値とは異なっているのも謎です。


 また、Journal of Citation Reports のデータベースに漏れてしまった雑誌も多数あります(Noticesの中で「did not appear」となっている雑誌)。例えば、英国王立学会のProceedings シリーズのAとBもなぜか漏れてしまった雑誌で、ウェブサイトでは漏れてしまったIFを公表しています(流石)。一方、先の Insect Conservation and Diversity のウェブサイトでは間違いの(高い)IFのまま未だ訂正していません(面白)。


 同様にトムソンの論文引用データベースである Web of Science にも引用のミスを見つけたこともあります*2。しかも、連動しているはずのWeb of ScienceとJournal of Citation Reportsのデータが必ずしも一致していないような気もします。つまり、IFの計算のもとデータは、Web of Scienceからは直接手に入れられないのではないか(もしくはかなり困難か)、ということです。もちろん、勝手に計算できるならJournal of Citation Reportsを有料サービスとして提供するのに支障がでるのでしょう。しかし、外部から検証できないという意味で、IF自体の信頼性は判断できないということです*3


 このような状況をみていると、データの信頼性が不明なJournal of Citation Reports を提供しているトムソンと、IF を商業的に利用しようとしている(多くの専門誌の発行を担っている)大手出版社との間には Win-Win 関係が生み出され、世間知らずで競争好きの研究者たちが踊らされ搾取されているという構図を思い描いてしまいました。


 トムソンや大手出版社を特別に批判したいというわけではありません。自戒を込めて思うのは、研究者自身がトムソンや大手出版社の基準を妄信するのではなく、より多角的な視点をもっておきたいということです。

*1:なお母数となる論文数については、編集者による紹介記事や書籍レビューなどはカウントされませんが、引用数(分子として)はカウントされるという奇妙な計算方法をとっています。つまり論文ではないが編集者による依頼で書いた短い総説がよく引用されれば雑誌のIFは増加しやすいということです。

*2:もちろん無料検索のGoogle Scholarよりは精度が高いとはいえますが、完璧ではないということです。Web of ScienceはGoogle Scholarように書籍の引用検索ができないという欠点もあります。

*3:上記のようなミスかどうかもよくわからないような数値が多いと、信頼性は高いとはいえないでしょう。