Ile wazy jedno cytowanie

Transkrypt

Ile wazy jedno cytowanie
Analiza bibliometryczna:
3 wrzesnia 2011
Ile waży jedno cytowanie ?
Karol Życzkowski
Instytut Fizyki UJ, ul Reymonta 4, 30-359 Kraków
Centrum Fizyki Teoretycznej PAN, al. Lotników 32/44, 02-668 Warszawa
Wskaźniki bibliometryczne bazujące na liczbach publikacji naukowych i ich cytowań
stanowić mogą jedynie pomocnicze narzędzie przy ocenie jakości pracy naukowej.
Dotarcie do rzetelnej informacji ukrytej w wartościach poszczególnych indeksów nie jest
proste, a niewłaściwa interpretacja danych scientometrycznych prowadzi do chybionych
ocen i błędnych wniosków.
W związku z wzrostem liczby osób pracujących naukowo, liczby czasopism naukowych i
opublikowanych w nich prac oraz daleko posuniętego podziału dyscyplin naukowych na wąskie
podspecjalizacje, przy ocenie jakości wyników pracy naukowej poszczególnych badaczy i całych
instytutów naukowych oraz poziomu czasopism coraz popularniejsze staje się stosowanie danych
bibliometrycznych. W skomputeryzowanych bazach danych nietrudno znaleźć odpowiedzi na pytanie,
ile prac naukowych opublikował dany uczony oraz ile razy jego prace były cytowane w późniejszych
publikacjach innych autorów...
Na podstawie takich danych tworzy się różne wskaźniki, które mają dawać „proste i
obiektywne” narzędzia do oceny jakości pracy naukowej. Jednakże wielu ekspertów podkreśla, że
znaczenie pojedynczego cytowania nie jest jednoznaczne, a więc statystyki bazowane na cytowaniach
nie są tak obiektywne, jak głoszą zwolennicy bezkrytycznego stosowania danych scientometrycznych.
Przykładowo, niedawny raport Adlera i współpracowników przygotowany dla International
Mathematical Union [1] ostrzega przed błędnym stosowaniem danych statystycznych i konkluduje:
„Wyłączne poleganie na danych dotyczących cytowań w najlepszym przypadku pozwala na niepełne i
często płytkie zrozumienie istoty badań naukowych. Przekonanie, że dane oparte o liczby cytowań są
bardziej precyzyjne niż opinie fachowców, nie jest zasadne”.
Podczas niedawnego posiedzenia rady redakcyjnej brytyjskiego czasopisma z fizyki
teoretycznej pewien znany i ceniony fizyk zdecydowanie przeciwstawiał się dyktatowi indeksów i
liczb cytowań w pracy redakcyjnej. Także kilku starszych członków rady z rozrzewnieniem
wspominało dawne dobre czasy z przed „rewolucji scientometrycznej”, kiedy można było przyjmować
artykuł do druku, bo „był dobry”, nie przejmując się wskaźnikami i potencjalnymi cytowaniami.
Nasze obrady zaszczycił ubrany w elegancki garnitur wydawca, który nie był raczej ekspertem z
fizyki teoretycznej, lecz z pewnością dobrze liczył funty szterlingi. W swym krótkim wystąpieniu
szybko sprowadził nas na ziemię tłumacząc radzie, że jemu nie wystarcza, aby nasze pismo było po
prostu bardzo dobre – musi jeszcze mieć coraz wyższy indeks „Impact Factor”. Po tej wypowiedzi,
przyjętej przez większość rady z milczącą dezaprobatą, opuścił salę obrad, wracając do swych spotkań
biznesowych. Takie doświadczenie uświadomiło nam, że osoby uprawiające obecnie badania naukowe
nie bardzo mogą sobie pozwolić na pociągający luksus totalnego lekceważenia cytowań i wskaźników
bibliometrycznych. Ale też posiłkując się danymi liczbowymi czyńmy to odpowiedzialnie, stosując
rozsądnie wszelkie wskaźniki zgodnie z celem, do jakiego zostały stworzone.
Impact factor oraz index Hirscha
W celu ilościowej charakteryzacji wpływu danego czasopisma naukowego na daną dziedzinę
wiedzy Eugene Garfield zaproponował definicję wskaźnika Impact Factor (IF). Jest to stosunek liczby
cytowań, jakie w danym roku uzyskały prace opublikowane w piśmie rok lub dwa lata wcześniej, do
całkowitej liczby artykułów opublikowanych w tym roku w analizowanym czasopiśmie. Zauważmy,
1
że wielkość ta uwzględnia jedynie oddziaływanie w krótkiej skali czasu, gdyż na IF wpływ mają
jedynie cytowania pojawiające się w literaturze w rok lub dwa lata od daty publikacji artykułu.
Wskaźnik IF Garfielda był zaprojektowany do wykorzystania w naukach medycznych i
przyrodniczych i dobrze dopasowany jest do specyfiki tych dyscyplin. Ale obecnie wydawcy
czasopism, bibliotekarze i urzędnicy próbujący oceniać badania naukowe stosują go także w innych
dyscyplinach, przykładowo do oceny pism matematycznych, dla których bardziej zasadne byłoby
zliczanie cytowań jakie ukazały się od 5 do 10 lat po opublikowaniu pracy, w związku z wolniejszym
obiegiem rezultatów w tej dziedzinie nauki. Należy podkreślić, że indeks IF nie bierze pod uwagę
liczby autorów, autocytowań, specyfiki danej dziedziny, a jego wartością nietrudno manipulować [2,3]
Zupełnie odmienną wielkością jest wskaźnik h zaproponowany przez Jorge Hirscha w roku
2005 do opisu dorobku naukowego pojedynczego badacza. Wskaźnik ten wynosi h, jeżeli h publikacji
danego autora było cytowane co najmniej h razy [4]. Na wartość tego wskaźnika wpływa więc
zarówno liczba publikacji badacza, jak i też, ile razy prace te były cytowane w późniejszej literaturze
naukowej.
W różnych dyscyplinach nauki różnie
Specyfika pracy naukowej zależy istotnie od uprawianej dziedziny wiedzy. Przeciętna praca dotycząca
nauk o życiu zawiera wiele odnośników do innych prac, często tych opublikowanych ostatnio i jest
średnio częściej cytowana niż praca z fizyki. Dlatego też średni IF czasopism dotyczących biologii
molekularnej (obecnie ponad 4.5) jest istotnie wyższy niż średni IF wynoszący 1.9 dla pism z fizyki. Z
kolei proces przygotowania artykułu matematycznego trwa długo, a że w takim artykule zwyczajowo
nie ma wielu odnośników, prace matematyczne cytowane są rzadziej, a średni IF czasopism w tej
dziedzinie wynosi około 0.5. Szczegółowe dane dotyczące parametrów opisujących statystyki cytowań
w różnych dziedzinach wiedzy przedstawiono w Tabeli 1 i zilustrowano grafem cytowań
przedstawionym na Rys. 1. Zwróćmy uwagę, że w swych pracach historycy cytują dużo literatury
(średnio ponad 80 pozycji!), matematycy mało, ale w obu przypadkach prawdopodobieństwo, że dany
artykuł zostanie zacytowany chociaż raz w ciągu dwu lat po dacie publikacji nie przekracza 10%.
Dziedzina
Biologia
molekularna
Astronomia
Medycyna
Chemia
Fizyka
Prawo
Geografia
Ekonomia
Socjologia
Informatyka
Matematyka
Historia
czasopisma
<IF>
<c>
<p>
511
4.76
45.8
0.21
25
766
145
503
71
56
159
96
124
149
23
4.29
2.89
2.61
1.91
1.66
0.99
0.82
0.72
0.63
0.56
0.41
38.3
33.9
33.1
24.0
76.8
46.1
30.4
50.8
17.2
18.4
81.8
0.22
0.18
0.17
0.17
0.20
0.15
0.12
0.11
0.19
0.08
0.10
Tab. 1. Dane z lat 1994-2005 ilustrujące różnice pomiędzy dyscyplinami nauki: liczba pism z
danej dziedziny analizowana w Journal od Citation Reports (JCR), średnia wartość <IF> w
danej dziedzinie, średnia liczba cytowań <c> w każdej publikacji, prawdopodobieństwo <p>, iż
dany artykuł zostanie chociaż raz zacytowany w ciągu kolejnych dwóch lat po jego publikacji i
będzie miał wpływ na IF pisma (za [5], Althouse, West, Bergstrom, 2009). Kolejność w tabeli
oddaje średnią wartość indeksu IF w danej dziedzinie.
2
a)
b)
Rys. 1 Graf cytowań pomiędzy różnymi dziadzinami nauki oraz a) średnia wartość wskaźnika IF, b)
średnia liczba cytowań w jednym artykule w danej dziedzinie (za [5] Althouse, West, Bergstrom, 2009).
Indeks Hirscha zaprojektowano do wstępnego porównania dorobku naukowców pracujących
w jednej dziedzinie i starającego się o to samo stanowisko. Ponieważ średnie liczby publikacji,
współautorów i cytowań pojedynczego artykułu zależą od uprawianej dziedziny wiedzy, nie jest
rozsądne porównywania indeksu Hirscha dla biologa i matematyka, lub nawet dla fizyka pracującego
w dziedzinie fizyki cząstek elementarnych i fizyki matematycznej. Aby zilustrować tą tezę w tabeli 2
zestawiono parametry scientometryczne charakteryzujące grupy uznanych naukowców, którzy w roku
2008 w danych dziedzinach zdobyli prestiżowe Advanced Grant European Research Council.
Wyniki obliczeń pokazują istotne różnice wewnątrz dziedzin zebranych w grupę „Nauki
fizyczne i inżynieryjne” oraz wykazują, że dane dotyczące liczb cytowań nie odzwierciedlają
wyników badań w dziedzinach humanistycznych. Do właściwej interpretacji danych liczbowych
potrzebna jest znajomość zwyczajów w danych środowiskach. Przykładowo, informatycy piszą sporo
prac, ale zniechęceni wolnym tempem publikacji w ich czasopismach wyżej cenią publikacje w
regularnie ukazujących się materiałach konferencyjnych, często nie indeksowanych w bazie ISI.
Dlatego też wskaźniki dla panelu PE6 są znacznie niższe niż w PE2, gdyż fizycy nie cenią wysoko
prac w materiałach konferencyjnych, lecz starają się publikować w indeksowanych czasopismach.
Panel
PE1
PE2
PE3
PE4
PE5
PE6
PE7
PE8
PE9
PE10
LS1
LS2
LS3
Nazwa
prace Cytowani
a
Physical Sciences & Engineering
Mathematical foundations
Fundamental constituents of matter
Condensed matter physics
Physical & Analytical Chemical sciences
Materials & Synthesis
Computer science & informatics
Systems & communication engineering
Products & process engineering
Universe sciences
Earth system science
Life Sciences
Molecular & Struct. Biology & Biochemistry
Genetics, Genomics, Bioinformatics
Cellular and Developmental Biology
3
bez samocytowań
indeks
h
29
106
109
137
254
55
51
55
125
92
281
4192
2357
4051
5782
564
949
503
4039
1514
141
2148
1253
2248
3735
262
384
242
2162
910
9
30
23
33
38
10
15
12
33
21
121
112
61
4604
5906
2414
2521
2388
1573
29
39
25
LS4
LS5
LS6
LS7
SH1
SH2
SH3
SH4
SH5
SH6
Physiology, Pathophysiol. & Endocrinology
Neurosciences & neural disorders
Immunity & infection
Diagnostic tools, therapies & public health
Social Sciences and Humanities
Individuals, institutions & markets
Institutions, values, beliefs and behaviour
Environment & society
The Human Mind and its complexity
Cultures & cultural production
The study of the human past
176
70
83
81
4825
2469
3157
2909
3587
1461
2224
1555
41
24
28
28
4
1
11
29
1
1
11
0
62
268
0
0
5
0
46
217
0
0
1
0
3
7
0
0
Tabela 2. Mediana liczby prac, całkowitej liczby cytowań, tej liczby bez autocytowań, oraz wskaźnika h,
policzona dla grupy laureatów konkursu ERC Advanced Grants edycji 2008 w każdej grupie tematycznej
na podstawie danych z ISI Web za lata 1996-2008 (obliczenia Łukasza Skowronka).
Skośny rozkład liczby cytowań
Artykuły opublikowane w danym czasopiśmie nie są cytowane jednakowo. Niewielka grupa
prac jest często cytowana i wpływa na wskaźnik IF, podczas gdy znaczna część prac nie jest cytowana
wcale lub jest cytowana niewiele razy. Rozkłady prawdopodobieństwa, że artykuł zostanie
zacytowany c razy przedstawiono na Rys 2a. Ponieważ średnia liczba cytowań <c> pojedynczej pracy
zależy od dyscypliny naukowej, otrzymane rozkłady wartości cytowań dla różnych dziedzin nauki. Jak
pokazali Radicchi, Fortunato i Castellano [6], różnice pomiędzy dziedzinami nauki zanikają, jeżeli
badać rozkład przeskalowanej (względnej) liczby cytowań, c f=c/<c>. Wynik ten pokazuje, że
porównanie wszelkich danych dotyczących różnych dziedzin nauki może mieć sens, gdy porównuje
się nie liczby bezwzględne (liczby prac, cytowań, wskaźniki IP oraz h), lecz wielkości względne,
przeskalowane względem średniej w danej dziedzinie. Ponadto uniwersalny charakter krzywej
naszkicowanej na rys 2b, potwierdza, że rozkład cytowań jest skośny (niesymetryczny) i
charakteryzuje się zanikiem algebraicznym. Dlatego też jeśli średnia liczba cytowań dla grupy
wszystkich artykułów opublikowanych w danym piśmie w ciągu minionego roku wynosi <c>, nie
należy wnioskować, że następna praca opublikowana w tym piśmie w kolejnym roku uzyska podobną
liczbę cytowań.
a
b)
Rys. 2 a) Rozkład prawdopodobieństwa, że praca z danej dziedziny będzie cytowana c razy; b) rozkład
prawdopodobieństwa względnej liczby cytowań c_f =c/<c> przedstawiony w skali podwójnie
logarytmicznej (za [6] Radicchi, Fortunato, Castellano, 2008).
4
Jak nie należy stosować wskaźnika IF ?
Obserwowany rozkład liczby cytowań pokazuje, że wskaźnik „Impact Factor”,
zaprojektowany do analizy poziomu czasopisma, nie może być stosowany do oceny jakości
wydrukowanej w nim pracy. Rozważmy uproszczony przykład, oddający własności rozkładu
algebraicznego: w dwóch niewielkich pismach z jednej dziedziny opublikowano w latach 2008-2010
po 70 prac rocznie. Z pośród 140 prac opublikowanych w piśmie A w latach 2008 i 2009 tylko 15 było
cytowanych w roku 2010, z czego 8 prac jeden raz, 4 prace miały po trzy cytowania, inne 2 po 10
cytowań, a tylko jeden ‘hot paper’ uzyskał 30 cytowań. Natomiast w piśmie B najbardziej znana praca
uzyskała 60 cytowań, 2 dalsze prace miały po 20 cytowań, a 6 dalszych prac zebrało po 6 cytowań
każda. Kolejnych 8 prac było cytowane po dwa razy, podczas gdy reszta prac nie była cytowana.
Porównanie sumarycznej liczby cytowań z liczbą opublikowanych rocznie prac pokazuje, że
wskaźniki IF wynoszą 1.0 dla pisma A oraz 2.0 dla pisma B. Jednakże na tej podstawie trudno
wyrokować, że przeciętna praca opublikowana w B jest dwa razy cenniejsza niż reprezentatywna
praca z pisma A, gdyż prawdopodobieństwo że praca w ogóle nie zostanie zacytowana jest równe dla
obu pism. O ile jakość prac opublikowanych w danym czasopiśmie determinuje klasę pisma i ma
wpływ na jego wskaźnik IF, to teza odwrotna nie jest prawdziwa: IF czasopisma nie stanowi o jakości
konkretnej opublikowanej w nim pracy.
Dlatego też próba oceny wartości publikacji przez IF czasopisma, w którym praca się ukazała,
jest bezcelowa [7]. Jeszcze dziwniejszy jest obyczaj obliczania ”sumarycznego IF” prac danego
uczonego i stosowania tego wskaźnika do oceny jego dorobku. Co prawda taki wskaźnik podzielony
przez liczbę artykułów autora, podaje średni IF czasopism, w których badacz publikuje, lecz liczba ta
nie jest użyteczna dla ani dla laika (gdyż by taki wynik uczynić użytecznym, należałoby go porównać
do średniego IF czasopism w danej dyscyplinie), ani dla eksperta, któremu o klasie pism więcej
powiedzą tytuły z jego branży, niż sucha dana liczbowa.
Jeżeli uznamy, że cytowania w krótkim czasie po opublikowaniu pracy są skorelowane z jej
wartością, (co wydaje się rozsądniejsze dla biologii molekularnej niż dla matematyki), to bardziej
racjonalnym jest obliczanie wkładu danej pracy do IF czasopisma. Aby wyznaczyć impact factor
publikacji (IFP) należy zsumować liczbę cytowań uzyskanych rok i dwa lata po jej opublikowaniu.
Taki wskaźnik charakteryzuje krótkookresowy oddźwięk pracy w środowisku naukowym, a dopiero
jego porównanie z IF pisma, w którym praca się ukazała, pozwala stwierdzić, czy dana praca należy
do artykułów istotnych, które wskaźnik ten kształtują, czy też należy do szarego tła większości
artykułów niezauważonych w literaturze przedmiotu. Oczywiście wskaźnika IFP nie da się jeszcze
wyliczyć dla artykułu opublikowanego w okresie ostatnich dwóch lat, ale dla niego lepszym
estymatorem spodziewanej liczby cytowań jest średnia IFP po zbiorze dawniejszych prac jego autora,
niż po zbiorze prac opublikowanych wcześniej w tym samym czasopiśmie.
Liczba prac znanych
Czy można znaleźć wskaźnik bibliometryczny, który uwzględniałby specyfikę
poszczególnych dyscyplin nauki? Naturalną koncepcją byłoby zliczanie, ile dany autor opublikował
„prac znanych”, które były cytowane więcej razy, niż wynosi średnia liczba cytowań <c> w danej
dyscyplinie. Taka konstrukcja uniezależnia wynik od zwyczajów w danej dziedzinie nauki, ale jej
wadą jest konieczność wyliczania średnich i ich aktualizowania. Inną możliwością jest określenie, że
dany artykuł uważamy za „pracę znaną”, jeżeli był już cytowany więcej razy, niż liczba prac w nim
cytowanych. W ten sposób artykuł matematyczny cytujący 11 innych prac staje się „znanym”, jesli
zebrał co najmniej 12 cytowań, praca z medycyny cytująca 83 prace potrzebuje 84 cytowania aby
zostać wliczona do tej klasy, a artykuł przeglądowy z fizyki, który cytuje 345 prac będzie „znany”
dopiero po osiągnięciu 346 cytowań, (są takie!).
Zauważmy, że wyznaczenie zdefiniowanego w ten sposób wskaźnika ‘liczby prac znanych’
danego badacza jest łatwe w oparciu o istniejące bazy danych, a jego równoległe stosowanie obok
innych indeksów, mogłoby przyczynić się do zmniejszenia częstej w niektórych dziedzinach tendencji
rozrzutnego cytowania prac trzecich niezwiązanych bezpośrednio z danym artykułem. Z drugiej
5
strony, by zabezpieczyć się przed inną skrajnością, można dołożyć dodatkowy warunek, że „praca
znana” jest cytowana co najmniej 10 razy, co większości przypadków nie zmieni wartości
omawianych wskaźników, jako że lista odnośników w publikowanych artykułach najczęściej liczy
ponad 10 pozycji.
Graf cytowań, macierz Google oraz wskaźnik Eigenfactor
Wszystkie omówione powyżej wskaźniki bibliometryczne przypisują taką samą wartość
każdemu cytowaniu. A przecież cytowania nie są równe: niektóre prace istotnie wspierają się na
konkretnym wyniku lub metodach badawczych opisanych w cytowanej pracy, podczas gdy inne,
występujące w sformułowaniu typu „podobne badania prowadzono ostatnio w pracach [17-46]”, nie
świadczą wiele o wartości wymienionych prac. Podobnie cytowanie pracy przez eksperta w danej
dziedzinie może być dla jej autora cenniejsze niż kilka cytowań w pracach nowicjuszy w jego branży.
Dlatego też w literaturze bibliometrycznej pojawiły się koncepcje, aby do różnych cytowań stosować
różne wagi.
Najbardziej znanym podejściem do tego problemu jest metoda Google ustalania wag dla
poszczególnych witryn w Internecie. Waga każdej witryny jest tym większa, im więcej linków
prowadzi do niej z innych witryn o dużej wadze. Z pozoru taka podejście nie wydaje się
konstruktywne, ale w praktyce algorytm PageRank Google wyznacza wagi witryn numerycznie przez
procedurę iteracyjną, która z matematycznego punktu widzenia znajduje przybliżenie wiodącego
wektora własnego (eigenvector) odpowiednio zmodyfikowanej macierzy połączeń.
Podobną ideę można zastosować także do analizy literatury naukowej tworząc graf, w którym
rolę zorientowanych połączeń (linków) odgrywają cytowania, a w roli węzłów można obsadzić
poszczególne prace, pojedynczych badaczy, instytuty naukowe, czasopisma lub całe kraje. Jeśli
chcemy przypisać wagi poszczególnym autorom [8], trzeba się zmierzyć z problemem analizy wielkiej
liczby danych i grafu liczącego miliony węzłów. Nieco łatwiej jest analizować graf czasopism
naukowych, w którym liczba węzłów jest rzędu 10000, a liczba połączeń pomiędzy dwoma węzłami
odpowiada liczbie cytowań prac opublikowanych w piśmie A, które w określonym przedziale czasu
ukazały się w wszystkich artykułach opublikowanych w piśmie B. Analizując macierz typu Google
dla takiego grafu czasopism zdefiniowano indeks Eigenfactor, którego aktualną wartość dla danego
czasopisma można sprawdzić na stronie http://www.eigenfactor.org/
Wskaźnik Eigenfactor jest wielkością ekstensywną i określa wpływ wszystkich publikacji
danego pisma na literaturę światową. Natomiast pochodny indeks Article Influence (AI), jest
wielkością intensywną, czyli opisuje średni wpływ pojedynczego artykułu opublikowanego w danym
piśmie. Przykładowe dane wskaźników Imapact Factor, dwu- oraz pięcio-letnich, oraz indeksów
Eigenfactor i AI dla wybranych czasopism z literatury światowej i polskiej zestawiono w Tabeli 3. O
ile pod względem wskaźnika IF dominują pisma medyczne (np. CA Cancer J. Clinicians z IF ponad
80), to w przeliczeniu na jeden artykuł największy wpływ na literaturę mają artykuły przeglądowe
publikowane w prestiżowym Review of Modern Physics z indeksem AI przekraczającym 20. Nieco
mniejszy indeks AI mają artykuły publikowane w Nature i Science, ale pisma te z racji znacznej
liczby publikowanych artykułów odznaczają się dużą wartością indeksu Eigenfactor. Wskaźnik ten
przekracza jedność także dla innych znanych pism Physical Review Letters oraz J. Biological
Chemistry, ale pisma te publikują znacznie więcej artykułów, więc dla nich wartość indeksu AI jest
niższa. Zauważmy, że różnice pomiędzy wskaźnikami IF dwu- i pięcioletnimi nie jest duża, a dla
najlepszych pism indeks IF’2 (bez autocytowań) jest tylko nieznacznie niższy od standardowego IF2.
Z czasopism polskich wyróżniają się pisma z nauk ścisłych (Acta Astronomica, Fundamenta
Matematicae, Studia Mathematica, Open Systems & Information Dynamics), które nie publikują wielu
artykułów, lecz wydrukowane tam prace są cytowane, a wartość wskaźnika AI należy do rozsądnego
przedziału [0.5, 1.0], gdzie 1.0 oznacza wartość średnią. Polskie czasopisma zamieszczone w tabeli
należą do najlepszych w kraju pod względem indeksu Article Influence. Istnieje także wiele innych
polskich czasopism naukowych, których wskaźnik AI jest znacznie mniejszy niż 0.10, a niekiedy w
ogóle nie jest mierzalny. Pokaźnym wskaźnikiem Eigenfactor charakteryzuje się Acta Physica
Polonica B, która publikuje stosunkowo dużo artykułów, stąd jej wskaźnik AI jest relatywnie niższy.
6
Czasopismo
Review Modern Physics
CA Cancer J. Clinicians
Cell
New England J. Medicine
Nature
Science
Annales of Mathematics
Physical Review Letters
J. American Chemical Society
J. Biological Chemistry
Astrophysics Journal
Acta Astronomica
Fundamenta Matematicae
Studia Mathematica
Open Systems Information Dynamics
Archivum Immunol. Therapiae Exp.
Acta Paleontologica Polonica
J. Physiology & Pharmacology
Pharmacological Reports
Cellular & Molecular Biology Letters
Acta Biochimica Polonica
Ann. Agr. Environmental Medicine
Reports Mathematical Physics
Acta Physica Polonica B
Liczba
prac
IF2
IF’2
IF5
Eigenfacto
r
Article
Influence
46
23
359
352
866
897
64
3414
3332
3686
2796
27
57
101
30
51
64
146
131
47
60
45
54
326
33.1
87.9
31.2
47.1
34.5
29.7
4.2
7.3
8.6
5.3
7.4
2.5
0.6
0.6
0.9
2.0
1.5
1.5
2.1
1.1
1.3
1.5
0.7
0.6
32.9
87.5
30.4
46.4
33.8
29.3
4.1
6.6
7.7
4.9
4.6
1.7
0.5
0.5
0.8
1.9
1.3
0.9
1.4
1.0
1.2
0.9
0.6
0.5
41.3
60.0
32.6
51.4
32.9
31.1
4.3
7.1
8.8
5.4
6.4
2.4
0.6
0.7
1.2
1.7
1.4
2.3
2.2
1.6
1.5
1.7
0.7
0.6
0.081
0.042
0.698
0.672
1.746
1.523
0.030
1.266
0.901
1.094
0.512
0.003
0.005
0.007
0.002
0.003
0.003
0.006
0.004
0.003
0.004
0.002
0.002
0.007
24.37
20.93
20.12
19.87
18.06
16.58
5.65
3.29
2.71
2.22
1.92
0.91
0.78
0.70
0.58
0.54
0.52
0.48
0.47
0.46
0.43
0.37
0.34
0.24
Tabela 3. Wybrane czasopisma wydawane za granicą i w kraju (dół tabeli, tłusty druk) wraz z liczbą
artykułów opublikowanych w roku 2009 i wskaźnikami: IF2 (IF za okres dwóch lat), IF’2 (IF2 bez
autocytowań), IF5 (IF za okres 5 lat), Eigenfactor oraz Article Influence, wg którego uporządkowano tabelę.
Dane z roku 2009 za ISI Web of Knowledge.
Indeks h publikacji oraz „prace bardzo znane”
Charakteryzowanie klasy czasopism przez ich wskaźniki Eigenfactor oraz Article Influence ma wiele
zalet, a obecnie konkretne dane liczbowe są obliczane także przez ISI Web of Knowledge. Natomiast
stosowanie algorytmu Google do wyznaczenia wag dla poszczególnego badacza jest technicznie
wykonalne, lecz w praktyce nie łatwe ze względu na kosztowność zebrania i przetworzenia wielkiego
zbioru danych. Aby z dwóch artykułów, które maja po N cytowań, wyróżnić prosto pracę o większym
wpływie na literaturę przedmiotu, można zobaczyć, czy cytujące prace same były już cytowane.
Rozważmy przykładowo artykuł X cytowany N=8 razy, a poszczególne cytujące go prace były już
cytowane kolejno 14,7,4,2,1,0,0,0 razy. Wykorzystując ideę Hirscha można zdefiniować indeks h dla
poszczególnej publikacji, który dla pracy X wyniesie 3. Wyznaczając takie indeksy dla wszystkich
prac danego badacza i układając je w porządku malejącym, możemy zdefiniować indeks Hirscha
drugiego rzędu h2 [9]. Wskaźnik ten wynosi h2, jeżeli h2 jego publikacji posiada indeks h nie
mniejszy niż h2 . W każdym przypadku zachodzi nierówność h2 ≤ h . Takie podejście różnicuje wagę
cytowań i uwzględnia znaczenie, jakie cytujące prace wywierają na literaturę.
W podobny sposób wagę cytowań można prosto uwzględnić przy zliczaniu „prac znanych”.
Przykładowo za „pracę bardzo znaną” uznać można każdy artykuł, którego indeks h2 przewyższa
liczbę prac w nim cytowanych. Zliczając dla danego autora liczbę „prac bardzo znanych” można
określić dorobek przez łatwo wyliczalne wielkości, które uwzględniają zarówno specyfikę danej
dziedziny nauki jak i wagę cytowań. Najnowsza literatura scientometryczna dowodzi, że możliwości
tworzenia nowych wskaźników bibliometryczych są praktycznie nieograniczone, lecz życie pokaże,
które z nich w przyszłości będą stosowane w praktyce.
7
Próba podsumowania
Dane dotyczące cytowań prac naukowych niosą w sobie informacje dotyczące charakteru i
jakości prowadzonych badań, ale ich wydobycie i właściwa interpretacja nie jest sprawą prostą. O ile
można sobie wyobrazić wypracowanie bardziej precyzyjnych narzędzi bibliometrycznych, trudno
oczekiwać aby powstał jeden uniwersalny wskaźnik liczbowy pozwalający na rzetelną ocenę wartości
pracy naukowej. Dlatego warto używać równolegle kilka wskaźników, a wszelkie indeksy winny być
rozsądnie stosowane do celu, do jakiego zostały stworzone. Na przykład wskaźnika impact factor (IF
), służącego do oceny czasopisma, nie wolno wykorzystywać do oceny jakości danego artykułu w nim
opublikowanego lub też do oceny osiągnięć konkretnego autora. Natomiast indeksu Hirscha h,
opracowanego do porównania dorobku kilku uczonych pracujących w jednej dziedzinie nauki, nie
należy stosować do porównania jakości różnych czasopism, czy analizy dorobku kilku instytutów
naukowych, gdyż wskaźnik nie jest wielkością intensywną, lecz istotnie zależy od wielkości instytucji.
Na zakończenie przytoczymy kilka ogólniejszych uwag dotyczących analizy bibliometrycznej,
które formułuję oddzielnie dla trzech grup czytelniczych.
a)
Naukowcy.
Wykonujcie dobrze swoje badania, piszcie dobre prace i publikujcie je w dobrych
czasopismach. Pisząc własne prace cytujcie te publikacje, które powinny być cytowane
stosownie do zwyczajów przyjętych w waszym środowisku. Nie przejmujcie się własnymi
wskaźnikami i indeksami: dorobek dobrego naukowca najczęściej będzie opisywany
wysokimi wartościami parametrów niezależnie od wyboru stosowanego wskaźnika. Nie
dajcie się wciągnąć w płytką grę na sztuczne nabijanie wartości konkretnego indeksu,
który może opisywać wasz dorobek: na taka zabawę szkoda czasu i energii.
b) Recenzenci.
Oceniając jakość aplikacji o finansowanie projektów badawczych czy wniosków o
nagrody za prace naukowe wykorzystujcie Waszą znajomość przedmiotu. Dane
bibliometryczne stosujcie wyłącznie jako dane pomocnicze, które nie mogą zastąpić oceny
merytorycznej. W przypadku absolutnej konieczności oszacowania wpływu, jaki dana
publikacja wywarła na środowisko naukowe, uwzględnijcie rzeczywistą liczbę jej
cytowań, a nie impact factor pisma, w którym się ukazała. W przypadku najnowszej pracy
autora stosować można średni IFP, czyli impact factor jego poprzednich publikacji, a nie
czasopism w których się ukazały!
c)
Zarządzający nauką.
Prowadzenie badań naukowych jest procesem wielowymiarowym, więc próba ich opisu
poprzez rzutowanie na jedną oś liczbową nie może być udana. Nie liczcie więc na
stworzenie jednego idealnego wskaźnika bibliometrycznego, tylko kierując się
wskazówkami literatury oraz zdrowym rozsądkiem wykorzystujcie równolegle kilka z
nich. Porównując wartości wskaźników pochodzące z różnych dziedzin nauki stosujcie
dane skalowane do wartości średnich w danej dziedzinie i w danych przedziałach czasu.
Wspierajcie różnorodne wykorzystywanie danych liczbowych, przy tworzeniu których
czynny udział ma oceniany. Przykładowo, w podaniach o granty European Research
Council, każdy wnioskodawca ma sam wybrać swoich 10 publikacji z zadanego
przedziału czasu i podać liczbę, ile razy każda z nich była cytowana. Niestety ten dobry
przykład nie jest wykorzystany przez Narodowe Centrum Nauki, którego ostatnie
wytyczne nakazują podanie co najmniej 5 publikacji. Brak koniecznosci dokonania
wyboru prac przez zadanie górnego organiczenia ich liczby zachęca
wnioskodawców do niepotrzebnego dodawania pracy sobie oraz recenzentom.
8
Literatura
[1] J. Adler, J. Ewing, P. Taylor, Citations Statistics, Statistical Sciences 24, 1 (2009).
[2] M. E. Falagas and V. G. Alexiou, The top-ten journal impact factor manipulation
Arch. Immunol. Ther. Exp. 56, 223 (2008)
[3] D.N. Arnold and K.K. Fowler, Nefarious numbers, Notices of AMS 58, 434 (2011).
[4] J. E. Hirsch, An index to quantify an individual’s scientific research output, PNAS 102, 16569 (2005).
[5] B. M. Althouse, J. D. West, T. C. Bergstrom, and C. T. Bergstrom, Differences in impact factor across
fields and over time, J. Am. Soc. Inf. Sci. Technol. 60, 27 (2009).
[6] F. Radicchi, S. Fortunato and C. Castellano, Universality in citation distribution: towards an objective
measure of scientific impact, PNAS 105, 17268 (2008).
[7] P.O Seglen, Why the impact factor of journals should not be used for evaluating research. BMJ 314, 498
(1997).
[8] K. Życzkowski, Citation graph, weighted impact factors and performance indices,
Scientometrics 85, 301-315 (2010).
[9] A. Schubert, Successive h-indices. Scientometrics, 70, 201 (2007).
9