Uogólniony indeks Hirscha a dwupróbkowe testy dla rodziny

Transkrypt

Uogólniony indeks Hirscha a dwupróbkowe testy
dla rodziny rozkładów Pareto II rodzaju
Marek Gągolewski 1,2 , Przemysław Grzegorzewski 2,1
{gagolews,pgrzeg}@ibspan.waw.pl
XXXV Konferencja Statystyka Matematyczna
Wisła, 7–11 grudnia 2009 r.
1
Instytut Badań Systemowych
Polska Akademia Nauk
2
Wydział Matematyki
i Nauk Informacyjnych
Politechnika Warszawska
Plan referatu
• Ogólny problem oceny twórców
• Wskaźniki bibliometryczne
• Problem oceny w interpretacji statystycznej
• κ-pozycje i ich estymacja
• Testy do porównywania dwóch prób
• Podsumowanie i problemy otwarte
2 / 69
Ogólny problem oceny twórców
Problem oceny twórców
j4
j2
j1
j3
j5
J
Przeliczalny zbiór jednostek (dzieł, produktów): J = {j1 , j2 , . . . }.
3 / 69
j4
j2
j1
j3
v(j1 ) = 7
j5
J
Funkcja oceny jednostek v : J → [0, ∞).
4 / 69
j2
j1
j4
A1
A2
j3
j5
J
Zbiór twórców (autorów, producentów) A = {A1 , . . . , Am }
— pewna rodzina podzbiorów J: (A1 , . . . , Am ⊆ J).
Modelem opisywanej rzeczywistości jest trójka (J, A, v).
5 / 69
j2
j1
j4
A1
A2
j3
j5
J
Zbiór twórców (autorów, producentów) A = {A1 , . . . , Am }
— pewna rodzina podzbiorów J: (A1 , . . . , Am ⊆ J).
Modelem opisywanej rzeczywistości jest trójka (J, A, v).
6 / 69
1
• J — artykuły w recenzowanych czasopismach,
• A — pracownicy naukowi,
• v — liczba cytowań,
2
• A — instytucje naukowe,
• v — punkty z listy czasopism punktowanych MNiSW,
3
• J — strony internetowe,
• A — portale (serwisy WWW),
• v — liczba odwiedzin,
4
• J — dzieła sztuki,
• A — artyści,
• v — cena dzieła na aukcji.
7 / 69
1
2
3
4
• A — artyści,
8 / 69
1
2
3
4
• A — artyści,
9 / 69
1
2
3
4
• A — artyści,
10 / 69
1
2
3
4
• A — artyści,
11 / 69
Problem
Na podstawie informacji zawartych w (J, A, v) dokonać „oceny”
twórców z A.
Co oceniać?
• jakość wytworów
• produktywność
Rozpatrujemy twórców cechujących się tą samą produktywnością.
ω(n) : [0, ∞)n → [0, ∞) jest funkcją agregującą, jeśli spełnia
następujące warunki (zob. Grabisch i in., 2009):
• ω(n) (0, . . . , 0) = 0,
• jest niemalejąca ze względu na każdą zmienną.
12 / 69
Problem
twórców z A.
Co oceniać?
• produktywność
• ω(n) (0, . . . , 0) = 0,
13 / 69
Problem
twórców z A.
Co oceniać?
• produktywność
• ω(n) (0, . . . , 0) = 0,
14 / 69
Problem
twórców z A.
Co oceniać?
• produktywność
• ω(n) (0, . . . , 0) = 0,
15 / 69
Problem
twórców z A.
Co oceniać?
• produktywność
• ω(n) (0, . . . , 0) = 0,
16 / 69
Problem
twórców z A.
Co oceniać?
• produktywność
• ω(n) (0, . . . , 0) = 0,
17 / 69
Wskaźniki bibliometryczne
Przykładowe funkcje agregujące („wskaźniki bibliometryczne”):
• łączna liczba dzieł,
• średnia ocena jakości dzieł,
• indeks h (Hirsch, 2005)
• indeks g (Egghe, 2006)
• indeks w (Woeginger, 2008)
• indeksy „geometryczne” (Gągolewski, Grzegorzewski, 2009)
• ......
18 / 69
Przykładowe funkcje agregujące („wskaźniki bibliometryczne”):
• łączna liczba dzieł,
• średnia ocena jakości dzieł,
• indeks h (Hirsch, 2005)
• indeks g (Egghe, 2006)
• indeks w (Woeginger, 2008)
• indeksy „geometryczne” (Gągolewski, Grzegorzewski, 2009)
• ......
19 / 69
Indeks Hirscha
„Autor n prac ma indeks o wartości h, jeżeli h jego prac otrzymało
co najmniej h cytowań, a pozostałe z jego n − h prac otrzymało co
najwyżej h cytowań.”
Definicja
Indeksem Hirscha nazywamy funkcję h : [0, ∞)n → [0, ∞) taką, że
max{i : xn+1−i:n > i, i = 1, 2, . . . , n} gdy xn:n > 0,
h(x) =
0
w p.p.
Np. h(5, 4, 3, 3, 3, 1) = 3.
Np. h(10, 10, 10, 10, 0, 0, 0, 0) = 4.
20 / 69
Indeks Hirscha
Definicja
h(x) =
0
w p.p.
Np. h(5, 4, 3, 3, 3, 1) = 3.
Np. h(10, 10, 10, 10, 0, 0, 0, 0) = 4.
21 / 69
Indeks Hirscha
Definicja
h(x) =
0
w p.p.
Np. h(5, 4, 3, 3, 3, 1) = 3.
Np. h(10, 10, 10, 10, 0, 0, 0, 0) = 4.
22 / 69
Problem oceny w interpretacji statystycznej
Interpretacja statystyczna
Rozważmy X = (X1 , . . . , Xn ) i.i.d. F, gdzie F – dystrybuanta ciągła,
ściśle rosnąca na [0, ∞), F(x) = 0 dla x < 0.
Interpretacja:
Xi — ocena jakości i-tego dzieła
F określa zdolności do wytwarzania dzieł o jakości właściwej każdemu
twórcy
Przykład
Dla P2(k, s), k > 0, s > 1
F(x) = 1 −
s
s+x
k
dla x > 0 (Burrell, 2008; Glänzel, 2008).
23 / 69
Interpretacja:
twórcy
Przykład
Dla P2(k, s), k > 0, s > 1
F(x) = 1 −
s
s+x
k
24 / 69
Interpretacja:
twórcy
Przykład
Dla P2(k, s), k > 0, s > 1
F(x) = 1 −
s
s+x
k
25 / 69
Definicja
Komplementarną funkcją kwantylową zmiennej losowej
o dystrybuancie F nazywamy funkcję K : (0, 1) → [0, ∞) daną
wzorem
K(x) = (1 − F(x))−1 .
Oczywiście K(x) = R−1 (x).
Definicja
Funkcją kontrolną nazywamy dowolną funkcję κ : [0, 1] → R, która
jest ciągła, niemalejąca i taka, że κ(0) 6 0, κ(1) > 0.
26 / 69
Definicja
wzorem
K(x) = (1 − F(x))−1 .
Definicja
27 / 69
Definicja
wzorem
K(x) = (1 − F(x))−1 .
Definicja
28 / 69
κ-pozycje i ich estymacja
κ-pozycje
Definicja
κ-pozycją dla rozkładu danego dystrybuantą F przy funkcji kontrolnej
κ nazywamy liczbę pκ ∈ (0, 1) będącą rozwiązaniem równania
κ(pκ ) = K(pκ ).
29 / 69
Równoważne definicje κ-pozycji:
• κ-pozycją dla rozkładu danego dystrybuantą F nazywamy liczbę
pκ ∈ (0, 1) będącą rozwiązaniem równania
ozn.
1 − pκ = F(κ(pκ )) = F ◦ κ(pκ ).
1 − pκ = P(κ−1 (Xi ) 6 pκ ).
Uwaga
Przy podanych założeniach κ-pozycja zawsze istnieje i jest
wyznaczona jednoznacznie.
30 / 69
ozn.
1 − pκ = F(κ(pκ )) = F ◦ κ(pκ ).
1 − pκ = P(κ−1 (Xi ) 6 pκ ).
Uwaga
31 / 69
ozn.
1 − pκ = F(κ(pκ )) = F ◦ κ(pκ ).
1 − pκ = P(κ−1 (Xi ) 6 pκ ).
Uwaga
32 / 69
ozn.
1 − pκ = F(κ(pκ )) = F ◦ κ(pκ ).
1 − pκ = P(κ−1 (Xi ) 6 pκ ).
Uwaga
33 / 69
Przykład
Dla P2(1, 1) i κ(x) = x zachodzi
√
5−1
1
pκ =
=
= ϕ − 1 ' 0,618034.
2
ϕ
Przykład
Dla dowolnego F i κ ≡ F−1 zachodzi
pκ = 0,5.
34 / 69
Przykład
Dla P2(1, 1) i κ(x) = x zachodzi
√
5−1
1
pκ =
=
= ϕ − 1 ' 0,618034.
2
ϕ
Przykład
Dla dowolnego F i κ ≡ F−1 zachodzi
pκ = 0,5.
35 / 69
Estymacja κ-pozycji
Definicja
Dyskretnym κ-indeksem pozycyjnym nazywamy statystykę
1
arg max {Xn−i+1:n > κ(i/n)}
i=0,...,n
n
1
=
arg max {#{Xk : Xk > κ(i/n)} > i} .
i=0,...,n
n
bκ (X) =
p
36 / 69
Definicja
Dyskretnym κ-indeksem pozycyjnym nazywamy statystykę
1
arg max {Xn−i+1:n > κ(i/n)}
i=0,...,n
n
1
=
arg max {#{Xk : Xk > κ(i/n)} > i} .
i=0,...,n
n
bκ (X) =
p
37 / 69
Lemat 1
bκ opisany jest dystrybuantą
Rozkład p
Fpb κ (p)
n
X
h
ii h
in−i
n
bpn+1c
= 1−
1 − F ◦ κ bpn+1c
F
◦
κ
n
n
i
i=bpn+1c
= I F ◦ κ bpn+1c
; n − bpnc, bpnc + 1
n
dla p ∈ (0, 1), przy czym I(p; a, b) oznacza regularyzowaną
niekompletną funkcję beta, natomiast bxc = max{i ∈ Z : i 6 x}.
38 / 69
Stwierdzenie 2
bκ jest estymatorem asymptotycznie nieobciążonym pκ oraz
p
bκ → 0.
Var p
Lemat 3
Niech X = (X1 , . . . , Xn ) i.i.d. F. Wówczas dla funkcji kontrolnej
κ(x) = xn zachodzi
bκ (X) = max{i = 0, . . . , n : Xn−i+1:n > i}.
h(X) = n p
39 / 69
Stwierdzenie 2
bκ jest estymatorem asymptotycznie nieobciążonym pκ oraz
p
bκ → 0.
Var p
Lemat 3
Niech X = (X1 , . . . , Xn ) i.i.d. F. Wówczas dla funkcji kontrolnej
κ(x) = xn zachodzi
bκ (X) = max{i = 0, . . . , n : Xn−i+1:n > i}.
h(X) = n p
40 / 69
Stwierdzenie 4 (O aproksymacji)
Jeśli F ◦ κ jest funkcją analityczną w punkcie pκ i dla każdego p
w dowolnie małym otoczeniu pκ zachodzi (p − pκ )2 (F ◦ κ) 00 (p) ' 0
oraz (p − pκ ) δ (1 − 2pκ + (p − pκ ) δ) ' 0, to dla n → ∞


p − pκ 
Fpb κ (p) ' Φ  q
,
pκ (1−pκ )
n (1+δ)2
gdzie δ := (F ◦ κ) 0 (pκ ) = f(κ(pκ )) κ 0 (pκ ), a Φ jest dystrybuantą
N(0, 1).
41 / 69
Testy do porównywania dwóch prób
X — n-elementowa próba i.i.d. F.
Y — n-elementowa próba i.i.d. G.
Jesteśmy zainteresowani konstrukcją (nieparametrycznego) testu ϕ
na poziomie istotności α do weryfikacji
H0 : F = G
względem
K : F G.
42 / 69
X — n-elementowa próba i.i.d. F.
Y — n-elementowa próba i.i.d. G.
Jesteśmy zainteresowani konstrukcją (nieparametrycznego) testu ϕ
na poziomie istotności α do weryfikacji
H0 : F = G
względem
K : F G.
43 / 69
Dla F = G i dostatecznie dużych n mamy
r
n
bκ (Y)) ∼ N (0, 1) ,
T=
(b
pκ (X) − p
2σ2κ,F
gdzie
σ2κ,F =
pκ,F (1 − pκ,F )
(1 + δκ,F )2
oraz δκ,F := (F ◦ κ) 0 (pκ,F ).
H0 odrzucamy, gdy T > z1−α .
44 / 69
Dalej F — dystrybuanta P2(k1 , s), G — dystrybuanta P2(k2 , s).
s > 1 — ustalone (znane).
Mamy k1 < k2 ⇒ F G.
κ(x) = nx („indeks Hirscha”).
45 / 69
46 / 69
47 / 69
Testy do porównania:
1 Test Manna-Whitney’a-Wilcoxona,
2 Test Kołmogorowa-Smirnowa,
3 Test parametryczny oparty na ilorazie wiarogodności.
Statystyka testowa
Pn
ln (s + Xi ) − nln s H0 [2n,2n]
∼ F
.
T = Pi=1
n
i=1 ln (s + Yi ) − nln s
[2n,2n]
H0 odrzucamy, gdy T > F1−α
.
48 / 69
Statystyka testowa
Pn
ln (s + Xi ) − nln s H0 [2n,2n]
∼ F
.
T = Pi=1
n
[2n,2n]
.
49 / 69
Statystyka testowa
Pn
ln (s + Xi ) − nln s H0 [2n,2n]
∼ F
.
T = Pi=1
n
[2n,2n]
.
50 / 69
Statystyka testowa
Pn
ln (s + Xi ) − nln s H0 [2n,2n]
∼ F
.
T = Pi=1
n
[2n,2n]
.
51 / 69
0.6
0.4
0.2
Hirsch
Mann−Whitney
K−S
LR−param
0.0
Power
0.8
1.0
k1=1, s=2, n=10, MC=10000, alpha=0.05
1.0
1.5
2.0
2.5
3.0
k2
52 / 69
0.6
0.4
0.2
Hirsch
Mann−Whitney
K−S
LR−param
0.0
Power
0.8
1.0
k1=1, s=2, n=20, MC=10000, alpha=0.05
1.0
1.5
2.0
2.5
3.0
k2
53 / 69
0.6
0.4
0.2
Hirsch
Mann−Whitney
K−S
LR−param
0.0
Power
0.8
1.0
k1=1, s=2, n=50, MC=10000, alpha=0.05
1.0
1.5
2.0
2.5
3.0
k2
54 / 69
0.6
0.4
0.2
Hirsch
Mann−Whitney
K−S
LR−param
0.0
Power
0.8
1.0
k1=1, s=2, n=100, MC=10000, alpha=0.05
1.0
1.5
2.0
2.5
3.0
k2
55 / 69
0.6
0.4
0.2
Hirsch
Mann−Whitney
K−S
LR−param
0.0
Power
0.8
1.0
k1=1, s=2, n=250, MC=10000, alpha=0.05
1.0
1.5
2.0
2.5
3.0
k2
56 / 69
0.6
0.4
0.2
Hirsch
Mann−Whitney
K−S
LR−param
0.0
Power
0.8
1.0
k1=0.3, s=5, n=10, MC=10000, alpha=0.05
0.5
1.0
1.5
2.0
k2
57 / 69
0.6
0.4
0.2
Hirsch
Mann−Whitney
K−S
LR−param
0.0
Power
0.8
1.0
k1=0.3, s=5, n=20, MC=10000, alpha=0.05
0.5
1.0
1.5
2.0
k2
58 / 69
0.6
0.4
0.2
Hirsch
Mann−Whitney
K−S
LR−param
0.0
Power
0.8
1.0
k1=0.3, s=5, n=50, MC=10000, alpha=0.05
0.5
1.0
1.5
2.0
k2
59 / 69
0.6
0.4
0.2
Hirsch
Mann−Whitney
K−S
LR−param
0.0
Power
0.8
1.0
k1=0.3, s=5, n=100, MC=10000, alpha=0.05
0.5
1.0
1.5
2.0
k2
60 / 69
0.6
0.4
0.2
Hirsch
Mann−Whitney
K−S
LR−param
0.0
Power
0.8
1.0
k1=0.3, s=5, n=250, MC=10000, alpha=0.05
0.5
1.0
1.5
2.0
k2
61 / 69
Podsumowanie i problemy otwarte
• Jakie własności statystyczne miałyby estymatory κ-pozycji
zbudowane dla innych funkcji kontrolnych κ?
• Czy testy budowane na tych estymatorach miałyby lepszą moc
niż test wykorzystujący estymator rozważany w tej pracy?
• Dla jakiej funkcji kontrolnej (być może z określonej rodziny
funkcji) otrzymalibyśmy test o maksymalnej mocy?
• ......
62 / 69
• ......
63 / 69
• ......
64 / 69
• ......
65 / 69
• ......
66 / 69
Dziękujemy za uwagę.
67 / 69
Literatura
• Q. Burrell. On the h-index, the size of the Hirsch core and Jin’s
A-index. Journal of Informetrics 1, 170–177.
• Q. Burrell (2008). Extending Lotkaian informetrics. Information
Processing & Management 44, 1794–1807.
• A. DasGupta (2008). Asymptotic theory of statistics and
probability. Springer Verlag, New York.
• W. Glänzel (2008). On some new bibliometric applications of
statistics related to the h-index. Scientometrics 77(1), 187–196.
• L. Egghe (2006). Theory and practise of the g-index.
Scientometrics 69(1), 131–152.
68 / 69
• M. Gągolewski, P. Grzegorzewski (2009). A geometric approach
to the construction of scientific impact indices. Scientometrics
81(3), 617–634.
• M. Grabisch, E. Pap, J. Marichal, R. Mesiar (2009).
Aggregation Functions, Cambridge.
• J. E. Hirsch (2005). An index to quantify individual’s scientific
research output. PNAS 102(46), 16569–16572.
• R. J. Hyndman, Y. Fan (1996). Sample quantiles in statistical
packages. American Statistician, 50(4), 361–365.
• G. J. Woeginger (2008). An axiomatic characterization of the
Hirsch-index. Mathematical Social Sciences 56(2), 224–232.
69 / 69

Uogólniony indeks Hirscha a dwupróbkowe testy dla rodziny

Transkrypt

Podobne dokumenty

Automatyczne testowanie wydajności oprogramowania

Testy psychologiczne Testy dostarczają informacji

Wielki egzamin – kompleksowe przygotowanie do egzaminu

EFEKTYWNE TESTY AUTOMATYCZNE (JAVA I

genetyka i biologia eksperymentalna

Prezentacja: Językowy kurs online dla Zespołu Obsługi

ochrona radiologiczna w jednostce ochrony zdrowia

Instrukcja techniczna

Jarmark Wielkanocny w Dobrym Mieście

spis treśœci - e