Statystyka opisowa. Wykład VI. Analiza danych jakośiowych

Transkrypt

Statystyka opisowa. Wykład VI. Analiza danych jakośiowych
Rangowanie
Podstawowe charakterystyki rang
Współczynnik korelacji Spearmana
Statystyka opisowa. Wykład VI.
Analiza danych jakośiowych
Edward Kozłowski
e-mail:[email protected]
Edward Kozłowski
Analiza danych jakośiowych
Rangowanie
Podstawowe charakterystyki rang
Współczynnik korelacji Spearmana
Spis treści
1
Rangowanie
2
Podstawowe charakterystyki rang
3
Współczynnik korelacji Spearmana
Edward Kozłowski
Analiza danych jakośiowych
Rangowanie
Podstawowe charakterystyki rang
Współczynnik korelacji Spearmana
Rangowanie
Badaniu statystycznemu czasami podlegają cechy niemierzalne
(jakościowe), np. kolor włosów, stopień sympatii, pochodzenie itp.
Powstaje problem opisania niemierzalnych atrybutów. W tym celu
posłużymy się metodą rangową.
Definition
Ranga – numer kolejny obserwacji statystycznej w próbie po
uporządkowaniu obserwacji według wartości jednej ze zmiennych.
Zwykle stosuje się uporządkowanie rosnące i numerowanie od 1.
Zastąpienie zmiennej przez wyliczone według niej rangi jest operacją
zwaną rangowaniem.
Edward Kozłowski
Analiza danych jakośiowych
Rangowanie
Podstawowe charakterystyki rang
Współczynnik korelacji Spearmana
Rangowanie jest zwykle stosowane w celu uniezależnienia się od rozkładu
zmiennej niemierzalnej, co pozwala na stosowanie metod statystycznych
w odniesieniu do zmiennych porządkowych, a nie tylko przedziałowych i
ilorazowych.
Rangowanie jest też pierwszym krokiem wielu metod statystyki
nieparametrycznej.
Rangi regularne.
Rangowanie można zastosować do wielu zmiennych w próbie,
porządkując każdą zmienną z osobna, nadając odpowiednie rangi, a
następnie wracając do pierwotnego ustawienia obserwacji.
Edward Kozłowski
Analiza danych jakośiowych
Rangowanie
Podstawowe charakterystyki rang
Współczynnik korelacji Spearmana
Rangi wiązane.
W przypadku występowania obserwacji o równej wartości rangowanej
zmiennej (tzw. rangi wiązane, ang. tied ranks), zwykle wszystkim tym
obserwacjom przypisuje się identyczną rangę, równą średniej z ich
numerów kolejnych, stąd rangi mogą mieć wartości niecałkowite. Dla
populacji n−elementowej tablicę rozdzielczą rang, ni oznacza liczebność
i-tej rangi, ni ­ 1 oraz n1 + n2 + ... + nk = n, natomiast k− oznacza
liczbę różnych rang.
Edward Kozłowski
Analiza danych jakośiowych
Rangowanie
Podstawowe charakterystyki rang
Współczynnik korelacji Spearmana
Przykład 1.
Pięciu uczniów w klasie uzyskało następujące wyniki: X1 =dst,
X2 =ndst, X3 =ndst, X4 =dst, X5 =db.
Po uporządkowaniu mamy: ndst, ndst, dst, dst, db
Przypisujemy rangi:
Xi
ndst dst db
RXi 1.5
3.5 5
ni
2
2
1
lub
Xi
ndst ndst dst dst db
RXi 1
2
3
4
5
ni
1
1
1
1
1
Edward Kozłowski
Analiza danych jakośiowych
Rangowanie
Podstawowe charakterystyki rang
Współczynnik korelacji Spearmana
Rangi ułamkowe i procentowe
Rangi ułamkowe powstają przez podzielenie rang regularnych przez liczbę
obserwacji danej zmiennej (z wyłączeniem brakujących danych), oraz
rangi procentowe czyli rangi ułamkowe wyrażone w procentach.
Zastosowanie rang ułamkowych i procentowych ma sens w przypadku
zbiorów z brakami danych. Wówczas rangi ułamkowe i procentowe
zapewniają lepszą od rang regularnych porównywalność zmiennych o
różnym udziale brakujących danych.
Edward Kozłowski
Analiza danych jakośiowych
Rangowanie
Podstawowe charakterystyki rang
Współczynnik korelacji Spearmana
Podstawowe charakterystyki rang
Dla rang regularnych wartość średnia wynosi
n
RX̄ =
n
1X
1X
1
1 n+1
n+1
RXi =
i = (1 + 2 + ... + n) = ·
n=
n i=1
n i=1
n
n
2
2
Edward Kozłowski
Analiza danych jakośiowych
Rangowanie
Podstawowe charakterystyki rang
Współczynnik korelacji Spearmana
Wariancja rang regularnych wynosi
2
2
n n 1X
n+1
1X
n+1
RXi −
=
i−
n i=1
2
n i=1
2
!
2
n
n
n
2
1X 2
n+1
n+1
1 X 2 n+1X
n+1
=
i − 2i
+
=
i −
i+
n i=1
2
2
n i=1
n i=1
2
2
1 1
n+1 n+1
n+1
= · n (n + 1) (2n + 1) −
·
n+
n 6
n
2
2
2
2
1
n+1
n −1
= (n + 1) (2n + 1) −
=
6
2
12
V ar (RX) =
Wsk. 1 + 22 + ... + n2 = 61 n (n + 1) (2n + 1)
Edward Kozłowski
Analiza danych jakośiowych
Rangowanie
Podstawowe charakterystyki rang
Współczynnik korelacji Spearmana
Dla rang ważonych
k
RX̄ =
1X
n+1
RXi ni =
,
n i=1
2
natomiast
V ar (RX)
=
2
2
k k
n+1
1X
n+1
1X
2
RXi −
ni =
RXi ni −
n i=1
2
n i=1
2
=
n2 − 1 TX
−
,
12
n
gdzie
k
TX =
1 X 3
ni − ni .
12 i=1
Edward Kozłowski
Analiza danych jakośiowych
Rangowanie
Podstawowe charakterystyki rang
Współczynnik korelacji Spearmana
Współczynnik korelacji Spearmana
W praktyce współczynnik korelacji rang dla cech X i Y oblicza się na
podstawie próby statystycznej. Używane do wyznaczenia współczynnika
powyżej wzory uważamy za estymatory korelacji rang (korelacji istniejącej
w populacji statystycznej).
Wartość współczynnika obliczamy w następujący sposób:
– Najpierw dla każdej porównywanej zmiennej X i Y dokonywane jest
niezależnie rangowanie (czyli: zaobserwowane wartości danej zmiennej
porządkowane są rosnąco; każdej wartości Xi przypisywana jest ranga
RXi równa pozycji danej wartości w rosnącym porządku (najmniejsza
uzyskuje rangę 1, kolejna 2 itd.), a każdej wartości Yi przypisywana jest
ranga RYi równa pozycji danej wartości w rosnącym porządku; w
przypadku gdy dana wartość występuje wielokrotnie, każde z wystąpień
ma przypisaną tę samą rangę równą średniej arytmetycznej pozycji w
rosnącym porządku (tzw. ranga wiązana lub powiązana, ang. tied rank).
tym samym mogą występować rangi ułamkowe, np. ranga 1,5)
Edward Kozłowski
Analiza danych jakośiowych
Rangowanie
Podstawowe charakterystyki rang
Współczynnik korelacji Spearmana
– Po powrocie do pierwotnego porządku wartości zmiennych obliczana
jest korelacja rangowa ze wzoru
rS = p
cov (RX, RY )
p
V ar (RX) V ar (RY )
Dla rang regularnych mamy
1
n
rS = s
1
n
n
P
i=1
n
P
RXi −
i=1
n+1
2
RYi −
s
RXi −
n+1 2
2
Edward Kozłowski
1
n
n
P
n+1
2
RYi −
i=1
Analiza danych jakośiowych
n+1 2
2
Rangowanie
Podstawowe charakterystyki rang
Współczynnik korelacji Spearmana
Wyznaczmy najpierw
n
X
n X
2
n+1
n+1
− RYi −
2
2
i=1
i=1
n
n
n
2
2
X
X
X
n+1
n+1
n+1
=
RXi −
+
RYi −
−2
RXi −
RYi
2
2
2
i=1
i=1
i=1
n X
n3 − n n3 − n
n+1
n+1
=
+
−2
RXi −
RYi −
12
12
2
2
i=1
zatem
n X
i=1
2
(RXi − RYi ) =
RXi −
n+1
2
RXi −
n
n+1
n3 − n 1 X
2
−
RYi −
=
(RXi − RYi )
2
12
2 i=1
Edward Kozłowski
Analiza danych jakośiowych
Rangowanie
Podstawowe charakterystyki rang
Współczynnik korelacji Spearmana
Zatem mamy
n2 −1
12
rS =
n
P
2
1
− 2n
(RXi − RYi )
i=1
q
q
=
n2 −1
12
n2 −1
12
n2 −1
12
−
1
2n
n
P
(RXi − RYi )
i=1
n2 −1
12
2
.
Ostatecznie wartość współczynnika kerelacji Spearmana rang regularnych
jest równa
n
P
2
6
(RXi − RYi )
rS = 1 − i=1 3
n −n
Edward Kozłowski
Analiza danych jakośiowych
Rangowanie
Podstawowe charakterystyki rang
Współczynnik korelacji Spearmana
Wartość współczynnika korelacji Spearmana dla rang wiązanych
wyznaczamy za pomocą wzoru
1
6
rS =
n
P
2
(RXi − RYi ) − TX − TY
n3 − n −
i=1
q
q
1
1
3
3
6 (n − n) − 2TX
6 (n − n) − 2TY
Edward Kozłowski
Analiza danych jakośiowych
Rangowanie
Podstawowe charakterystyki rang
Współczynnik korelacji Spearmana
Przykład 2.
Oszacować wartość średnia i wariancję rang z przykładu 1.
Przykład 3.
Dwóch ekspertów dokonało rangowania 10 przedsiębiorstw odnośnie
prognoz dotyczących przyszłych wynikȯw finansowych.
RX = {1, 2, 3, 9, 4, 7, 8, 6, 5, 10}
RY = {4, 3, 2, 5, 1, 9, 8, 7, 10, 6}
Znaleźć współczynnik korelacji Spearmana pomiędzy wizjami dwóch
ekspertów.
Przykład 4.
Dokonano opisu 10 osób ze względu na znajomość języka angielskiego i
matematyki.
osoby
1
2
3
4
5
6
7
8
9
j. obcy
bdb dst
bdb dst bdb db dst bdb bdb
matematyka dst
bdb bdb db bdb dst dst db
dst
Dokonać rangowania w/w cech oraz oszacować współczynnik korelacji
Spearmana.
Edward Kozłowski
Analiza danych jakośiowych
10
dst
db

Podobne dokumenty