Statystyka opisowa. Wykład VI. Analiza danych jakośiowych
Transkrypt
Statystyka opisowa. Wykład VI. Analiza danych jakośiowych
Rangowanie Podstawowe charakterystyki rang Współczynnik korelacji Spearmana Statystyka opisowa. Wykład VI. Analiza danych jakośiowych Edward Kozłowski e-mail:[email protected] Edward Kozłowski Analiza danych jakośiowych Rangowanie Podstawowe charakterystyki rang Współczynnik korelacji Spearmana Spis treści 1 Rangowanie 2 Podstawowe charakterystyki rang 3 Współczynnik korelacji Spearmana Edward Kozłowski Analiza danych jakośiowych Rangowanie Podstawowe charakterystyki rang Współczynnik korelacji Spearmana Rangowanie Badaniu statystycznemu czasami podlegają cechy niemierzalne (jakościowe), np. kolor włosów, stopień sympatii, pochodzenie itp. Powstaje problem opisania niemierzalnych atrybutów. W tym celu posłużymy się metodą rangową. Definition Ranga – numer kolejny obserwacji statystycznej w próbie po uporządkowaniu obserwacji według wartości jednej ze zmiennych. Zwykle stosuje się uporządkowanie rosnące i numerowanie od 1. Zastąpienie zmiennej przez wyliczone według niej rangi jest operacją zwaną rangowaniem. Edward Kozłowski Analiza danych jakośiowych Rangowanie Podstawowe charakterystyki rang Współczynnik korelacji Spearmana Rangowanie jest zwykle stosowane w celu uniezależnienia się od rozkładu zmiennej niemierzalnej, co pozwala na stosowanie metod statystycznych w odniesieniu do zmiennych porządkowych, a nie tylko przedziałowych i ilorazowych. Rangowanie jest też pierwszym krokiem wielu metod statystyki nieparametrycznej. Rangi regularne. Rangowanie można zastosować do wielu zmiennych w próbie, porządkując każdą zmienną z osobna, nadając odpowiednie rangi, a następnie wracając do pierwotnego ustawienia obserwacji. Edward Kozłowski Analiza danych jakośiowych Rangowanie Podstawowe charakterystyki rang Współczynnik korelacji Spearmana Rangi wiązane. W przypadku występowania obserwacji o równej wartości rangowanej zmiennej (tzw. rangi wiązane, ang. tied ranks), zwykle wszystkim tym obserwacjom przypisuje się identyczną rangę, równą średniej z ich numerów kolejnych, stąd rangi mogą mieć wartości niecałkowite. Dla populacji n−elementowej tablicę rozdzielczą rang, ni oznacza liczebność i-tej rangi, ni 1 oraz n1 + n2 + ... + nk = n, natomiast k− oznacza liczbę różnych rang. Edward Kozłowski Analiza danych jakośiowych Rangowanie Podstawowe charakterystyki rang Współczynnik korelacji Spearmana Przykład 1. Pięciu uczniów w klasie uzyskało następujące wyniki: X1 =dst, X2 =ndst, X3 =ndst, X4 =dst, X5 =db. Po uporządkowaniu mamy: ndst, ndst, dst, dst, db Przypisujemy rangi: Xi ndst dst db RXi 1.5 3.5 5 ni 2 2 1 lub Xi ndst ndst dst dst db RXi 1 2 3 4 5 ni 1 1 1 1 1 Edward Kozłowski Analiza danych jakośiowych Rangowanie Podstawowe charakterystyki rang Współczynnik korelacji Spearmana Rangi ułamkowe i procentowe Rangi ułamkowe powstają przez podzielenie rang regularnych przez liczbę obserwacji danej zmiennej (z wyłączeniem brakujących danych), oraz rangi procentowe czyli rangi ułamkowe wyrażone w procentach. Zastosowanie rang ułamkowych i procentowych ma sens w przypadku zbiorów z brakami danych. Wówczas rangi ułamkowe i procentowe zapewniają lepszą od rang regularnych porównywalność zmiennych o różnym udziale brakujących danych. Edward Kozłowski Analiza danych jakośiowych Rangowanie Podstawowe charakterystyki rang Współczynnik korelacji Spearmana Podstawowe charakterystyki rang Dla rang regularnych wartość średnia wynosi n RX̄ = n 1X 1X 1 1 n+1 n+1 RXi = i = (1 + 2 + ... + n) = · n= n i=1 n i=1 n n 2 2 Edward Kozłowski Analiza danych jakośiowych Rangowanie Podstawowe charakterystyki rang Współczynnik korelacji Spearmana Wariancja rang regularnych wynosi 2 2 n n 1X n+1 1X n+1 RXi − = i− n i=1 2 n i=1 2 ! 2 n n n 2 1X 2 n+1 n+1 1 X 2 n+1X n+1 = i − 2i + = i − i+ n i=1 2 2 n i=1 n i=1 2 2 1 1 n+1 n+1 n+1 = · n (n + 1) (2n + 1) − · n+ n 6 n 2 2 2 2 1 n+1 n −1 = (n + 1) (2n + 1) − = 6 2 12 V ar (RX) = Wsk. 1 + 22 + ... + n2 = 61 n (n + 1) (2n + 1) Edward Kozłowski Analiza danych jakośiowych Rangowanie Podstawowe charakterystyki rang Współczynnik korelacji Spearmana Dla rang ważonych k RX̄ = 1X n+1 RXi ni = , n i=1 2 natomiast V ar (RX) = 2 2 k k n+1 1X n+1 1X 2 RXi − ni = RXi ni − n i=1 2 n i=1 2 = n2 − 1 TX − , 12 n gdzie k TX = 1 X 3 ni − ni . 12 i=1 Edward Kozłowski Analiza danych jakośiowych Rangowanie Podstawowe charakterystyki rang Współczynnik korelacji Spearmana Współczynnik korelacji Spearmana W praktyce współczynnik korelacji rang dla cech X i Y oblicza się na podstawie próby statystycznej. Używane do wyznaczenia współczynnika powyżej wzory uważamy za estymatory korelacji rang (korelacji istniejącej w populacji statystycznej). Wartość współczynnika obliczamy w następujący sposób: – Najpierw dla każdej porównywanej zmiennej X i Y dokonywane jest niezależnie rangowanie (czyli: zaobserwowane wartości danej zmiennej porządkowane są rosnąco; każdej wartości Xi przypisywana jest ranga RXi równa pozycji danej wartości w rosnącym porządku (najmniejsza uzyskuje rangę 1, kolejna 2 itd.), a każdej wartości Yi przypisywana jest ranga RYi równa pozycji danej wartości w rosnącym porządku; w przypadku gdy dana wartość występuje wielokrotnie, każde z wystąpień ma przypisaną tę samą rangę równą średniej arytmetycznej pozycji w rosnącym porządku (tzw. ranga wiązana lub powiązana, ang. tied rank). tym samym mogą występować rangi ułamkowe, np. ranga 1,5) Edward Kozłowski Analiza danych jakośiowych Rangowanie Podstawowe charakterystyki rang Współczynnik korelacji Spearmana – Po powrocie do pierwotnego porządku wartości zmiennych obliczana jest korelacja rangowa ze wzoru rS = p cov (RX, RY ) p V ar (RX) V ar (RY ) Dla rang regularnych mamy 1 n rS = s 1 n n P i=1 n P RXi − i=1 n+1 2 RYi − s RXi − n+1 2 2 Edward Kozłowski 1 n n P n+1 2 RYi − i=1 Analiza danych jakośiowych n+1 2 2 Rangowanie Podstawowe charakterystyki rang Współczynnik korelacji Spearmana Wyznaczmy najpierw n X n X 2 n+1 n+1 − RYi − 2 2 i=1 i=1 n n n 2 2 X X X n+1 n+1 n+1 = RXi − + RYi − −2 RXi − RYi 2 2 2 i=1 i=1 i=1 n X n3 − n n3 − n n+1 n+1 = + −2 RXi − RYi − 12 12 2 2 i=1 zatem n X i=1 2 (RXi − RYi ) = RXi − n+1 2 RXi − n n+1 n3 − n 1 X 2 − RYi − = (RXi − RYi ) 2 12 2 i=1 Edward Kozłowski Analiza danych jakośiowych Rangowanie Podstawowe charakterystyki rang Współczynnik korelacji Spearmana Zatem mamy n2 −1 12 rS = n P 2 1 − 2n (RXi − RYi ) i=1 q q = n2 −1 12 n2 −1 12 n2 −1 12 − 1 2n n P (RXi − RYi ) i=1 n2 −1 12 2 . Ostatecznie wartość współczynnika kerelacji Spearmana rang regularnych jest równa n P 2 6 (RXi − RYi ) rS = 1 − i=1 3 n −n Edward Kozłowski Analiza danych jakośiowych Rangowanie Podstawowe charakterystyki rang Współczynnik korelacji Spearmana Wartość współczynnika korelacji Spearmana dla rang wiązanych wyznaczamy za pomocą wzoru 1 6 rS = n P 2 (RXi − RYi ) − TX − TY n3 − n − i=1 q q 1 1 3 3 6 (n − n) − 2TX 6 (n − n) − 2TY Edward Kozłowski Analiza danych jakośiowych Rangowanie Podstawowe charakterystyki rang Współczynnik korelacji Spearmana Przykład 2. Oszacować wartość średnia i wariancję rang z przykładu 1. Przykład 3. Dwóch ekspertów dokonało rangowania 10 przedsiębiorstw odnośnie prognoz dotyczących przyszłych wynikȯw finansowych. RX = {1, 2, 3, 9, 4, 7, 8, 6, 5, 10} RY = {4, 3, 2, 5, 1, 9, 8, 7, 10, 6} Znaleźć współczynnik korelacji Spearmana pomiędzy wizjami dwóch ekspertów. Przykład 4. Dokonano opisu 10 osób ze względu na znajomość języka angielskiego i matematyki. osoby 1 2 3 4 5 6 7 8 9 j. obcy bdb dst bdb dst bdb db dst bdb bdb matematyka dst bdb bdb db bdb dst dst db dst Dokonać rangowania w/w cech oraz oszacować współczynnik korelacji Spearmana. Edward Kozłowski Analiza danych jakośiowych 10 dst db