Benjamin Disraeli
Transkrypt
Benjamin Disraeli
Statystyka Opisowa 2014 część 2 Katarzyna Lubnauer Literatura: 1. „Statystyka w Zarządzaniu” ‚ Admir D. Aczel 2. „Statystyka Opisowa od Podstaw” ‚ Ewa Wasilewska 3. „Statystyka” , Lucjan Kowalski. 4. „Statystyka opisowa”, Mieczysław Sobczyk Są trzy rodzaje kłamstw: kłamstwa, przeklęte kłamstwa i statystyki. Benjamin Disraeli - premier Wielkiej Brytanii (w latach 1868 i 1874-1880) Katarzyna Lubnauer 2 Badanie zależności między dwiema cechami – analiza korelacji. Badając różnego rodzaju zjawiska, np. społeczne, ekonomiczne, psychologiczne, przyrodnicze itp. stwierdzamy, ze często jedno z nich jest uwarunkowane działaniem innych zjawisk. Zastanawiamy się nad charakterystyką tej zależności. Np. Czy cena lodów ma wpływ na ich sprzedaż? Czy temperatura powietrza ma wpływ na sprzedaż lodów? Czy cena samochodów ma wpływ na cenę lodów? Naszym celem jest odpowiedź na 4 pytania: • Czy między badanymi cechami występuje współzależność. • Jaki jest kształt zależności (liniowa, nieliniowa). • Jaka jest jej siła. • Jaki jest jej kierunek. Katarzyna Lubnauer 3 Głupi ludzie, nie zawsze pozorna zależność oznacza przyczynę i skutek. Katarzyna Lubnauer 4 Katarzyna Lubnauer 5 Szeregi dwucechowe szczegółowe – szereg korelacyjny Wiek żony X, xi Wiek męża Y, 19 19 20 24 21 22 23 23 24 26 27 26 28 30 30 34 33 32 35 37 Katarzyna Lubnauer yi Otrzymujemy więc zbiór par postaci: ( xi , yi ) gdzie: i 1,..., n 6 Prezentacja graficzna szeregów dwucechowych, diagram korelacyjny: xi 1 3 3 4 5 6 7 7 8 9 yi 1 26 30 66 124 220 345 350 490 880 1000 900 800 700 600 500 400 300 200 100 0 0 2 Katarzyna Lubnauer 4 6 8 10 7 Prezentacja graficzna szeregów dwucechowych, diagram korelacyjny: xi 1 3 3 4 5 6 7 7 8 9 yi 880 490 350 345 220 124 66 30 26 1 1000 900 800 700 600 500 400 300 200 100 0 0 2 Katarzyna Lubnauer 4 6 8 10 8 Szeregi dwucechowe rozdzielcze x1 x2 x3 x4 x5 y3 n23 n23 n33 n43 n53 y2 n12 n22 n32 n42 n52 y1 n11 n21 n31 n41 n51 Gdzie xi warianty cechy X, zaś y j liczebność pary: x , y i y4 n14 n24 n34 n44 n54 warianty cechy Y oraz n ij j Katarzyna Lubnauer 9 Przykład: Niech X czas nauki studentów do testu ze SO wyrażony w godzinach, zaś Y ocena z testu. Przyjmujemy, że do testu podeszło 100 studentów y1 2 y2 3 y3 4 y4 5 x1 3 8 4 3 1 x2 5 7 5 5 3 x3 7 4 6 6 4 x4 9 3 5 8 7 x5 11 1 4 7 9 Katarzyna Lubnauer 10 Do dalszych analiz potrzebne nam będą liczebności brzegowe: y1 y2 y3 y4 x1 n11 n12 n13 n14 n1 x2 n21 n22 n23 n24 n2 x3 n31 n33 n41 n51 n34 n44 n3 x4 x5 n32 n42 n1 n52 n43 n53 n2 n3 ni nij , n4 n5 n54 n4 n j nij j i Katarzyna Lubnauer 11 Przykład: Niech X czas nauki studentów do testu ze SO wyrażony w godzinach, zaś Y ocena z testu. Przyjmujemy, że do testu podeszło 100 studentów, szukamy liczebności brzegowych. y1 2 y2 3 y3 4 y4 5 ni x1 3 8 4 3 1 16 x2 5 7 5 5 3 20 x3 7 4 6 6 4 20 x4 9 3 5 8 7 23 x5 11 1 4 7 9 21 n j 23 24 29 24 100 Katarzyna Lubnauer 12 Wyróżniamy dwa rodzaje zależności między cechami są to: • Zależność funkcyjna – polegająca na tym, że zmiana wartości cechy X powoduje zmianę wartości cechy Y Przykład: X podatek, Y cena, można się spodziewać zależności Y = aX+a • Zależność statystyczna – polegająca na tym, że jednej wartości cechy X przypada kilka wartości cechy Y Przykład: X wiek dziecka w miesiącach, Y waga dzieci Wiek w miesiącach X Waga w kg Y 1 3,8 7 6 4,8 2 8 5,2 5 4,9 4 5,9 3 6,4 2 3 6,0 1 7,2 0 7,4 0 Katarzyna Lubnauer 1 2 3 4 13 Katarzyna Lubnauer 14 Potrzebujemy miary, która pomogłaby wyrazić siłę zależności w sposób liczbowy. W celu badania zależności między zmiennymi korzystamy ze współczynnika korelacji Pearsona zdefiniowany wzorem: cov X , Y r s X sY cov(X,Y) w zależności od postaci w jakiej mamy dane liczy się z różnych wzorów. Katarzyna Lubnauer 15 Dla szeregu szczegółowego (zależność podejrzewana o charakter funkcyjny) na policzenie kowariancji i odchylenia stosujemy wzory: X Y 1 1 3 26 3 30 4 66 5 124 6 220 7 345 7 350 8 490 9 880 n cov X , Y x x y i 1 i i y n 1 n 2 sX xi x , n i 1 1 n 2 sY y y i n i 1 Wg Excela Katarzyna Lubnauer 16 X Y 1 1 3 26 3 30 4 66 5 124 6 220 7 345 7 350 8 490 9 880 cov X , Y r s X sY 0,8917 Katarzyna Lubnauer 17 X Y 1 880 3 490 3 350 4 345 5 220 6 124 7 66 7 30 8 26 9 1 cov X , Y r s X sY 0,9365 Katarzyna Lubnauer 18 Wiek w miesiącach X Waga w kg Y 1 3,8 4,8 5,2 2 4,9 5,9 cov X , Y r s X sY 6,4 3 6,0 7,2 7,4 8 7 0,8347 6 5 4 3 2 1 0 0 1 2 3 4 Katarzyna Lubnauer 19 Dla szeregu rozdzielczego (zależność podejrzewana o charakter funkcyjny) na policzenie kowariancji stosujemy wzór: n x x y m cov X , Y sX k j 1 i 1 ij i j n y1 2 y2 3 y3 4 y4 5 k 1 2 n x x , i i n i 1 2 1 m sY n j y j y n i 1 r 0, 4321 y ni x1 3 8 4 3 1 16 x2 5 7 5 5 3 20 x3 7 4 6 6 4 20 x4 9 3 5 8 7 23 x5 11 1 4 7 9 21 n j 23 24 29 24 100 Katarzyna Lubnauer 20 Interpretacja współczynnika korelacji: r - Współczynnik korelacji Pearsona jest miarą symetryczną. Oznacza to, że jest taki sam niezależnie, czy badamy zależność X od Y, czy odwrotnie. 1 r 1 Odpowiada na następujące pytania: • Czy między badanymi cechami występuje współzależność Jeśli jest bliski, lub równy zero to przyjmuje się, że między zmiennymi nie ma zależności. • Jaki jest kształt zależności (liniowa, nieliniowa) r 1 oznacza zależność liniową Katarzyna Lubnauer 21 • Jaka jest jej siła r 0,0.2 bardzo słaby związek r 0.2,0.4 słaby związek r 0.4,0.6 umiarkowany związek r 0.6,0.8 silny związek r 0.8,1.0 bardzo silny związek • Jaki jest jej kierunek r0 korelacja ujemna, wzrost jednej zmiennej powodował spadek drugiej r0 korelacja dodatnia, wraz ze wzrostem jednej zmiennej wzrasta druga Katarzyna Lubnauer 22 Przykładowe diagramy z podaną wartością korelacji Pearsona Katarzyna Lubnauer 23 Współczynnik korelacji rang Spearmana Współczynnik rang Spearmana jest miarą statystyczną służącą do badania zależności, korelacji między dwiema cechami populacji, który stosujemy gdy: • Mamy do czynienia z sytuacją, gdy jedna z cech jest jakościowa (niemierzalna), ale dająca się uporządkować (porządkowa), a druga cecha jest mierzalna. • Gdy mamy dwie jakościowe (niemierzalne), ale dające się uporządkować • Gdy mamy dwie cechy mierzalne i niedużą liczebność próby, zaś współczynnik korelacji Pearsona zakłócają wartości odskakujące Musimy najpierw zdefiniować pojęcie rangowania – czyli przypisywania wariantom cechy X, oraz cechy Y rang wynikających z kolejności w uporządkowanym szeregu szczegółowym. Katarzyna Lubnauer 24 Rangowanie odbywa się po uporządkowaniu wariantów cechy od najmniejszej do największej, następnie przypisujemy każdemu wariantowi numer, który zajmuje w ciągu. Jeśli kilka wariantów jest równe to rangą jest średnią arytmetyczną kolejnych numerów przypadających na ten wariant. Przykład: 2,4; 3,5; 3,5; 5; 2,4; 2,4; 3,5; 4; 5; 2,4 Uporządkowane kolejno z przypisanymi rangami wyglądają tak, gdzie : rxi oznacza rangę wariantu: xi X kolejność Rangi xi rxi 2,4 1-4 2,5 2,4 1-4 2,5 2,4 1-4 2,5 2,4 1-4 2,5 3,5 5-7 6 3,5 5-7 6 3,5 5-7 6 4 8 8 5 9-10 9,5 5 9-10 9,5 Katarzyna Lubnauer 25 Jeżeli teraz mamy dwie cechy odpowiednio X i Y mające warianty: xi , yi przypisujemy im odpowiednio rangi: rxi , ryi To współczynnik rang Spearmana liczymy ze wzoru n rs 1 6 d i2 i 1 2 n( n 1) gdzie d i rxi ryi Katarzyna Lubnauer 26 Uwaga, dla różnic rang zawsze zachodzi związek: n d i 1 i 0 Ponadto współczynnik 1 rs 1 I co za tym idzie: rs 1 Katarzyna Lubnauer 27 Przykład Badamy zależność między wykształceniem, a dniami urlopu w czasie roku: X Y podstawowe średnie zasadnicze zawodowe wyższe magisterskie wyższe licencjackie podstawowe zasadnicze zawodowe wyższe licencjackie podstawowe wyższe magisterskie 24 18 17 10 9 22 15 8 23 7 Katarzyna Lubnauer 28 Najpierw wyznaczymy rangi dla cechy jakościowej, porządkowej jaką jest wykształcenie. Musimy teraz przypisać rangi, w tym celu najpierw porządkujemy warianty: Teraz przypisujemy wariantom rangi, zgodnie ze średnią arytmetyczną numerów. Warianty podstawowe podstawowe podstawowe zasadnicze zawodowe zasadnicze zawodowe średnie wyższe licencjackie wyższe licencjackie wyższe magisterskie wyższe magisterskie Numery 1-3 1-3 1-3 4-5 4-5 6 7-8 7-8 9-10 9-10 Warianty podstawowe średnie zasadnicze zawodowe wyższe magisterskie wyższe licencjackie podstawowe zasadnicze zawodowe wyższe licencjackie podstawowe wyższe magisterskie Rangi 2 6 4,5 9,5 7,5 2 4,5 7,5 2 9,5 Katarzyna Lubnauer 29 Teraz wyznaczymy rangi dla cechy ilościowej, jaką jest liczba dni wolnych. Musimy teraz przypisać rangi, w tym celu najpierw porządkujemy warianty: Teraz przypisujemy wariantom rangi, zgodnie ze średnią arytmetyczną numerów. Warianty 7 8 9 10 15 17 18 22 23 24 Numery 1 2 3 4 5 6 7 8 9 10 Warianty 24 18 17 10 9 22 15 8 23 7 Rangi 10 7 6 4 3 8 5 2 9 1 Katarzyna Lubnauer 30 Cecha X Rangi cechy X Cecha Y Rangi cechy Y Różnica rang Kwadrat różnicy rang rxi yi ryi di di 2 podstawowe 2 24 10 -8 64 średnie 6 18 7 -1 1 zasadnicze zawodowe 4,5 17 6 -1,5 2,25 wyższe magisterskie 9,5 10 4 5,5 30,25 wyższe licencjackie 7,5 9 3 4,5 20,25 podstawowe 2 22 8 -6 36 zasadnicze zawodowe 4,5 15 5 -0,5 0,25 wyższe licencjackie 7,5 8 2 5,5 30,25 podstawowe 2 23 9 -7 49 wyższe magisterskie 9,5 7 1 8,5 72,25 0 305,5 xi suma n rs 1 6 d i2 i 1 2 n( n 1) 0,85152 Katarzyna Lubnauer 31 Japończycy jedzą bardzo mało tłuszczu i cierpią na mniej ataków serca niż Brytyjczycy czy Amerykanie. Z drugiej strony, Francuzi jedzą dużo tłuszczu, a także cierpią na mniej ataków serca niż Brytyjczycy czy Amerykanie. Japończycy piją bardzo mało czerwonego wina i cierpią na mniej ataków serca niż Brytyjczycy czy Amerykanie. Włosi piją nadmierne ilości czerwonego wina, a także cierpią na mniej ataków serca niż Brytyjczycy czy Amerykanie. Wnioski: Jedz i pij co chcesz. To mówienie po angielsku, że cię zabije. Katarzyna Lubnauer 32