Wykład 2.
Transkrypt
Wykład 2.
Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii Kurs letni dla studentów studiów zamawianych na kierunku „Matematyka w ekonomii i finansach” — wykład 2. dr Joanna Karłowska-Pik Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 1/64 Tablice rozkładu czesto ˛ ści Przykład 1. Dane dotyczace ˛ liczby sztuk sprzedanego towaru objetego ˛ właśnie promocja: ˛ 9 7 5 3 7 8 7 8 6 6 3 5 7 5 8 6 5 6 5 9 3 4 1 6 5 2 3 4 7 8 4 2 7 7 4 6 6 4 9 7 6 5 6 4 5 4 4 5 7 6 W tabeli podajemy wartości danych, zliczamy dane (stawiajac ˛ kreski — ang. tally chart), cz˛estości, cz˛estości wzgledne ˛ i cz˛estości wzgledne ˛ skumulowane. Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 2/64 Tabele czesto ˛ ści c.d. Zliczanie ni ni /N Skumulowane 1 | 1 1/50 1/50 2 || 2 2/50 3/50 3 |||| 4 4/50 7/50 4 ||||| ||| 8 8/50 15/50 5 ||||| |||| 9 9/50 24/50 6 ||||| ||||| 10 10/50 34/50 7 ||||| |||| 9 9/50 43/50 8 |||| 4 4/50 47/50 9 ||| 3 3/50 50/50=1 Wartości Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 3/64 Histogramy dla danych niezgrupowanych Ang. histogram. Termin wprowadzony przez Karla Pearsona w 1895 roku. Szczególna kategoria wykresów słupkowych. Słupki rysujemy nad wartościami zmiennej. Wysokość słupka odpowiada liczbie obserwacji, dla których zmienna przyjmuje żadan ˛ a˛ wartość. Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 4/64 Histogram dla danych z przykładu 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 5/64 Wielokaty ˛ czesto ˛ ści Ang. frequency polygon. Powstaja˛ przez połaczenie ˛ środków górnych krawedzi ˛ słupków histogramu. Środki górnych krawedzi ˛ słupków skrajnych należy połaczyć ˛ z osia˛ OX. Pole powierzchni wielokata ˛ powinno być równe sumie pól słupków histogramu. Wielokat ˛ cz˛estości przybliża nam kształt gestości ˛ rozkładu (pojecie ˛ teorii prawdopodobieństwa). Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 6/64 Wielokat ˛ czesto ˛ ści dla danych z przykładu 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 7/64 Wielokat ˛ czesto ˛ ści dla danych z przykładu 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 8/64 Krzywe czesto ˛ ści skumulowanych Nad wartościami zmiennych zaznaczamy cz˛estości wzgledne ˛ skumulowane. Otrzymane punkty łaczymy ˛ krzywa˛ (w sposób „gładki”). Krzywa cz˛estości wzglednych ˛ przybliża wykres funkcji znanej w teorii prawdopodobieństwa jako dystrybuanta. Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 9/64 Krzywa czesto ˛ ści dla danych z przykładu 1 0 0 1 2 3 4 5 6 7 8 9 10 Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 10/64 Tabele i histogramy w programie A NALIZA -> O PIS STATYSTYCZNY -> C Z ESTO ˛ ŚCI ... Przerzucamy do okna Zmienne zmienne, których tabele i histogramy chcemy utworzyć. Zaznaczamy P OKA Ż TABELE CZ ESTO ˛ ŚCI. Klikamy W YKRESY... i zaznaczamy H ISTOGRAMY. Klikamy DALEJ i OK. Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 11/64 Diagram „łodyga i liście” Ang. steam and leaf diagram. Przykład 2. 12, 36, 18, 25, 24, 11, 39, 11, 29, 35. 1 2 8 1 1 2 5 4 9 3 6 9 5 —> 1 1 1 2 8 2 4 5 9 3 5 6 9 Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 12/64 Diagram „łodyga i liście” w programie A NALIZA -> O PIS STATYSTYCZNY -> E KSPLORACJA ... Przerzucamy zmienna˛ do okienka Zmienne zależne. Zaznaczamy P OKA Ż W YKRESY i klikamy W YKRESY... Przy wykresach skrzynkowych zaznaczamy B RAK, przy opisie Ł ODYGA - I - LI ŚCIE. Klikamy DALEJ i OK. Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 13/64 Grupowanie danych Stosuje sie˛ głównie w przypadku dużej liczby danych przyjmujacych ˛ wiele różnych wartości. Kiedyś ułatwiało to obliczanie statystyk. Obecnie, gdy istnieje możliwość używania pakietów statystycznych, stosuje sie˛ tylko w celu prezentacji graficznej, m.in. rysowania histogramów. Zbyt duża liczba przedziałów może powodować, że liczebności klas bed ˛ a˛ małe i nie bedzie ˛ widać charakteru rozkładu. Zbyt mała może spowodować, że sasiaduj ˛ ace ˛ ze soba˛ przedziały o małej i dużej liczebności zostana˛ połaczone ˛ w jeden. Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 14/64 Grupowanie danych c.d. Gdy przedziały maja˛ być równej szerokości, to ich liczbe˛ można wyliczyć ze wzorów: k ¬ 5 ln N , k = 1 + 3, 322 ln N , √ k = N, Sturgesa: k = [log2 N + 1], Scotta: k = 3,5ŝ √ , 3 N gdzie N to liczebność danych, a ŝ odchylenie standardowe. Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 15/64 Grupowanie danych c.d. min Długość klasy b ≈ xmax −x , przy czym stosujemy k zawsze przybliżenie z nadmiarem. Punkty stanowiace ˛ granice klas ustala sie˛ z dokładnościa˛ do α/2, gdzie α to dokładność z jaka˛ podane sa˛ dane. W. Krysicki, J. Bartos, W. Dyczka, K. Królikowska, M. Wasilewski: Rachunek prawdopodobieństwa i statystyka matematyczna w zadaniach, cz˛eść II, PWN, Warszawa (1995). A. Łomnicki: Wprowadzenie do statystyki dla przyrodników, PWN, Warszawa (2003). Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 16/64 Szereg rozdzielczy Definicja: Dla danych pogrupowanych w klasy przez szereg rozdzielczy rozumiemy ciag ˛ par (x̃i , ni ), gdzie x̃i jest środkiem i-tej klasy, a ni jej liczebnościa. ˛ Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 17/64 Przykład grupowania Przykład 3. 68 74 67 46 64 65 61 53 69 54 44 37 55 57 59 47 51 21 73 62 47 64 50 43 32 70 40 65 32 49 58 46 62 73 N =√ 34. Liczbe˛ klas wyznaczamy np. ze wzoru k ≈ N ≈ 6. Długość klasy: b ≈ 74−21 = 53/6 ≈ 9. 6 Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 18/64 Tabela dla danych z przykładu Przedział Zliczanie środek x̃i ni ni /N Skumulowane [20, 5; 29, 5) | 25 1 1/34 1/34 [29, 5; 38, 5) ||| 34 3 3/34 4/34 [38, 5; 47, 5) |||| 43 7 7/34 11/34 [47, 5; 56, 5) ||||| |||| 52 6 6/34 17/34 [56, 5; 65, 5) ||||| ||||| 61 10 10/34 27/34 [65, 5; 74, 5) ||||| || 70 7 7/34 34/34=1 Szereg rozdzielczy — 3. i 4. kolumna tabeli. Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 19/64 Wykresy dla danych zgrupowanych Zasady tworzenia dla danych zgrupowanych analogiczne jak dla niezgrupowanych. Słupki histogramu rysujemy nad wyznaczonymi przedziałami. Pola słupków histogramu odpowiadaja˛ wartościom liczbowym, słupki nie musza˛ być równej szerokości. Wyglad ˛ histogramu zależny od obranej szerokości przedziałów oraz długości jednostek na osi pionowej. Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 20/64 Wykresy dla danych zgrupowanych c.d. Punkty dla krzywej cz˛estości skumulowanych zaznaczamy nad prawymi brzegami klas. Jeżeli przy rysowaniu histogramu zamiast cz˛estości zaznaczymy cz˛estości wzgledne, ˛ to pole histogramu i pole wielokata ˛ cz˛estości bed ˛ a˛ równe 1. Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 21/64 Wielokat ˛ czesto ˛ ści i histogram 10 5 25 34 43 52 61 70 Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 22/64 Krzywa czesto ˛ ści wzglednych ˛ 1 29.5 38.5 47.5 56.5 65.5 74.5 Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 23/64 Grupowanie danych w SPSSie Rekodujemy zmienne przyporzadkowuj ˛ ac ˛ danym z każdej klasy środek tej klasy. P RZEKSZTAŁCENIA -> R EKODUJ NA INNE ZMIENNE ... Przenosimy zmienna˛ z oryginalnymi wartościami do okna z prawej strony. W polach z prawej strony wpisujemy nazwe˛ i etykiete˛ zmiennej grupujacej ˛ i klikamy Z MIE Ń. Nastepnie ˛ klikamy na WARTO ŚCI ŹRÓDŁOWE I WYNIKOWE ... Dla każdej klasy w ramce WARTO Ś Ć ŹRÓDŁOWA wybieramy Z AKRES i podajemy granice klasy. W ramce WARTO Ś Ć WYNIKOWA wybieramy WARTO Ś Ć i podajemy środek klasy. Klikamy D ODAJ. Po wprowadzeniu wszystkich klas klikamy DALEJ Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 24/64 Grupowanie danych w SPSSie c.d. Agregujemy zmienna˛ zawierajac ˛ a˛ środki klas, zliczajac ˛ wystapienia. ˛ DANE -> AGREGUJ... Przenosimy zmienna˛ ze środkami klas do pola Z MIENNE GRUPUJ ACE ˛ . Zaznaczamy L ICZBA OBSERWACJI i wpisujemy nazwe ˛ zmiennej bed ˛ acej ˛ liczba˛ obserwacji w grupie np. n_i. W ramce Z APISZ wybieramy U TWÓRZ NOWY ZBIÓR DANYCH ZAWIERAJ ACY ˛ TYLKO ZAGREGOWANE ZMIENNE. Podajemy nazwe˛ nowego pliku. Klikamy OK. Otwieramy plik zawierajacy ˛ zagregowana˛ zmienna˛ — mamy szereg rozdzielczy. Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 25/64 Grupowanie danych w SPSSie c.d. Ważymy obserwacje: DANE -> WA ŻENIE OBSERWACJI .... W ramce wybieramy Z WA Ż OBSERWACJE i podajemy, że zmienna˛ ważac ˛ a˛ jest n_i. Wykonujemy tabele˛ cz˛estości i histogram zmiennej zawierajacej ˛ środki klas tak jak wcześniej. Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 26/64 Miary tendencji centralnej Oznaczenia: N — liczebność próbki, x1 , x2 , . . . , xN — obserwacje, x(1) , x(2) , . . . , x(N ) — obserwacje ustawione rosnaco. ˛ Miary tendencji centralnej: średnia (ang. mean), mediana (ang. median), moda, inaczej dominanta (ang. mode). Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 27/64 Średnia x̄ = PN i=1 xi N . Średnia˛ podajemy z dokładnościa˛ o 1 wieksz ˛ a˛ niż dane. Suma odchyleń wszystkich wartości zmiennej od średniej jest równa 0. Suma kwadratów odchyleń wartości zmiennej od pewnej liczby a jest najmniejsza dla a bed ˛ acego ˛ średnia. ˛ G. A. Ferguson, Y. Takane: Analiza statystyczna w psychologii i pedagogice, PWN, Warszawa (1997). Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 28/64 Zalety i wady średniej Zalety: Może być wykorzystywana w dalszych obliczeniach statystycznych. Jest najmniej podatna na bład ˛ jako przybliżenie średniej dla całej populacji. Wady: Wrażliwa na nienormalnie duże lub nienormalnie małe wartości skrajne. W przypadku rozkładów dwu- i wielomodalnych bywa mylaca. ˛ Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 29/64 Przykłady Dla danych z przykładu 2. średnia to 24, 0. W dowcipie rysunkowym robotnik mówi do dziennikarki: Średnio rocznie w naszej firmie zarabia sie˛ 100 000 zł. Prezes zarabia milion, a nasza dziesiatka ˛ po 10 000. 1 000 000 + 10 · 10 000 1 100 000 = = 100 000. 11 11 Przykład 4. Dane z pliku Przykład 4. — dla zmiennych płaca i premia średnia wynosi 700$. Jest to dobra miara tendencji centralnej dla płacy, ale nie dla premii, bo ta ma rozkład dwumodalny. Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 30/64 Mediana Wartość środkowa. Jeśli N jest nieparzyste, to mediana˛ jest x((N +1)/2) , a jeśli parzyste, to x(N/2) +x((N/2)+1) . 2 Suma odchyleń bezwzglednych ˛ od mediany jest mniejsza niż suma takich odchyleń od jakiejkolwiek innej liczby. Dla danych z przykładu 2. mediana to 24+25 2 = 24, 5. Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 31/64 Zalety i wady mediany Zalety: Łatwa do zrozumienia. Nie ulega deformacji ze wzgledu ˛ na nienormalnie duże lub nienormalnie małe wartości skrajne. Wady: Nie może być wykorzystywana w dalszych obliczeniach statystycznych. Dla małych zbiorów danych, o pewnej szczególnej postaci, nie jest dobra˛ charakterystyka˛ tendencji centralnej (np. mediana˛ dla 5, 5, 5, 9, 10 jest 5). Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 32/64 Moda Słowo „moda” wymyślił Karl Pearson w 1895 roku. Dwa podejścia: wartość najcz˛estsza, wartość, która nie jest mniej cz˛esta niż wartości sasiednie. ˛ Czasem przyjmuje sie˛ zastrzeżenie, że moda nie może być wartościa˛ skrajna. ˛ Jeśli moda jest jedna, rozkład nazywamy jednomodalnym (ang. unimodal), jeśli dwie — dwumodalnym (ang. bimodal), a jeśli wiele — multimodalnym (ang. multimodal). Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 33/64 Zalety i wady mody Zalety: Łatwa do zrozumienia. Cz˛esto wykorzystywana przez np. producentów. Jedyna miara tendencji centralnej dla danych nominalnych. Wady: Nie może być wykorzystywana w dalszych obliczeniach statystycznych. Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 34/64 Miary rozproszenia Rozstep ˛ (ang. range) R = xmax − xmin . Kwantyle(ang. quantiles): kwartyle (ang. quartiles), decyle (ang. deciles) — Sir Francis Galton (1882), percentyle (ang. percentiles) — Sir Francis Galton (1885). Odchylenie standardowe (ang. standard deviation) — Karl Pearson (1893). Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 35/64 Kwartyle Kwartyl dolny Q1 — mediana grupy danych „na lewo od mediany”, Kwartyl środkowy Q2 to mediana. Kwartyl górny Q3 — mediana grupy danych „na prawo od mediany”. Dla danych z przykładu 2. mamy: Q1 = 12, Q2 = 24, 5, Q3 = 35. Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 36/64 Kwantyle Kwantyle rz˛edu m to punkty podziału próbki na m „równych” cz˛eści. Kwantyli rz˛edu m jest m − 1. Kwantyle rz˛edu 4 to kwartyle. Kwantyle rz˛edu 10 to decyle, a rz˛edu 100 to percentyle. W SPSSie l-ty kwartyl rz˛edu m (dla l = 1, 2, . . . m − 1) jest liczony według wzoru l l Q l = k + 1 − (N + 1) x(k) + (N + 1) − k x(k+1) , m m m ! ! gdzie k = (N + 1) ml . Dla kwantyli może to dać troche˛ inny wynik niż przy poprzedniej definicji! h i Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 37/64 Kwartyle dla przykładu 2. Liczac ˛ wzorem na kwantyle otrzymamy, że k = [11/4] = 2, 1 3 3 Q1 = Q 14 = x(2) + x(3) = 11 , 4 4 4 3 1 1 Q3 = Q 14 = x(8) + x(9) = 35 . 4 4 4 Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 38/64 Wykresy skrzynkowe Wykres skrzynkowy, inaczej skrzynka z wasami ˛ (ang. boxplot lub box-and-whisker diagram) został wprowadzony przez Tukeya. Rysujemy go wzdłuż jednej osi ze skala. ˛ Składa sie˛ on z pudełka rozciagaj ˛ acego ˛ sie˛ od 1. do 3. kwartyla, z przedziałka˛ na wysokości mediany. Do pudełka doczepione sa˛ wasy ˛ siegaj ˛ ace ˛ z jednej strony do najmniejszej wartości zmiennej, a z drugiej do najwiekszej ˛ wartości zmiennej. Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 39/64 Wykres skrzynkowy dla przykładu 2. 10 15 20 25 30 35 Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 40/64 40 Udoskonalone wykresy skrzynkowe Dla udoskonalonych wykresów skrzynkowych (ang. refined boxplots) wasy ˛ maja˛ długość nieprzekraczajac ˛ a˛ 1, 5×rozstep ˛ miedzykwartylowy ˛ (tzn. różnica Q3 − Q1 ). Każda wartość, która znajduje sie˛ poza wasami ˛ jest oznaczana kółeczkiem lub gwiazdka˛ i nazywa sie˛ wartościa˛ odstajac ˛ a˛ lub outsiderem Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 41/64 Odchylenie standardowe ŝ = v u PN u t i=1 (xi − x̄)2 = v u PN 2 u x t i=1 i − x̄2 . N N W przypadku, gdy zgromadzone dane traktujemy jako dane całej populacji, odchylenie standardowe obliczamy, dzielac ˛ powyższe sumy przez N . Jeśli natomiast analizujemy próbk˛e i otrzymane odchylenie standardowe ma być przybliżeniem odchylenia standardowego w całej populacji, należy dzielić przez N − 1 (tak liczy PASW Statistics). Zapobiega to obciażeniu ˛ tego przybliżenia (estymatora). Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 42/64 Własności odchylenia standardowego Jeżeli do wszystkich wartości zmiennej dodamy pewna˛ wartość stała, ˛ to odchylenie standardowe nie zmienia sie. ˛ Jeżeli wszystkie wartości zmiennej pomnożymy przez pewna˛ liczbe, ˛ to odchylenie standardowe również zostanie pomnożone przez ta˛ liczbe. ˛ Odchylenie standardowe może nie być dobra˛ miara˛ rozproszenia, gdy zmienna przyjmuje kilka wartości bardzo oddalonych od reszty lub, gdy rozkład jest mocno skośny. Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 43/64 Odchylenie standardowe dla przykładu 2. xi xi − x̄ (xi − x̄)2 xi xi − x̄ (xi − x̄)2 11 −13 169 25 1 1 11 −13 169 29 5 25 12 −12 144 35 11 121 18 −6 36 36 12 144 24 0 0 39 15 225 Sumujemy liczby z 3. i 6. kolumny, otrzymujac ˛ 1034. Stad ˛ ŝ = v u u 1034 t 10 ≈ 10, 17, s= v u u 1034 t 9 ≈ 10, 79. Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 44/64 Skośność g= 1 PN i=1 (xi N ŝ3 − x̄)3 . Ang. skewness. Rozkład nazywamy prawoskośnym, gdy g > 0, a lewoskośnym, gdy g < 0. Przy rozkładzie prawoskośnym histogram ma dłuższy prawy ogon, a przy lewoskośnym lewy. Dla rozkładów prawoskośnych mediana jest mniejsza od średniej, dla lewoskośnych — na odwrót. Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 45/64 Skośność c.d. George A. Ferguson, Yoshio Takane: Analiza statystyczna w psychologii i pedagogice (1997). Rys. A: dodatnia, Rys. B: rozkład symetryczny, Rys. C: ujemna. Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 46/64 Wzór na skośność w PASW Statistics PN i=1 (xi N − x̄)3 g= . 3 (N − 1)(N − 2)s Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 47/64 Krzywa rozkładu normalnego Krzywa rozkładu normalnego (ang. normal (Gaussian) distribution curve) dana jest wzorem 2 1 (x − a) , f (x) = √ exp − 2σ 2 2πσ gdzie a to punkt, w którym funkcja osiaga ˛ maksimum, a σ to parametr odpowiadajacy ˛ za kształt. Wzór podał prawdopodobnie de Moivre w 1733 roku, określenie „normalny” — Galton w 1889, a „gaussowski” — K. Pearson w 1905. Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 48/64 Krzywa rozkładu normalnego c.d. George A. Ferguson, Yoshio Takane: Analiza statystyczna w psychologii i pedagogice, PWN, Warszawa (1997). Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 49/64 Rozkład normalny — zmiana parametru σ George A. Ferguson, Yoshio Takane: Analiza statystyczna w psychologii i pedagogice (1997). Rys. A: σ < 1, Rys. B: σ = 1, Rys. C: σ > 1. Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 50/64 Kurtoza Ang. kurtosis — Karl Pearson (przed 1905). K= 1 PN i=1 (xi N ŝ4 − x̄)4 . Dla rozkładu normalnego K = 3. K < 3 — rozkład platykurtyczny (ang. platykurtic), bardziej płaski niż normalny, K > 3 — rozkład leptokurtyczny (ang. leptokurtic), bardziej spiczasty niż normalny, K = 3 — rozkład mezokurtyczny (ang. mesokurtic). Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 51/64 Kurtoza c.d. D. L. Harnett, A. K. Soni: Statistical Methods for Business and Economics (1991). U góry rozkład platykurtyczny, u dołu — leptokurtyczny. Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 52/64 Kurtoza c.d. George A. Ferguson, Yoshio Takane: Analiza statystyczna w psychologii i pedagogice (1997). Rys. A: normalny, Rys. B: platykurtyczny, Rys. C: leptokurtyczny. Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 53/64 Kurtoza w PASW Statistics K= N (N + 2 2 − x̄)4 − 3(N − 1) N (x − x̄) i=1 i . 4 (N − 1)(N − 2)(N − 3)s PN 1) i=1 (xi P K < 0 — rozkład platykurtyczny, K > 0 — rozkład leptokurtyczny, K = 0 — rozkład mezokurtyczny. Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 54/64 Statystyki w PASW Statistics Najwiekszy ˛ wybór: A NALIZA -> O PIS STATYSTYCZNY -> C Z ESTO ˛ ŚCI ... Należy kliknać ˛ S TATYSTYKI i wybrać te, które nas interesuja. ˛ A NALIZA -> O PIS STATYSTYCZNY -> S TATYSTYKI OPISOWE ... Należy kliknać ˛ O PCJE i wybrać te statystyki, które nas interesuja. ˛ Nie ma kwantyli. A NALIZA -> O PIS STATYSTYCZNY -> E KSPLORACJA ... Nie ma wyboru. Wyliczaja˛ sie: ˛ średnia, mediana, odchylenie standardowe, minimum, maksimum, rozstep, ˛ skośność i kurtoza. Wykonuje sie˛ wykres skrzynkowy! Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 55/64 Średnia dla danych zgrupowanych W przypadku danych zgrupowanych zamiast konkretnych wartości danych bierzemy środki klas. Średnia˛ liczymy zgodnie ze wzorem: x̄ = Pk i=1 ni · x̃i , Pk i=1 ni k — liczba klas, x̃i — środek i-tej klasy, ni — liczebność i-tej klasy. Jest to tzw. średnia ważona. Oczywiście średnia liczona w ten sposób bedzie ˛ sie˛ różniła od średniej policzonej z surowych danych. Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 56/64 Mediana dla danych zgrupowanych X b N l−1 me = al + − ni , nl 2 i=1 al — lewy koniec klasy zawierajacej ˛ mediane, ˛ l — numer klasy zawierajacej ˛ mediane, ˛ N — liczebność próbki, ni — liczebność i-tej klasy, b — długość klasy. Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 57/64 Moda dla danych zgrupowanych Moda˛ w szeregu rozdzielczym nazywamy środek najliczniejszej klasy w przypadku, gdy liczebności klas sasiednich ˛ sa˛ identyczne, albo — w przypadku, gdy liczebności klas sasiednich ˛ sa˛ różne — liczbe˛ nl − nl−1 m0 = al + b, (nl − nl−1 ) + (nl − nl+1 ) ˛ mode, ˛ al — lewy koniec klasy zawierajacej l — numer klasy zawierajacej ˛ mode, ˛ ni — liczebność i-tej klasy, b — długość klasy. Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 58/64 Moda dla danych zgrupowanych c.d. 10 5 b 25 34 43 52 moda 70 Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 59/64 Moda dla danych zgrupowanych c.d. Uwaga: Moda zależy od sposobu podziału na klasy! Dlatego cz˛esto sie˛ jej nie wyznacza, a mówi sie˛ tylko o przedziale modalnym. Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 60/64 Odchylenie standardowe dla danych zgrupowanych Dla danych zgrupowanych: ŝ = v u Pk u t i=1 ni (x̃i N − x̄)2 = v u Pk 2 u n x̃ t i=1 i i N − x̄2 . Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 61/64 Statystyki dla danych zgrupowanych w SPSSie Grupujemy dane zgodnie z procedura˛ omówiona˛ wcześniej. Ważymy obserwacje (też jak wcześniej). Obliczamy statystyki wybierajac ˛ te same opcje, co dla danych niezgrupowanych. Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 62/64 Literatura George A. Ferguson, Yoshio Takane: Analiza statystyczna w psychologii i pedagogice, PWN, Warszawa (1997). D. L. Harnett, A. K. Soni: Statistical Methods for Business and Economics (1991). W. Krysicki, J. Bartos, W. Dyczka, K. Królikowska, M. Wasilewski: Rachunek prawdopodobieństwa i statystyka matematyczna w zadaniach, cz˛eść II, PWN, Warszawa (1995). Adam Łomnicki: Wprowadzenie do statystyki dla przyrodników, PWN, Warszawa (2003). Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 63/64 Literatura Graham Upton, Ian Cook: A Dictionary of Statistics, Oxford University Press, New York (2006). James A. Walker, Margaret M. McLean: Statystyka dla każdego, WSiP, Warszawa (1994). Podstawy statystyki i obsługa SPSSa na przykładach z ekonomii – p. 64/64