STATYSTYKA
Transkrypt
STATYSTYKA
STATYSTYKA Rafał Kucharski Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2 Statystyka I zbiór przetworzonych i zsyntetyzowanych danych liczbowych, I nauka o ilościowych metodach badania zjawisk masowych, I zmienna losowa będąca funkcją próby. Podstawowe pojęcia: I populacja (zbiorowość statystyczna), I jednostka statystyczna, I próba. Cechy: I ilościowe (mierzalne), I I I I skokowe (dyskretne), quasi ciągłe, ciągłe, jakościowe (niemierzalne). Skale I słabe, niemetryczne, jakościowe: I nominalna (kategoryjna, wariantowa): I I I porządkowa (rangowa), I I dwudzielna (dychotomiczna): np. kobieta/mężczyzna, tak/nie, 0/1, wielodzielna (politomiczna): np. kolor, marka, gatunek, np. oceny, preferencje, nie/raczej nie/nie mam zdania/raczej tak/tak silne, metryczne, ilościowe: I przedziałowa (interwałowa), I I np. temperatura w skali Celsjusza, ilorazowa (stosunkowa), I np. temperatura w skali Kelvina, I zamknięte/otwarte, I Zmienna ze skali mocniejszej może być rozpatrywana w skali słabszej, ale nie odwrotnie. Badanie statystyczne I pełne, częściowe, I ciągłe, okresowe, doraźne, I badania ankietowe, monograficzne, próbkowe (metoda reprezentacyjna). I szacunki: interpolacja, ekstrapolacja, Etapy badania statystycznego: I przygotowanie badania (cel, populacja, jednostka, metoda), I obserwacja statystyczna, I opracowanie i prezentacja materiału statystycznego, I opis lub wnioskowanie statystyczne. Szeregi statystyczne Szeregi statystyczne szczegółowe punktowe rozdzielcze przedziałowe czasowe momentów okresów przestrzenne Szereg szczegółowy (wyliczający, dane indywidualne) 3590, 1520, 1990, 1520, 2045, 2145, 1520, 2340, 1830, 1830, 1520, 2145, 2340, 2145, 1990, 1830, 2145, 1460, 1460, 1460, 1830, 1460, 2145, 1460, 1990, 1830, 1460, 1460, 2299, 1520, 1830, 1520, 1460, 1460, 1660, 1460, 1830, 2299, 1660, 1460, 1520, 1460, 1520, 1460, 1660, 1660, 2340, 4960, 1460, 1460, 1830, 1520, 1520, 2612 1990, 1520, 1990, 2340, 1520, 2612, 2145, 1460, 1460, 1460, Szereg rozdzielczy punktowy i 1 2 3 4 5 6 7 8 9 10 11 12 Razem xi 1460 1520 1660 1830 1990 2045 2145 2299 2340 2612 3590 4960 × ni 18 12 4 8 5 1 6 2 4 2 1 1 64 Szereg rozdzielczy przedziałowy xi 1000 – 2000 – 3000 – 4000 – 1999 2999 3999 4999 xi mniej niż 1500 1500 – 2000 2000 – 2500 2500 – 3000 3000 i więcej ni 47 15 1 1 ni 18 29 13 2 2 Empiryczny rozkład cechy I wartości cechy: xi , i = 1, . . . , k, I zakładamy dalej, że wartości są uporządkowane rosnąco: xmin = x1 < x2 < · · · < xk = xmax , I końce przedziałów klasowych: x0i < x1i , I rozpiętość przedziału: hi = x1i − x0i , x0i + x1i . środek przedziału: ẋi = 2 liczebności: ni – liczba obserwacji o wartościach równych xi , lub mieszczących się w i-tym przedziale klasowym, I I I I liczebność zbiorowości (próby, populacji): n = ni P częstości: fi = , ki=1 fi = 1, n Pk i=1 ni , Liczebność skumulowana, dystrybuanta empiryczna I Liczebność skumulowana: liczba obserwacji nie większa od danej wartości cechy: X n(x) = ni i:xi ¬x I Dystrybuanta empiryczna: frakcja (część) obserwacji nie większa od danej wartości cechy: Fn (x) = X i:xi ¬x fi = n(x) . n Liczba zadań xi 0 1 2 3 4 5 Suma Liczebność Częstość ni 7 14 6 9 4 0 40 fi 0.175 0.35 0.15 0.225 0.1 0 1 Skumulowana liczebność n(xi ) 7 21 27 36 40 40 × Dystrybuanta empiryczna Fn (xi ) 0.175 0.525 0.675 0.900 1 1 × Miary opisu struktury I poziom przeciętny (położenie, średni poziom wartości): średnia, mediana, dominanta (moda), I zróżnicowanie (rozproszenie, dyspersja, zmienność): wariancja, odchylenie standardowe, odchylenie przeciętne, odchylenie ćwiartkowe, rozstęp, I asymetria (skośność): skośność, współczynnik Yule’a-Kendalla, I koncentracja (spłaszczenie): kurtoza, współczynnik Giniego, entropia, Średnia arytmetyczna I dla danych indywidualnych: x̄ = I n x1 + · · · + xn 1X xi = , n i=1 n dla szeregów rozdzielczych punktowych: x̄ = I dla szeregów rozdzielczych przedziałowych: x̄ = I k k X 1X xi ni = xi fi , n i=1 i=1 k k X 1X x˙i ni = x˙i fi . n i=1 i=1 xmin ¬ x̄ ¬ xmax , ni=1 xi = nx̄, ni=1 (xi − x̄) = 0 P P (lub ki=1 (xi − x̄)ni = 0 lub ki=1 (x˙i − x̄)ni = 0), P P xi (20, 25] (25, 30] (30, 35] Σ x̄ = ni 11 23 16 50 x˙i 22.5 27.5 32.5 × 1400 = 28. 50 x˙i ni 247.5 632.5 520.0 1400 Mediana – wartość środkowa, kwantyle I Medianą z próby Me nazywamy taką wartość, że co najmniej połowa obserwacji ma wartość nie większą niż Me i równocześnie co najmniej połowa obserwacji ma wartość nie mniejszą niż Me. I Inaczej: jest to najmniejsza wartość, dla której Fn (Me) I 1 2 n(Me) n . 2 dla szeregów szczegółowych: Me = x n+1 gdy n jest nieparzyste, 2 x n + x n2 +1 2 I lub rownoważnie 2 gdy n jest parzyste. kwantylem empirycznym rzędu p, gdzie 0 < p < 1, nazywamy najmniejszą wartość qp cechy, dla której zachodzi: Fn (qp ) p. Kwantyle, kwartyle I dla szeregów przedziałowych kwantyle aproksymujemy wzorem qp ≈ x0p + [pn − n(x0p )] · I I I I I I I I n · hp hp = x0p + [p − Fn (x0p )] · np np p – rząd kwantyla, x0p – dolna granica przedziału kwantyla: Fn (x0p ) ¬ p < Fn (x1p ), np – liczebność przedziału kwantyla, hp – szerokość przedziału kwantyla, n(x0p ) – liczebność skumulowana w przedziale poprzedzającym przedział kwantyla, Fn (x0p ) – wartość dystrybuanty empirycznej na końcu przedziału poprzedzającego przedział kwantyla, kwartyle: Q1 = q0.25 , Q2 = Me = q0.5 , Q3 = q0.75 , w szczególności dla p = 21 otrzymujemy wzór dla mediany: n hM 1 n · hM + − n(x0M ) · = x0M + − Fn (x0M ) · 2 nM 2 nM Me ≈ x0M 1 xi (20, 25] (25, 30] (30, 35] ni 11 23 16 Fn (xi ) 0.22 0.68 1 0.75 0.5 0.25 20 25 30 50 · 5 ≈ 25.33, 23 50 · 5 Me = 25 + [0.5 − 0.22] · ≈ 28.04, 23 50 · 5 Q3 = 30 + [0.75 − 0.68] · ≈ 31.09. 16 Q1 = 25 + [0.25 − 0.22] · 35 Dominanta I Dominantą (modą, modalną) nazywamy wartość zmiennej, która występuje najczęściej, I można wyznaczać tylko w rozkładach jednomodalnych, I w szeregach szczegółowych i punktowych jest to wartość cechy odpowiadająca największej liczebności, I w szeregach przedziałowych aproksymujemy ją wzorem: D ≈ x0D + I I I I nD − nD−1 hD , (nD − nD−1 ) + (nD − nD+1 ) x0D – dolna granica przedziału dominanty (o największej liczebności), nD , nD−1 , nD+1 – odpowiednio liczebność przedziału dominanty, przedziału poprzedniego i następnego, hD – rozpiętość przedziału dominanty. „Wzór Pearsona”: Me ≈ 13 D + 23 x̄. 25 xi (20, 25] (25, 30] (30, 35] ni 11 23 16 20 15 10 5 20 D = 25 + 25 D 30 35 23 − 11 · 5 ≈ 28.16. (23 − 11) + (23 − 16) Uwaga: w przypadku przedziałów o różnej szerokości liczebności ni zastępujemy gęstościami: gi = ni /hi . Wariancja I dla danych indywidualnych: n n 1X 1X 2 (xi − x̄) = x 2 − (x̄)2 , S = n i=1 n i=1 i 2 I dla szeregów rozdzielczych punktowych: S2 = I k k 1X 1X (xi − x̄)2 ni = x 2 ni − (x̄)2 , n i=1 n i=1 i dla szeregów rozdzielczych przedziałowych: S2 = k k 1X 1X (x˙i − x̄)2 ni = x˙i 2 ni − (x̄)2 , n i=1 n i=1 poprawka Shepparda: S̄ 2 = S 2 − h2 , 12 I odchylenie standardowe: S = I współczynnik zmienności: √ S 2, V = I odchylenie przeciętne: n 1X |xi − x̄| d= n i=1 I S , x̄ k 1X d= |xi − x̄| · ni n i=1 ! odchylenie ćwiartkowe: Q= Q3 − Q1 , 2 Q , Me I pozycyjny współczynnik zmienności: V = I rozstęp: R = xmax − xmin , I rozstęp ćwiartkowy (międzykwartylowy): IQR = Q3 − Q1 , , x̄ = xi (20, 25] (25, 30] (30, 35] Σ ni 11 23 16 50 x˙i 22.5 27.5 32.5 × 1400 = 28, 50 x˙i ni 247.5 632.5 520.0 1400 (x˙i − x̄)2 30.25 0.25 20.25 × 662.5 = 13.25, √50 S = 13.25 ≈ 3.64, 31.09 − 25.33 Q≈ = 2.88, 2 S2 = (x˙i − x̄)2 ni 332.75 5.75 324.00 662.50 Równość wariancyjna I mamy informacje o k grupach: ich liczebności ni , średnie x̄i oraz wariancje (wewnątrzgrupowe) Si2 , I średnia ogólna, to średnia ważona liczebnościami: Pk I liczbę 2 · ni . i=1 ni i=1 x̄i x̄ = Pk Pk i=1 (x̄ S (x̄i ) = − x̄i )2 · ni i=1 ni Pk nazywamy wariancją międzygrupową, I wariancja ogólna wyraża się wzorem: 2 S = Si2 2 + S (x̄i ) = Pk 2 i=1 Si · ni Pk i=1 ni Pk + i=1 (x̄ − x̄i )2 · ni . i=1 ni Pk I Moment zwykły rzędu r : n 1X xr , mr = n i=1 i I k 1X mk = x r · ni n i=1 i ! Moment centralny rzędu r : n 1X Mr = (xi − x̄)r , n i=1 k 1X Mk = (xi − x̄)r · ni n i=1 ! Asymetria I klasyczny współczynnik asymetrii: γ3 = I współczynnik Yule’a-Kendalla: AQ = I M3 , S3 (Q3 − Q2 ) − (Q2 − Q1 ) , (Q3 − Q2 ) + (Q2 − Q1 ) współczynnik skośności Pearsona: AS = x̄ − D , S Asymetria wartości dodatnie asymetria prawostronna wartości ujemne asymetria lewostronna Kurtoza γ4 = wartości dodatnie rozkład wysmukły (leptokurtyczny) M4 − 3, S4 wartości ujemne rozkład spłaszczony (platokurtyczny) Krzywa koncentracji Lorenza, współczynnik Giniego I linia łamana powstała z połączenia punktów o współrzędnych: j zi j P , ni=1 n z i=1 i P (x0 , y0 ) = (0, 0), I (xj , yj ) = (xj , yj ) = I , j = 1, . . . , n. dla szeregu rozdzielczego: (x0 , y0 ) = (0, 0), Pj Pj I ! i=1 ni n , i=1 zi Pk i=1 zi · ni · ni ! , j = 1, . . . , k. podwojone pole obszaru między krzywą Lorenza a przekątną kwadratu jednostkowego nazywamy współczynnikiem koncentracji Giniego: Pn j=1 (2j − n − 1)zj G= . n2 · z̄ współczynnik Giniego przyjmuje wartości z przedziału [0, 1], gdzie 0 oznacza rozkład równomierny, a wartość 1 – rozkład skupiony w pojedynczej wartości, j 1 2 3 4 5 zj 1 2 3 4 90 Pj i=1 zi 1 3 6 10 100 xj 0.2 0.4 0.6 0.8 1 yj 0.01 0.03 0.06 0.10 1 2j − n − 1 -4 -2 0 2 4 (2j − n − 1)zj -4 -6 0 20 400 0.2 0.4 0.6 0.8 G= −4 − 6 + 20 + 400 410 = = 0.82. 52 · 20 500 Źródło: en.wikipedia.org, dane: World Bank Entropia I dla zmiennej losowej dyskretnej: H=− X px ln(px ), x I dla danych empirycznych w postaci szeregu rozdzielczego punktowego: k X ni ni ln , H=− n n i=1 I Uwaga: przyjmujemy 0 · ln(0) = 0, I duża wartość entropii oznacza duże rozproszenie – rozkład zbliżony do równomiernego – „mało informacji”, I Entropia nie bierze pod uwagę wartości – tylko liczebności/prawdopodobieństwa. Średnia harmoniczna I Chcemy policzyć średnią wielkości stosunkowych (prędkość, gęstość, wydajność, zużycie na osobę, itp.) ai = I bi , ci i = 1, . . . , k. Jeśli znamy wartości ai oraz ci , to bi = ai · ci , zatem odpowiednia jest średnia arytmetyczna, ważona współczynnikami ci : Pk Pk ā = I i=1 bi Pk i=1 ci = Jeśli znamy wartości ai oraz bi , to ci = jest średnia harmoniczna z wagami bi : Pk ā = i=1 bi Pk i=1 ci · ci . i=1 ci i=1 ai Pk bi , zaś właściwą średnią ai Pk = i=1 bi Pk i=1 bi ai . Średnia harmoniczna I Jaka jest średnia gęstość zaludnienia w Trójmieście? Miasto Ludność Gęstość zaludnienia I Gdańsk 461 489 1762 Gdynia 247 820 1834 Sopot 37 654 2179 Licząc (zwykłą) średnią arytmetyczną otrzymujemy: x̄ = 1762 + 1834 + 2179 = 1925, 3 podczas gdy prawidłowy wynik, to x̄H = 461 489 + 247 820 + 37 654 ≈ 1802.87. 461 489 247 820 37 654 1762 + 1834 + 2179 Średnia harmoniczna I I Przez n kolejnych dni kupujemy akcje pewnej spółki, po cenie xi w i-tym dniu, i = 1, . . . , n, za stałą kwotę c. Średnia cena zakupu jest średnią harmoniczną: n n c x̄H = Pni=1 c = Pn P 1 i=1 xi i=1 xi I I . Przez n kolejnych dni sprzedajemy akcje pewnej spółki, w liczbie k sztuk każdego dnia, po cenie xi w i-tym dniu, i = 1, . . . , n. Średnia cena sprzedaży, to średnia arytmetyczna: Pn Pn xi i=1 xi · k = i=1 . x̄ = Pn i=1 k I n Dla dowolnych 0 < x1 , . . . , xn zachodzi warunek: n x̄H = Pn 1 i=1 xi Pn ¬ i=1 xi n = x̄.