Podstawowe wzory ze statystyki opisowej
Transkrypt
Podstawowe wzory ze statystyki opisowej
STATYSTYKA OPISOWA PODSTAWOWE WZORY MIARY POŁOŻENIA gdzie mi – numer grupy zawierającej daną o nu- Średnia merze Dla danych indywidualnych: go przedziału klasowego do przedziału poprzedzającego przedział kwartyla; nmi – liczebność przedziału w którym znajduje się kwartyl. n 1X x= xi n i=1 ni 4; mP i −1 nj – suma liczebności od pierwsze- j=1 Dla i = 1 otrzymujemy kwartyl Q1 , dla i = 2 kwartyl Q2 , czyli medianę, dla i = 3 kwartyl Q3 . Dla szeregu rozdzielczego MIARY ROZPROSZENIA (ZMIENNOŚCI) k 1X x= ni ẋi , n i=1 Wariancja. gdzie ẋi – środek i-tego przedziału, ni – liczność itego przedziału. Dla danych indywidualnych: Dominanta (moda) n 1 X s2 = (xi − x)2 . n i=1 ! Liczba najczęściej występująca (jeśli taka istnieje) – dla danych idywidualnych. Dla szeregu rozdzielczego Dla szeregu rozdzielczego nd − nd−1 D = xld + hd , 2nd − nd−1 − nd+1 k 1 X s = ni (ẋi − x)2 , n i=1 ! 2 gdzie d numer najliczniejszego przedziału, xld – lewy koniec d-tego przedziału, hd – długość d-tego przedziału. gdzie ẋi – środek i-tego przedziału. 1 √ Mediana i kwartyle Odchylenie standardowe: s = s2 . Dla danych indywidualnych x(n+1)/2 dla n nieparzy- Odchylenie przeciętne od średniej: x +x stego, n/2 2 n/2+1 dla n parzystego. Dla danych indywidualnych: n Pierwszy kwartyl Q1 : jeśli 4 jest liczbą całkowitą to ! n x +x 1 X Q1 = xn/4 , jeśli k < n4 < k + 1, to Q1 = k 2 k+1 . d= |xi − x| . n i=1 Trzeci kwartyl Q3 : jeśli 3n 4 jest liczbą całkowitą to x +x 3n Q1 = x3n/4 , jeśli k < 4 < k + 1, to Q1 = k 2 k+1 . Dla szeregu rozdzielczego Są też w użyciu inne wzory na kwartyle dla szeregu ! indywidualnego. k 1 X d= ni |ẋi − x| , n i=1 Kwartyle dla szeregów indywidualnych stosuje się rzadko! gdzie ẋi - środek i-tego przedziału. Dla szeregu rozdzielczego Typowy klasyczny obszar zmienności mX i −1 ni h m i Qi = xlmi + − nj , 4 nmi x − s ¬ x ¬ x + s. j=1 1 W statystyce matematycznej wariancję definiuje się dzieląc przez n − 1 zamiast przez n. W szczególności w arkuszu kalkulacyjnym funkcja WARIANCJA okrela wariancję ze statystyki matematycznej. Wariancję omawianą tutaj określa funkcja WARIANCJA.POPUL 1 DYNAMIKA ZJAWISK Rozstęp R = xmax − xmin . Indeksy jednopodstawowe o podstawie y0 Odchylenie ćwiartkowe Q= JiP = Q3 − Q1 . 2 yi . y0 Indeksy łańcuchowe Typowy pozycyjny obszar zmienności Współczynnik zmienności klasyczny k P Iw = Współczynnik zmienności pozycyjny . i=1 k P qi1 pi1 . qi0 pi0 i=1 Q . M Vx = yi−1 Agregatowy indeks wartości s . x Vx = yi JiL = M − Q ¬ x ¬ M + Q. Agregatowy indeks ilości Laspeyresa Moment centralny rzędu l k P Dla danych indywidualnych Ml = n 1X n IqL (xi − x)l qi1 pi0 . qi0 pi0 i=1 i=1 Agregatowy indeks cen Laspeyresa Dla szeregu rozdzielczego Ml = = i=1 k P k X ni i=1 n k P l (ẋi − x) IpL = i=1 k P qi0 pi1 . qi0 pi0 i=1 Klasyczny współczynnik asymetrii Ax = M3 . s3 Agregatowy indeks ilości Paaschego k P Współczynnik skośności (asymetrii) IqP = x−D As = . s i=1 k P qi1 pi1 . qi0 pi1 i=1 As > 0 – asymetria prawostronna As < 0 – asymetria lewostronna As = 0 – symetria Agregatowy indeks cen Paaschego k P IpP Pozycyjny współczynnik asymetrii = Q3 + Q1 − 2M Ap = . 2Q i=1 k P qi1 pi1 . qi1 pi0 i=1 Agregatowy indeks ilości Fishera Kurtoza K= M4 s4 IqF = 2 q IqL · IqP . współczynnik zgodności Agregatowy indeks cen Fishera IpF = n P q IpL · IpP . 2 φ = t=1 n P (yt − ybt )2 . (yt − y)2 pi0 – cena i-tego produktu w okresie podstawowym t=1 pi1 – cena i-tego produktu w okresie badanym qi0 – produkcja i-tego produktu w okresie podstawowspółczynnik determinacji wym qi1 – produkcja i-tego produktu w okresie badanym R2 = 1 − φ2 . ANALIZA SZEREGÓW CZASOWYCH Model uważa się za dopuszczalny, jeśli φ2 < 0,2. Metoda mechaniczna Dany jest ciąg (yt ), t = 1, 2, . . . , n (t czas dyskretny) błędy średnie szacunku su D(a) = s Średnie ruchome – nieparzysta liczba p podokresów n P , (t − t)2 t=1 ybk = k= p+1 2 ,...,n 1 yk− p−1 + . . . + yk+ p−1 , 2 2 p − s p−1 2 . D(b) = s n - parzysta liczba podokresów ybk = k= p 2 1 p n P su t2 t=1 n P , (t − t)2 t=1 1 1 y p + yk− p +1 + . . . + yk+ p −1 + yk+ p , 2 2 2 Oceny parametrów uznajemy za precyzyjne, jeśli 2 k− 2 2 + 1, . . . , n − p2 . |a| |b| > 2, > 2. D(a) D(b) Metoda analityczna – liniowa funkcja trendu wyznaczona metodą najmniejszych kwaWAHANIA SEZONOWE dratów Dany jest ciąg yt , t = 1, 2, . . . , n = d · m, gdzie m - liczba okresów d - liczba sezonów w każdym okresie. ybt = at + b, gdzie n P a= Krok 1. Wyliczamy ybt metodą średnich ruchomych albo analityczną (przy średnich ruchomych „brakuje” kilku skrajnych danych). Niech Nj (j = 1, 2, . . . , d) oznacza zbiór zawierający wskaźniki dotyczące j-tego sezonu oraz pj liczność zbioru Nj . Zwykle Nj = {m(j − 1) + 1, m(j − 1) + 2, . . . , mj} - wtedy pj = d; przy średnich ruchomych zbiory N1 oraz Nm są pomniejszone o skrajne liczby i p1 oraz pm są mniejsze. (t − t)yt t=1 n P , (t − t)2 t=1 b = y − at, t= n X n 1 n+1 1X t= , y= yt . n t=1 2 n t=1 Odchylenie standardowe składnika losowego su = v uP u n (y − ybt )2 u t t=1 t n−2 Krok 2. Wyliczamy surowe wskaźniki sezonowości: yt St = . ybt . Krok 3. Liczymy średnie czyli oczyszczone wskaźniki sezonowości: współczynnik zmienności losowej s su vu = · 100%. y Sj = 1 X Si , j = 1, 2, . . . , d, pj i∈N j 3 Krok 4. (opcjonalny) Korektujemy oczyszczone wskaniki: s Sj o , Sj = k gdzie k = 1 m d P yi = k 1 X xj nij ni. j=l s j=1 Sj . s2j (x) WSPÓŁZALEŻNOŚĆ ZJAWISK k 1 X = (xi − xj )2 nij n.j i=1 Tablica korelacyjna yj xi x1 x2 .. . xk n.j s2i (y) = y 1 y2 n11 n12 n21 n22 .. .. . . nk1 nk2 n.1 n.2 . . . yl . . . n1l . . . n2l . .. . .. . . . nkl . . . n.l ni. n1. n2. .. . Dla cechy ciągłej zastępujemy wartości xi (yi ) środkami przedziałów klasowych. Cechy niemierzalne nk. n xi i yj są wtedy pewnymi charakterystykami (własnościami). xi – wartości pierwszej cechy yj – wartości drugiej cechy nij – liczność zbioru z warością cechy pierwszej xi i drugiej yj ni. = n.j = l P p=1 k P l 1 X (yj − xi )2 nij ni. j=1 2 χ = ni. n.j 2 n ni. n.j n l X k X nij − i=1 j=1 nip Współczynnik kontyngencji Cxy npj p=1 n= s l P k P nij . Cxy = i=1 j=1 χ2 +n χ2 Cechy mierzalne Współczynnik Czuprowa Txy k l 1X 1X x= xi ni. , y = xj n.j n i=1 n j=1 s Txy = k l 1X 1X 2 2 s (x) = (xi − x) ni. , s (y) = (yj − y)2 n.j n i=1 n j=1 2 χ2 n (k − 1)(l − 1) p Modele korelacji i regresji liniowej dwóch zmiennych: Współczynnik korelacji rang Spearmana Kowariancja C(xy) = C(yx) = l X k 1X xi yj nij − xy n i=1 j=1 Numerujemy dane xi oraz yi wg kolejności rosnącej np. odpowiednio liczbami ai oraz bi . Wtedy Współczynnik korelacji rxy = ryx xj = 6 C(xy) = S(x)S(y) R(xy) = R(yx) = 1 − k 1 X xi nij n.j i=1 n P i=1 n(n2 − 1) yb(x) = ax + b 4 (ai − bi )2 Współczynnik determinacji n n 1X 1X yi xi , y = x= n i=1 n i=1 C(xy) = s2 (x) = R2 = 1 − φ2 n 1X (xi − x)(yi − y) n i=1 Błędy średnie szacunku parametrów funkcji regresji su D(a) = s n n 1X 1X (xi − x)2 , s2 (y) = (yi − y)2 n i=1 n i=1 rxy = ryx = n P C(xy) s(x)s(y) s su C(xy) a= 2 s (x) n P i=1 D(b) = s n n P x2i (xi − x)2 i=1 Uznaje się, że parametry są oszacowane precyzyjnie jeśli a b > 2 oraz >2 D(a) D(b) b = y − ax Definiujemy: ybi = y(xi ) Odchylenie standardowe składnika losowego su = (xi − x)2 i=1 Prognoza i błąd prognozy v uP u n u (yi − ybi )2 t i=1 y(x) = ax + b ± S(y) n−2 przy czym Współczynnik zgodności n P φ2 = i=1 n P (yi − ybi v u u u 1 (x − x)2 u S(y) = su · u 1+ + P n t n )2 (xi − x)2 (yi − y)2 i=1 i=1 5