x - E-SGH
Transkrypt
x - E-SGH
mgr Anna Matysiak PODSTAWOWE POJĘCIA STATYSTYCZNE POPULACJA (ZBIOROWOŚĆ GENERALNA) – zbiór logicznie powiązanych jednostek, obiektów, wyników wszystkich pomiarów, np. mieszkańcy Polski, studenci SGH, gospodarstwa domowe w Polsce. Populacja może być skończona lub nieskończona (pojęcie teoretyczne, np. rzuty monetą). Elementy populacji mogą mieć różne właściwości, podlegające obserwacji statystycznej. Są to CECHY STATYSTYCZNE, np. w populacji mieszkańców Polski są to: płeć, wzrost, dochody. Cechy statystyczne mogą być: − niemierzalne (jakościowe), − mierzalne (ilościowe). o skokowe (przyjmuje wartości z przeliczalnego zbioru), o ciągłe Elementy populacji różnią się między sobą wartościami rozpatrywanej cechy, zatem cecha ta ma określony rozkład. Celem badania statystycznego jest na ogół poznanie rozkładu cechy oraz uzyskanie informacji o wartości syntetycznych charakterystyk tego rozkładu. Wyróżnia się 2 rodzaje badań statystycznych: − pełne (obejmuje wszystkie elementy populacji) − niepełne (obejmuje część elementów populacji – próbę). PRÓBA – podzbiór elementów populacji podlegający badaniu. Najczęściej próbę pozyskuje się w sposób losowy (próba losowa). Przez losowy dobór próby rozumie się taki sposób doboru, przy którym: − każda jednostka populacji ma dodatnie znane prawdopodobieństwo znalezienia się w próbie, − istnieje możliwość ustalenia prawdopodobieństwa znalezienia się w próbie dla każdego elementu populacji. POMIARU CECH STATYSTYCZNYCH dokonuje się za pomocą następujących skal: − nominalne – liczby używane w celu identyfikacji cechy, uporządkowanie liczb nie ma znaczenia (np. płeć) − porządkowe - liczby używane w celu identyfikacji i uporządkowania cechy (np. poziom wykształcenia) − interwałowe – oprócz uporządkowania mierzą względne róznice pomiędzy wartościami cechy, zero w tej skali jest ustalone dowolnie a stosowna jednostka mierzy odległość od tego zera (np. wyniki testów psychologicznych, skala Celsjusza) − stosunkowe (ilorazowe) – zawiera zero bezwzględne, pomiary charakteryzują się stałymi ilorazami (np. wiek, waga, dochody). METODY STATYSTYCZNE: − Opis statystyczny o Analiza struktury o Analiza korelacji i regresji o Analiza dynamiki − Wnioskowanie statystyczne o Parametryczne o Nieparametryczne Prezentacja wyników: − opis graficzny − opis tabelaryczny RODZAJE DANYCH: Indywidualne – informują, jaką wartość cechy ma każda jednostka Pogrupowane – jednostki o określonej wartości (określonych wartościach) cechy pogrupowane są w szereg rozdzielczy. ROZKŁAD CECHY – przyporządkowanie uszeregowanym wartościom, przyjmowanym przez tę cechę, odpowiednio zdefiniowanych częstości ich występowania. Konstrukcja rozkładu empirycznego cechy: A. cecha skokowa: Wartości Liczebności cechy ni xi x1 n1 x2 n2 x3 n3 . . . . . . xr nr Ogółem n B. cecha ciągła: Przedziały Liczebności klasowe ni x0i-x1i x01-x11 n1 x02-x12 n2 x03-x13 n3 . . . . . . x0r-x1r nr Ogółem n Częstości wi w1 w2 w3 . . . wr 1 Częstości wi w1 w2 w3 . . . wr 1 Skumulowana liczebność n(xi) n1 n1+n2 n1+n2+n3 . . . n1+n2+...+nr X Skumulowana liczebność n(xi) n1 n1+n2 n1+n2+n3 . . . n1+n2+...+nr X Dystrybuanta empiryczna Fn(xi) w1 w1+w2 w1+w2+w3 . . . w1+w2+...+wr X Dystrybuanta empiryczna Fn(xi) w1 w1+w2 w1+w2+w3 . . . w1+w2+...+wr X Aby skonstruować empiryczny rozkład cechy ciągłej należy w pierw: − określić liczbę przedziałów klasowych cechy: r≤5 log n − ustalić rozpiętości przedziału klasowego: i =1,..., r hi = x1i − x 0i ; gdzie: hi - rozpiętość i-tego przedziału klasowego, x0i, x1i - odpowiednia dolna i górna granica przedziału klasowego. HISTOGRAM Zbiór prostokątów, których podstawy wyznaczone są na osi odciętych przez poszczególne przedziały klasowe, natomiast wysokości są określone na osi rzędnych przez liczebności (częstości) odpowiadające poszczególnym przedziałom klasowym. Stosunek pola powierzchni każdego prostokąta do sumy powierzchni wszystkich prostokątów wynosi ni/n. ni ∆xi ∑ ni ∆xi 0,4 0,3 0,2 0,1 x2 x1 LICZEBNOŚĆ: ni , ∑n i ni , n CZĘSTOŚĆ: wi = x3 x4 x5 x6 x = n , gdzie n – liczebność zbiorowości ∑ w =1. i SKUMULOWANE LICZEBNOŚCI n(xl) rozkładu dla wartości xl nazywamy liczebność jednostek zbiorowości, które mają wartość cechy co najwyżej równą xl: l n( xl ) = n( x ≤ xl ) = n1 + n2 + ...nl = ∑ ni i =1 DYSTRYBUANTA EMPIRYCZNA Fn (x) nazywamy funkcję określoną na podstawie danych (xi, wi), i=1,2,…,k, następująco: dla x < x1 0 i Fn ( x) = ∑w dla xi ≤ x < xi +1 , 1 dla xk ≥ k l =1 l i = 1, 2,..., k − 1 . Dystrybunata jest funkcją: − niemalejącą, − przedziałami stałą, − ograniczoną w przedziale [0,1]. A. dystrybuanta dla cechy skokowej: F(x) 1 F(x3) F(x2) F(x1) 0 x2 x1 x3 x B. dystrybuanta dla cechy ciągłej f(x) 1 F(x4) F(x3) F(x2) F(x1) 0 x1 x2 x3 x4 x5 x WŁASNOŚCI ROZKŁADU EMPIRYCZNEGO: Położenie Zróżnicowanie (dyspercja, znienność) MIARY POŁOŻENIA: − Klasyczne - stanowią wypadkową wszystkich wartości cechy wszystkich badanych jednostek zbiorowości: średnia − Pozycyjne - wyznaczane są typową pozycją niektórych jednostek lub grup jednostek: dominanta, kwantyle rzędu p Ponadto średnia, mediana i dominanta są miarami tendencji centralnej. ŚREDNIA x miara szeroko rozpowszechniona, jej wartość jest wrażliwa na wartości ekstremalne w rozkładzie, gdy mamy do czynienia z dużymi wartościami skrajnymi miara nieprawidłowa − dla danych indywidualnych (średnia arytmetyczna nieważona): x= 1 n ∑x j n j =1 − dla danych pogrupowanych (średnia arytmetyczna ważona): o cecha skokowa: r 1 r x = ∑ x i ⋅ wi = ∑ x i ⋅ ni n i =1 i =1 o cecha ciągła: r o x = ∑ x i ⋅ wi = i =1 1 r o ∑ x i ⋅ ni , n i =1 gdzie: o xi = xi1 + xi 0 2 (i = 1,..., r ), przy czym: o x - środek i-tego przedziału klasowego. DOMINANTA D(x) wartość występująca w rozkładzie najczęściej, tzn. wartość, której odpowiada najwyższa liczebność (częstość). W przypadku cechy ciągłej dominantę wyznacza się ze wzoru: D( x ) = x0 d + nd − nd −1 wd − wd −1 ⋅ hd = x0 d + ⋅ hd 2wd − (wd −1 + wd +1 ) (nd − nd −1 ) + (nd − nd +1 ) gdzie: x0d - dolna granica przedziału, w którym występuje dominanta, hd - rozpiętość tego przedziału, nd, wd, nd-1, wd-1, nd+1, wd+1 - odpowiednio liczebność i częstość przedziału w którym występuje dominanta, przedziału poprzedniego i następnego. MEDIANA M(x) taka wartość cechy M(x), że co najmniej połowa jednostek zbiorowości ma wartość cechy nie większą niż M(x) i równocześnie co najmniej połowa jednostek ma wartość cechy nie mniejszą niż M(x). Innymi słowy jest to wartość środkowa w uporządkowanym szeregu, występowanie wartości skrajanych w rozkładzie nie wpływa na wartość mediany. − dla rozkładu skokowego: M (x ) = x( n +1) / 2 , x +x n n+2 2 2 , 2 gdy n nieparzyste gdy n parzyste lub inaczej, medianą jest wartość cechy, dla której - jako pierwszej - dystrybuanta empiryczna przyjmuje wartość co najmniej 1/2, tzn.: − dla rozkładu ciągłego: M ( x ) = x0 m + hm n − n ( x ) 0 m −1 nm 2 lub M ( x ) = x0 m + hm 1 , ( ) F x − n 0 m −1 wm n gdzie: x0m - dolna granica przedziału, w którym znajduje się wartość mediany, n(x0m-1), Fn(x0m-1) - odpowiednio liczebność i częstość skumulowana w przedziale poprzedzającym klasę mediany, hm,nm,wm - odpowiednio rozpiętość, liczebność oraz częstość przedziału, w którym znajduje się mediana. KWANTYL RZĘDU P taka wartość zmiennej kp, dla której - jako pierwszej - dystrybuanta empiryczna spełnia relację: Fn (k p ) ≥ p, 0 < p < 1 Kwartyle (kwantyle rzędu p= k , k=1,2,3): • • • 4 Q1 - kwartyl pierwszy (kwantyl rzędu 1/4), Q2 - kwartyl drugi (kwantyl rzędu 2/4, czyli mediana), Q3 - kwartyl trzeci (kwantyl rzędu 3/4). − dla rozkładu skokowego: Qk = x( n +1)⋅k / 4 a gdy (n + 1) ⋅ k / 4 nie jest liczbą całkowitą to należy ją zaokrąglić , przy czym 0,5 dla pierwszego kwartyna zaokrąglamy w górę dla trzeciego kwartyna w dół − Dla rozkładu ciągłego: Qk = x0Q + hQ h p ⋅ n − n ( x0Q −1 ) = x0Q + Q p − F ( x0Q −1 ) nQ nQ MIARY ZRÓŻNICOWANIA − Klasyczne: wariancja, odchylenie standardowe, − Pozycyjne: rozstęp WARIANCJA S2 i ODCHYLENIE STANDARDOWE S Średnia arytmetyczna kwadratów odchyleń wartości cechy od średniej cechy, z tym zastrzeżeniem że w mianowniku jest n-1. Wariancji nie interpretuje się. Interpretuje się natomiast odchylenie standardowe, obliczane jako pierwiastek wariancji. Odchylenie standardowe pokazuje o ile wartości w próbie odchylają się przeciętnie od średniej. Im większe zróżnicowanie tym większe odchylenia wartości cechy od średniej i tym większa wariancja. − dla danych indywidualnych (formuła nieważona): 2 n 2 x − ∑ xi / n ∑ 1 n i =1 i =1 2 2 S = ( xi − x ) = = ∑ n − 1 i =1 n −1 n 2 i n ∑x i =1 2 i − n ⋅ ( x )2 n −1 − dla danych pogrupowanych (formuła ważona): o cecha skokowa 2 n 2 − x n ∑ ∑ xi ni / n 1 n i =1 i =1 2 2 S = ( xi − x ) ⋅ ni = = ∑ n − 1 i =1 n −1 n 2 i i n ∑ x n − n ⋅ (x ) i =1 2 i i 2 n −1 o cecha ciągła 2 n o2 x n − i ∑ x i ni / n ∑ i 1 n o i =1 i =1 2 2 S = = ( xi − x ) ⋅ ni = ∑ n − 1 i =1 n −1 n o 2 n o 2 ∑x i =1 i ni − n ⋅ ( x ) 2 n −1 WSPÓŁCZYNNIK ZMIENNOŚCI to iloraz odchylenia standardowego i średniej: V= S . x Określa, jaki procent średniej stanowi odchylenie standardowe. Im wyższa wartość V tym większe zróżnicowanie w rozkładzie. Współczynnik ten oblicza się także do porównania poziomu zróżnicowania cech w dwóch bądź więcej rozkładach. ROZSTĘP to różnica między największą a najmniejszą wartością cechy w zbiorze. Miara ta uwzględnia tylko wartości skrajne, jest zatem bardzo prosta: Q = xmax − xmin