x - E-SGH
Transkrypt
x - E-SGH
WYKŁAD 1 Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy Zbiorowość statystyczna - zbiór elementów lub wyników jakiegoś procesu powiązanych ze sobą logicznie (tzn. posiadających wspólne cechy stałe) i jednocześnie nieidentycznych (tzn. różniących się ze względu na cechy zmienne). Cechy statystyczne - właściwości jednostek zbiorowości statystycznej TYPY CECH STATYSTYCZNYCH cechy mierzalne czyli: ilościowe, które można określić za pomocą liczb ciągłe czyli: wartości rzeczywiste z pewnego przedziału skokowe (dyskretne) czyli przyjmujące skończoną lub co najwyżej przeliczalną liczbę wartości cechy niemierzalne czyli: jakościowe, które można opisać jedynie słownie lub za pomocą odpowiednich skal numerycznych Rodzaje badań statystycznych Badanie pełne obejmujące wszystkie elementy zbiorowości generalnej. Zbiorowość generalna (populacja generalna) kompletny zbiór elementów lub wyników procesu. Badanie częściowe obejmujące pewną część elementów zbiorowości generalnej PRÓBA Metody statystyczne metody opisu syntetyczny liczbowy opis właściwości zbioru danych statystyka opisowa metody wnioskowania statystycznego ocena charakterystyk populacji generalnej na podstawie danych częściowych = metody rachunku prawdopodobieństwa statystyka matematyczna Cecha = liczba rodzeństwa Rozkład empiryczny cechy = dane pogrupowane i uporządkowane xi - cecha przyjmuje k wartości, dla i= 1,2, ... ,k,. gdzie ..,k (1k<n), Szereg rozdzielczy x i 0 1 2 3 4 razem n w 38 46 24 8 4 120 0,32 0,38 0,20 0,07 0,03 1,00 i i ni - liczba jednostek zbiorowości, dla których cecha przyjmuje wartość xi, r przy czym zachodzi: ni n , i 1 wi - udział jednostek o wartości xi cechy w ogólnej liczebności zbiorowości, czyli częstość względna (częstość jej występowania w ogólnej zbiorowości) określana jako: r wi ni i 1,2 ,..., k wi 1 ,oraz i 1 n; Graficzna prezentacja Wykres punktowy Wykres słupkowy Szereg rozdzielczy Wartości cechy Liczebności Częstości xi ni wi x1 x2 x3 . . xk Ogółem n1 n2 n3 . . nk n w1 w2 w3 . . wk 1 Dystrybuanta empiryczna Fn(xi) = ws w1 w1+w2 w1+w2+ w3 . w1+ ... +wk =1 ------- Dystrybuanta empiryczna cechy X jest to funkcja Fn (x) określona na zbiorze liczb rzeczywistych od -∞ do + ∞ Wartość cechy dystrybuanta x i 0 1 2 3 4 razem dystrybuanta 0,32 0,70 0,90 0,97 1,00 - x<0 0≤x<1 1≤x<2 2≤x<3 3≤X<4 x≥4 razem 0 0,32 0,70 0,90 0,97 1,00 - Dystrybuanta empiryczna cechy X Dystrybuanta cechy skokowej x liczbaLiczba rodzeństwa ⇨ cecha (liczba dzieci w rodzinach) rodzeństwa F(x) 1,00 0,97 1,00 0,90 0,96 0,86 0,70 0,58 0,32 0,29 0 0 1 2 3 4 x skokowa x Rozkład empiryczny cechy ciągłej Cecha = wiek ulubionego przeboju muzycznego (w latach) <x0i – x1i ) 5-10 10-15 15-20 20-25 25-30 30-35 razem n i 2 20 38 35 15 10 120 podział obszaru przedziały klasowe zmienności cechy na określenie liczby przedziałów klasowych k (k5), (k ≥ 5) ustalenie rozpiętości przedziału klasowego hi: hi x1i x 0i i 1,2,..., k x0i, x1i - odpowiednia dolna i górna granica przedziału klasowego. Graficzna prezentacja Wiek ulubionego przeboju muzycznego Wielobok liczebności 5 10 15 20 25 30 35 Wiek ulubionego przeboju muzycznego Histogram 5 10 15 20 25 30 35 Dystrybuanta cechy ciągłej x F(x) Wiek ulubionego przeboju muzycznego lata Opis rozkładu empirycznego → charakterystyki rozkładu MIARY KLASYCZNE Położenia •Średnia arytmetyczna Zróżnicowania Asymetrii POZYCYJNE •Mediana •Kwartyle, decyle •Dominanta •Wariancja •Rozstęp •Odchylenie •Rozstęp standardowe międzykwartylowy •Współczynnik •Odchylenie zmienności ćwiartkowe •Współczynnik zmienności •Współczynnik asymetrii Miary położenia Średnia arytmetyczna: dane indywidualne , n 1 formuła nieważona x x j n j 1 w rozkładzie cechy skokowej, dane pogrupowane, k 1 x xini n i 1 formuła ważona w rozkładzie z przedziałami klasowymi, formuła ważona o x k 1 x x i n i n i 1 xi1 xi 0 - środek i-tego przedziału klasowego xi 2 o Miary położenia Średnia arytmetyczna: dane indywidualne , x –x x n 0i 1i i n 1 5-10 7,5 x xj formuła2nieważona 10-15 20 12,5 n j 1 w i 15-20 38 17,5 rozkładzie cechy dane pogrupowane, 20-25 35 skokowej, 22,5 k 1 25-30 15 27,5 x formuła ważona i i 30-35 10 32,5 n i 1 razem 120 x x n w rozkładzie z przedziałami klasowymi, formuła ważona o x k 1 x x i n i n i 1 xi1 xi 0 - środek i-tego przedziału klasowego xi 2 o Miary położenia Miary pozycyjne - kwantyle Mediana – dzieli na połowę Kwartyle – dzielą na cztery równe części Decyle – dzielą na dziesięć równych części Centyle – dzielą na sto równych części Miary położenia kwantyl rzędu p (0 < p <1) w rozkładzie empirycznym to taka wartość kp cechy, dla której - jako pierwszej - dystrybuanta empiryczna spełnia warunek: Fn (kp) p me =Mediana Q=Kwartyle Decyle Centyle Fn (k0,5) 0,5 Fn (k0,25) 0,25 Fn (k0,75) 0,75 Fn (k0,1) 0,1 Fn (k0,2) 0,2 … Fn (k0,9) 0,9 Fn (k0,01) 0,01 Fn (k0,02) 0,02… Fn (k0,99) 0,99 Miary położenia Dystrybuanta cechy ciągłej x → skumulowane częstości Graficzne wyznaczanie mediany F(x) Wiek ulubionego przeboju muzycznego 0,50 me lata Miary położenia Przykład wyznaczania kwartyli : szereg rozdzielczy cecha skokowa Fn (Q1 ) 0,25 x i 0 1 2 3 4 razem Fn (me) 0,5 Fn (Q3 ) 0,75 dystrybuanta 0,32 0,70 0,90 0,97 1,00 - Q1 = 0 Mediana = 1= Q2 Q3 = 2 Miary położenia kwartyle Q1 , Q2 , Q3 • w rozkładzie cechy skokowej Fn (Q1 ) 0,25; 0,75 Fn (Q2) 0,5; Fn (Q3 ) • w rozkładzie z przedziałami klasowymi Q1 x oQ1 (0,25 - Fn (x oQ1) ) h Q1 w Q1 Q3 x oQ3 (0,75 - Fn (x oQ3) ) Q2=me h Q3 w Q3 Miary zróżnicowania Miary zróżnicowania klasyczne wariancja z próby, to suma kwadratów odchyleń wartości cechy od jej średniej podzielona przez n-1 dane indywidualne, formuła nieważona n S n11 (x j x) 2 2 j 1 w rozkładzie cechy skokowej, formuła ważona k S n11 (xi x ) ni 2 2 i 1 w rozkładzie z przedziałami klasowymi, formuła ważona S 2 k 1 (xi x) n 1 i 1 2 ni Miary zróżnicowania odchylenie standardowe S S 2 Miary zróżnicowania Miary zróżnicowania pozycyjne • rozstęp = xmax – xmin • rozstęp międzykwartylowy • odchylenie ćwiartkowe I = Q3 - Q1 Q3 Q1 Q 2 Miary zróżnicowania Miary względne współczynnik zmienności (miara klasyczna ) V S *100% x współczynnik zmienności (miara pozycyjna ) Q V me *100% Średnia arytmetyczn a Odchylenie Współczynni standardowe k zmienności (klasyczny) studenci 20,5 6 29% starsi 25 7 28% średnia; mediana; dominanta (do) Asymetria dodatnia (prawostronna) Symetria ni ni A=0 A>0 Mx D xx me dox ni xi Dx M xx do mex Asymetria ujemna (lewostronna) A<0 xx M me Ddo x x xi xi Miary asymetrii Miary asymetrii współczynnik asymetrii (miara klasyczna) A M3 S 3 pozycyjny współczynnik asymetrii (Q3 me) (me Q1) A2 Q3 Q1 współczynnik skośności A1 x do S Miary asymetrii dla danych indywidualnych, formuła nieważona n Moment centralny trzeciego rzędu M 3 1n (x j x ) 3 j 1 - w rozkładzie cechy skokowej, formuła ważona n 3 1 M 3 n- (x x ) *n i i j 1 w rozkładzie z przedziałami klasowymi, formuła ważona n 3 1 M 3 n (x x ) *n i i j 1 Miary asymetrii Obliczanie klasycznego współczynnika asymetrii Wiek ulubionego przeboju muzycznego (w latach) k Moment centralny trzeciego rzędu -1 =59,20 i A A=0 A>0 A<0 M3 S3 symetria asymetria dodatnia (prawostronna) asymetria ujemna (lewostronna) -2<A<2