Opis statystyczny
Transkrypt
Opis statystyczny
Opis statystyczny Punktem wyjścia do wnioskowania statystycznego (uogólnianie wyników badania próby na populację generalną) jest odpowiednia analiza rozkładu badanej cechy w tej próbie. Metody służące do analizy rozkładu cechy w próbie są nazywane metodami opisu statystycznego. Opis statystyczny sprowadza się do wyznaczenia pewnych liczbowych parametrów charakteryzujących badany rozkład. Opis statystyczny może byd zamkniętym badaniem (w przypadku skooczonej zbiorowości generalnej). 1 Opis statystyczny Stosowane w analizach parametry: • Miary położenia (przeciętne, średnie) • Miary zmienności (zróżnicowania, dyspersji, rozproszenia) • Miary asymetrii (skośności) • Miary skupienia Miary położenia : • klasyczne – średnia arytmetyczna – średnia geometryczna – średnia harmoniczna • pozycyjne – dominanta – mediana – kwantyle 2 Opis statystyczny Oznaczenia: x A -średnia arytmetyczna x G -średnia geometryczna x H -średnia harmoniczna x̂ i -środek i-tego przedziału klasowego n i -liczebnośd i-tego wariantu cechy N -liczebnośd badanej zbiorowości r -liczba wariantów cechy 3 Opis statystyczny Średnia arytmetyczna 1… 1 N xA 1 N 1a… x A 1 N 1b… x A N xi szereg szczegółowy i 1 r r xini i 1 xi szereg rozdzielczy punktowy i i 1 r r x̂ i n i i 1 x̂ i i 1 i szereg rozdzielczy przedziałowy o domkniętych przedziałach klasowych r ni gdzie N i 1 Uwaga: Dla szeregów przedziałowych wyznacza się tzw. średnią ważoną (wagami są częstości i ) 4 Opis statystyczny UWAGi: 1. Środki przedziałów uznajemy za reprezentatywne, ale one tylko w przybliżeniu odzwierciedlają rzeczywiste wartości; stąd dla szeregów rozdzielczych przedziałowych wartości: średniej arytmetycznej wyznaczonej wg wzoru (1b) i średniej arytmetycznej wyznaczonej dla szeregu szczegółowego wg wzoru (1) na ogół będą się różnid. 2. Średnia arytmetyczna jest pewną abstrakcyjną wielkością (wypadkową wszystkich obserwacji) i nie musi należed do zbioru wartości cechy. 3. Dla szeregów rozdzielczych przedziałowych o otwartych przedziałach klasowych przed obliczeniem średniej należy przedziały domknąd; przyjmuje się, że otwarte przedziały można domknąd, jeśli ich liczebnośd jest mniejsza niż 0,05N. 5 Opis statystyczny Własności średniej arytmetycznej 1. N Nx A r ( Nx A xi i 1 2. x min x (x i i 1 ( x) 0 r (x i 0 ; x )n i i 1 N 4. min i 1 c) 2 ( x̂ i r (x i i 1 r x) x )n i 0 ) i 1 N (x i x̂ i n i ) Nx A x max i 1 c R xini ; i 1 N 3. r 2 (min c R 6 r (x i i 1 2 c) n i (x i i 1 x)2n i ) Opis statystyczny Własności średniej arytmetycznej (c.d.) 5. Jeśli wszystkie wartości cechy powiększymy (pomniejszymy, pomnożymy, podzielimy) o/przez pewną stałą, to średnia arytmetyczna będzie równa sumie (różnicy, iloczynowi, ilorazowi) średniej arytmetycznej wyjściowej cechy i tej stałej. 6. Średnia arytmetyczna sumy (różnicy) cech równa się sumie (różnicy) ich średnich arytmetycznych. 7. Na poziom średniej arytmetycznej silny wpływ mają wartości ekstremalne (skrajne), przy czym wpływ jest silniejszy w przypadku wysokich wartości cechy. UWAGA: Średnia arytmetyczna jest miarą prawidłową dla zbiorowości w których rozkład cechy jest jednomodalny, symetryczny lub o niewielkiej asymetrii. Jeśli tak nie jest, to dla scharakteryzowania średniego poziomu zjawiska należy wykorzystad przeciętne pozycyjne. 7 Opis statystyczny Załóżmy, że zbiorowośd jest podzielona na m rozłącznych grup i znamy średnią arytmetyczną wartości cechy dla każdej z grup. Niech ~x (j=1,2,...,m) oznacza średnią arytmetyczną obliczoną dla j j-tej grupy, n j – liczebnośd j-tej grupy N – ogólna liczebnośd próby x A – średnia arytmetyczna dla wszystkich grup łącznie Wtedy 2… ~ xj 3… x A 1 nj 1 N nj m xi dla j=1,2,...,m i 1 m nj oraz j 1 ~ x jn j j 1 8 N Opis statystyczny Średnia geometryczna N 4... xG 4a... x G N N x x1 x 2 ... x N n1 1 x n2 2 ... x nr r N i 1 xi dla szeregów szczegółowych x ini dla szeregów rozdzielczych r N i 1 Średnia geometryczna ma zastosowanie wtedy, gdy zjawiska ujmowane są dynamicznie, przy badaniu średniego tempa zmian zjawisk w czasie. 9 Opis statystyczny Średnia harmoniczna 5… x H N N i 1 6… x H r i 1 7… x H r i 1 1 xi N 1 ni xi N 1 ni x̂ i dla szeregów wyliczających dla szeregów rozdzielczych punktowych dla szeregów rozdzielczych przedziałowych Średnią harmoniczną stosuje się, gdy wartości cechy podane są w jednostkach względnych (km/godz, kg/osobę). UWAGA: Dla konkretnej cechy tylko jedna średnia klasyczna jest odpowiednia. 10 Opis statystyczny Dominanta Dominanta (modalna, moda, wartośd najczęstsza) w rozkładzie empirycznym Do – ta wartośd cechy, której odpowiada największa liczebnośd (częstośd). • Dominanta nie zawsze istnieje. • Na podstawie przedziałowego szeregu rozdzielczego dominantę można wyznaczyd jedynie wówczas, gdy przedziały klasowe w tym szeregu mają jednakową rozpiętośd (wysoka liczebnośd mogłaby byd spowodowana szerszą rozpiętością tego przedziału w stosunku do innych). • Dla szeregów rozdzielczych przedziałowych można poprzestad na wskazaniu przedziału zawierającego dominantę. 11 Opis statystyczny Zwykle dla dokładniejszego wyznaczenia mody stosuje się wzór interpolacyjny (8), wyprowadzony przy założeniu, że wzrost liczebności w poszczególnych przedziałach klasowych jest proporcjonalny do wzrostu wartości cechy. 8… Do x 0d (n d nd nd 1 hd n d 1 ) (n d n d 1 ) gdzie x 0d – dolna granica przedziału, w którym występuje dominanta h d – rozpiętośd przedziału z dominantą n d , n d 1 , n d 1 – liczebności przedziału zawierającego dominantę, poprzedniego, następnego (odpowiednio) Uwaga: We wzorze (8) liczebności można zastąpid częstościami. 12 Opis statystyczny Graficzne wyznaczanie dominanty • Wyznaczyd histogram dla przedziału klasowego zawierającego dominantę, poprzedniego i następnego. • Z górnych wierzchołków najwyższego prostokąta należy wykreślid dwa odcinki łączące po przekątnej bliższe górne wierzchołki sąsiednich prostokątów. • Rzut punktu przecięcia tych odcinków na oś odciętych jest dominantą. Uwagi: 1. Jeśli liczebności przedziałów sąsiadujących z przedziałem dominanty są jednakowe, to dominanta jest równa środkowi klasy dominującej. 2. Wyznaczanie dominanty jest uzasadnione wówczas, gdy rozkład empiryczny jest jednomodalny i asymetria jest umiarkowana. 13 Opis statystyczny Kwantyle Kwantyl rzędu p w rozkładzie empirycznym – taka wartośd cechy k p , dla której jako pierwszej dystrybuanta empiryczna spełnia relację 9… F(k p ) p 0 < p < 1 W statystyce opisowej wyróżnia się: – kwartyle (kwantyle rzędu k4 k = 1,2,3) – decyle (kwantyle rzędu k 10 k – centyle (kwantyle rzędu 100 14 k = 1,2,3,…,9) k = 1,2,3,…,99) Opis statystyczny Kwartyle: Q1 - kwartyl pierwszy (rzędu 14 ) me - kwartyl drugi (rzędu Q 3 - kwartyl trzeci (rzędu 2 4 )3 4 ) mediana Mediana jest tą wartością cechy, którą posiada środkowa jednostka w uporządkowanym (niemalejąco) ciągu wartości cechy; gdy tych jednostek jest więcej bierze się ich średnią arytmetyczną, tzn. dla szeregów wyliczających 10… xN 1 me gdy N - nieparzyste 2 1 (x N 2 2 x N 1) gdy N - parzyste 2 15 Opis statystyczny Własności mediany N 1. min c R N | xi i 1 c| | xi me | i 1 2. Mediana nie reaguje na zmiany wartości cech skrajnych jednostek (na obserwacje nietypowe). 3. Przy zmianie próby mediana ulega większym zmianom niż średnia arytmetyczna. Uwaga: Mediana obok średniej arytmetycznej jest najczęściej stosowanym parametrem; może byd obliczona, gdy nie można obliczyd średniej arytmetycznej (otwarte przedziały). 16 Opis statystyczny Do wyznaczenia kwartyli z szeregów rozdzielczych przedziałowych stosuje się wzór interpolacyjny (11), wyprowadzony przy założeniu, że wzrost liczebności w poszczególnych przedziałach klasowych jest proporcjonalny do wzrostu wartości cechy. 11… Q4p gdzie: x 0Q hQ [ p N n sk Q 1] nQ p – rząd kwartyla x 0 Q – dolna granica przedziału, w którym jest wartośd kwartyla h Q – rozpiętośd przedziału kwartyla n Q – liczebnośd przedziału kwartyla n sk Q 1 – liczebnośd skumulowana w przedziale poprzedzającym klasę kwartyla N – ogólna liczebnośd zbiorowości. 17 Opis statystyczny Do graficznego wyznaczenia kwartyli wykorzystuje się wielobok skumulowany liczebności (częstości) - łamana łącząca punkty o współrzędnych: górna granica przedziału klasowego, odpowiadająca danej klasie liczebnośd (częstośd ) skumulowana. Wartośd kwartyla rzędu p stanowi odczytana na osi odciętych (wartości cechy) liczna odpowiadająca skumulowanej liczebności równej pN (skumulowanej częstości równej p); N jest ogólną liczebnością zbiorowości . W przypadku rozkładu umiarkowanie asymetrycznego zachodzi wzór Pearsona 12… x Do 3 (x me) 18 Opis statystyczny Miary zmienności: • klasyczne – wariancja – odchylenie standardowe – odchylenie przeciętne – współczynnik zmienności • pozycyjne – rozstęp – odchylenie dwiartkowe – współczynnik zmienności 19 Opis statystyczny Wariancja Wariancja to średnia arytmetyczna kwadratów odchyleo wartości cechy od średniej N (x i S2 13… x)2 i 1 szereg szczegółowy N r x)2 n i (x i 13a… S 2 r i 1 N (x i x)2 i ( x̂ i x)2 i szereg rozdzielczy punktowy i 1 r x)2 n i ( x̂ i 13b… S2 r i 1 N i 1 r gdzie ni N i 1 20 szereg rozdzielczy przedziałowy Opis statystyczny Uwaga: Wariancja dla szeregów rozdzielczych przedziałowych jest zawyżona (bierzemy środki klas; liczba przedziałów jest odwrotnie proporcjonalna do ich rozpiętości, więc przeszacowanie jest tym większe 2 im mniej jest klas). Zaleca się stosowanie poprawki Shepparda równej h 12 r x)2 n i ( x̂ i 14… S2 i 1 N h2 12 r ( x̂ i i 1 x)2 i h2 12 gdzie h – rozpiętośd przedziałów klasowych. Dla wariancji zachodzi 15... S2 ____ 2 x x2 21 Opis statystyczny Jeśli zbiorowośd jest podzielona na m rozłącznych grup, to wariancja dla całej zbiorowości, tzw. wariancja ogólna jest sumą dwóch składników: • wariancji wewnątrzgrupowej (średnia arytmetyczna wariancji grup); • wariancji międzygrupowej (wariancja średnich grupowych) 22 Opis statystyczny Wariancja ogólna wyraża się wzorem 16… _____ 2 i S2 S2 (~ xi ) S m m gdzie: _____ 2 i S 2 Si n i i 1 N S2 ( ~ xi ) (~ xi x)2 n i i 1 N _____ 2 i 2 - wariancja wewnątrzgrupowa S S (~ x i ) - wariancja międzygrupowa ~ x i (i=1,2,...,m) oznacza średnią arytmetyczną obliczoną dla i-tej grupy n i - liczebnośd i-tej grupy N - ogólna liczebnośd próby x - średnia arytmetyczna dla wszystkich grup łącznie 23 Opis statystyczny Odchylenie standardowe Odchylenie standardowe S jest to pierwiastek z wariancji. Wyraża się w mianach takich jak badana cecha. Określa przeciętne zróżnicowanie poszczególnych wartości cechy w stosunku do średniej arytmetycznej. Typowy obszar zmienności 17… x S x typ x S Na ogół w obszarze tym mieszczą się wartości cechy około 2/3 jednostek badanej zbiorowości 24 Opis statystyczny Uwagi: 1. Odchylenie standardowe jest najczęściej stosowanym parametrem statystycznym. 2. Obliczane jest na podstawie wszystkich obserwacji. 3. Im zbiorowośd bardziej zróżnicowana, tym większa wariancja i odchylenie standardowe. 4. Na podstawie nierówności Czebyszewa, sformułowano tzw. regułę trzech sigm która mówi, że wystąpienie obserwacji o wartości cechy poza przedziałem ( x 3S; x 3S) jest mało prawdopodobne. 5. Dla rozkładów normalnych lub zbliżonych do normalnych: tylko 1/3 obserwacji wykracza poza typowy przedział obserwacji ( x S; x S) tylko 5% obserwacji wykracza poza przedział ( x 2S; x 2S) a około 0,3% obserwacji poza przedział ( x 3S; x 3S) 25 Opis statystyczny Odchylenie przeciętne Odchylenie przeciętne d wyraża się wzorem N | xi 18… x| szereg szczegółowy i 1 d N r | xi 18a… d x | ni r i 1 N | xi x| | x̂ i x| i szereg rozdzielczy punktowy i 1 r 18b… | x̂ i x | ni i 1 d N szereg rozdzielczy przedziałowy r i i 1 r gdzie ni N i 1 26 Opis statystyczny Rozstęp Rozstęp R to bardzo ogólna miara zmienności 19… R x max x min Odchylenie ćwiartkowe Odchylenie ćwiartkowe Q mierzy poziom zróżnicowania tylko części jednostek (po odrzuceniu 25% o najmniejszej i 25% o największej wartości cechy) Q (Q 3 me ) (me Q1 ) 2 Q3 Q1 20… 2 Zachodzi związek Q < d < S. Typowy obszar zmienności cechy (w oparciu o parametry pozycyjne) me Q x typ me Q 20…. 27 Opis statystyczny Współczynnik zmienności Dotychczas omówione miary dyspersji są miarami bezwzględnymi (w takich jednostkach jak cecha); nie można więc ich wykorzystad do porównywania rozkładów cech w zbiorowościach. Dlatego w analizie dyspersji stosuje się względną miarę rozproszenia – współczynnik zmienności. Współczynnik zmienności jest stosunkiem bezwzględnej miary zróżnicowania cechy do przeciętnej wartości cechy (jest miarą niemianowaną, najczęściej podawaną w procentach). 28 Opis statystyczny W zależności od przyjętych miar przeciętnych i dyspersji wyróżnia się współczynniki zmienności: • Klasyczne 21… 22… VS Vd S x d x • Pozycyjne 23… 24… VQ VQ1Q3 Q me Q3 Q1 Q3 Q1 29 ( Q Q 3 Q1 ) 2 Opis statystyczny Miary asymetrii Rozkłady mogą różnid się kierunkami i siłą asymetrii. W szeregach symetrycznych x me Do Q3 me x Do Q 3 me me Q1 me Q1 - wskaźnik skośności (określa kierunek asymetrii) - pozycyjny wskaźnik skośności Asymetria lewostronna: x me Do Q 3 me me Q1 0 Asymetria prawostronna: x me Do Q 3 me 30 me Q1 0 0 Opis statystyczny Miary asymetrii (współczynniki skośności) określają kierunek i siłę asymetrii Klasyczne współczynniki asymetrii: x Do AS 25… S 26… 27... x Do Ad d m3 gdzie A 3 S N (x i m3 x) r 3 i 1 N ( m3 ( x i x )3 n i i 1 N Pozycyjny współczynnik asymetrii 28… AQ Q3 me Q3 me me Q1 me Q1 Q3 Q1 2me 2Q Uwaga: Im większa wartośd bezwzględna współczynnika asymetrii, tym silniejsza asymetria 31 ) Opis statystyczny Miary koncentracji Współczynnik skupienia (kurtoza) – miara skupienia obserwacji N r wokół średniej (x i x)4 (x i x)4 n i 29… K m44 gdzie m 4 i 1 ( m4 i 1 ) N S N Im wyższa wartośd K, tym bardziej wysmukła krzywa liczebności, więc większa koncentracja wartości cechy wokół średniej. Jeśli zbiorowośd ma rozkład normalny, to K = 3. K < 3 -rozkład platokurtyczny bardziej spłaszczony od normalnego K > 3 - rozkład leptokurtyczny bardziej wysmukły od normalnego 30… K m4 S4 3 K 0 - rozkład platokurtyczny K 0 -rozkład leptokurtyczny 32