Statystyka
Transkrypt
Statystyka
Statystyka Opisowa analiza zjawisk masowych Typy rozkładów empirycznych jednej zmiennej Rozkładem empirycznym zmiennej nazywamy przyporządkowanie kolejnym wartościom zmiennej (xi) odpowiadających im liczebności (ni). Rozkład odzwierciedla więc strukturę badanej zbiorowości z punktu widzenia określonej cechy. ROZKŁADY EMPIRYCZNE cechy skokowe wielomodalne jednomodalne symetryczne normalne cechy ciągłe leptokurtyczne jednomodalne umiarkowanie symetryczne platokurtyczne wielomodalne skrajnie symetryczne prawoskośne lewoskośne Przykłady podstawowych typów rozkładów empirycznych dla cechy skokowej Przykłady podstawowych typów rozkładów empirycznych dla cechy ciągłej Opisowe charakterystyki rozkładów W badaniach statystycznych stosuje się wiele charakterystyk opisujących rozkłady empiryczne. Należą do nich następujące grupy miar: 1) miary średnie (zwane też miarami położenia, przeciętnymi lub miarami poziomu wartości zmiennej) służące do określania tej wartości zmiennej opisanej przez rozkład, wokół której skupiają się wszystkie pozostałe wartości zmiennej, 2) miary rozproszenia (zmienności, zróżnicowania, dyspersji) służące do badania stopnia zróżnicowania wartości zmiennej, Opisowe charakterystyki rozkładów miary asymetrii (skośności) służące do badania kierunku zróżnicowania wartości zmiennej, 4) miary koncentracji służące do badania stopnia nierównomierności rozkładu ogólnej sumy wartości zmiennej pomiędzy poszczególne jednostki zbiorowości lub do analizy stopnia skupienia poszczególnych jednostek wokół średniej. Charakterystyki opisowe są bardziej syntetycznymi formami opisu rozkładów niż forma graficzna czy tabelaryczna. Pozwalają one w sposób syntetyczny określić właściwości badanych rozkładów i dokonać porównania różnych zbiorowości. 3) Miary średnie dzieli się na dwie grupy: średnie klasyczne i pozycyjne. Do średnich klasycznych należą: średnia arytmetyczna, średnia harmoniczna oraz średnia geometryczna. Najczęściej wykorzystywanymi średnimi pozycyjnymi są: dominanta (modalna, wartość najczęstsza) oraz kwantyle. Wśród kwantyli wyróżniamy z kolei kwartyle (dzielące zbiorowość na cztery części), kwintyle (na pięć części), decyle (na dziesięć części) oraz centyle, zwane też percentylami (na sto części). Średnie klasyczne są obliczane na podstawie wszystkich wartości szeregu. Średnie pozycyjne są wartościami konkretnych wyrazów szeregu (pozycji) wyróżniających się pod pewnym względem. Obie grupy średnich nawzajem się uzupełniają. Każda opisuje bowiem poziom wartości zmiennej z innego punktu widzenia. Średnia arytmetyczna Średnią arytmetyczną nazywamy sumę wartości zmiennej wszystkich jednostek badanej zbiorowości podzieloną przez liczbę tych jednostek. gdzie: - symbol średniej arytmetycznej, - warianty cechy mierzalnej, - liczebność badanej zbiorowości. Średnia arytmetyczna Jeżeli warianty zmiennej występują z różną częstotliwością, to oblicza się średnią arytmetyczną ważoną. Wagami są liczebności odpowiadające poszczególnym wariantom. Z tego rodzaju sytuacją mamy do czynienia w szeregach rozdzielczych punktowych i przedziałowych. Wzór na obliczanie średniej arytmetycznej ważonej z szeregów rozdzielczych punktowych ma postać: gdzie ni (i=1, 2, …, k) oznacza liczebność jednostek odpowiadającą poszczególnym wariantom zmiennej, a N jest sumą tych liczebności. Dla szeregu rozdzielczego z przedziałami klasowymi wzór jest następujący: gdzie środek przedziału klasowego. Średnia arytmetyczna Jeżeli zamiast liczebności absolutnych wykorzystywane są w obliczeniach procentowe wskaźniki struktury, to wzór na średnią arytmetyczną przyjmuje postać: gdzie . Często się zdarza, ze znamy średnie arytmetyczne dla pewnych grup i na tej podstawie chcemy obliczyć średnią arytmetyczną dla wszystkich grup łącznie. Wykorzystujemy wówczas następujący wzór: gdzie: jest średnią ze średnich. Średnia arytmetyczna Średnia arytmetyczna – jako miara przeciętna – charakteryzuje się pewnymi właściwościami. Oto niektóre z nich: 1) Jako miara klasyczna jest wypadkową wszystkich wartości zmiennej i spełnia nierówność: ; 2) suma odchyleń poszczególnych wartości zmiennej od średniej arytmetycznej jest równa zeru, czyli: w przypadku szeregu wyliczającego, w przypadku szeregu rozdzielczego punktowego, w przypadku szeregu rozdzielczego z przedziałami klasowymi; Średnia arytmetyczna 3) 4) 5) 6) jeżeli wszystkie wartości zmiennej powiększymy (pomniejszymy), podzielimy lub pomnożymy) o pewną stałą, to średnia arytmetyczna będzie równa sumie (różnicy, ilorazowi lub iloczynowi) średniej arytmetycznej wyjściowych zmiennych i tej stałej; jeżeli liczebności poszczególnych wariantów cechy są jednakowe, to średnia arytmetyczną można obliczyć jako iloraz sumy wariantów i ich liczby; suma wartości zmiennej jest równa iloczynowi średniej arytmetycznej i liczebności zbiorowości, czyli: na poziom średniej arytmetycznej silny wpływ wywierają wartości ekstremalne (skrajne), przy czym wpływ ten jest silniejszy w przypadku wysokich wartości zmiennej. Średnia harmoniczna Średnia harmoniczna jest odwrotnością średniej arytmetycznej z odwrotności wartości zmiennych. W przypadku szeregów szczegółowych obliczamy średnią harmoniczną według wzoru: Przy obliczaniu średniej harmonicznej z szeregów rozdzielczych (punktowych bądź przedziałowych) zachodzi konieczność zastosowania wag (uwzględnienia liczebności). Dla szeregów rozdzielczych punktowych średnią harmoniczną obliczamy następująco: Średnia harmoniczna Średnią harmoniczną stosuje się wówczas, kiedy wartości zmiennej podane są w jednostkach względnych, np. w km/h, kg/osobę, wagi zaś – w jednostkach występujących w licznikach tych jednostek względnych. Można tutaj wymienić np. takie zmienne, jak: - prędkość pojazdu (zmienna: w km/h, waga: w km); - gęstość zaludnienia (zmienna: w osobach/km2, waga: w osobach), - spożycie artykułu X na 1 osobę (zmienna: kg/osoba, waga: w kg). Średnia geometryczna Średnia geometryczna jest pierwiastkiem n-tego stopnia z iloczynu n wartości danej zmiennej, czyli: Gdy wartości zmiennej występują z różną częstotliwością, średnią geometryczną obliczamy następująco: gdzie: Średnia geometryczna znajduje zastosowanie przy badaniu średniego tempa zmian zjawisk. Modalna (dominanta, wartość najczęstsza) Modalną nazywamy taką wartość zmiennej, która w danym rozkładzie empirycznym występuje najczęściej. Wynika z tego, że wartość dominanty można ustalić jedynie z rozkładów jednomodalnych. W szeregach szczegółowych i rozdzielczych punktowych dominanta jest tą wartością cechy, której odpowiada największa liczebność. W szeregach rozdzielczych przedziałowych bezpośrednio można określić tylko przedział, w którym znajduje się dominanta (jest to przedział o największej liczebności). Modalna (dominanta, wartość najczęstsza) Konkretną wartość liczbową wyznacza się następująco: gdzie: D – symbol dominanty; xD – dolna granica klasy, w której znajduje się dominanta; nD – liczebność przedziału modalnej; nD-1 – liczebność przedziału poprzedzającego przedział modalnej; nD+1 – liczebność przedziału następującego po przedziale dominanty; iD – interwał, czyli rozpiętość przedziału dominanty. Graficzna metoda wyznaczania modalnej Kwantyle Do najczęściej używanych kwantyli zaliczamy kwartyle, a w przypadku badania struktury zbiorowości o dużej liczbie jednostek – decyle i centyle (percentyle). Wśród kwartyli wyróżniamy: kwartyl pierwszy (zwany dolnym), kwartyl drugi ( określany mianem mediany lub wartości środkowej) oraz kwartyl trzeci (górny). Każdy z kwartyli dzieli uporządkowaną zbiorowość na dwie części pod względem liczebności, przy czym: - kwartyl pierwszy dzieli zbiorowość uporządkowaną na dwie części w ten sposób, że 25% jednostek ma wartości cechy niższe, a 75% wyższe od kwartyla pierwszego, - mediana dzieli zbiorowość uporządkowaną na dwie równe części w ten sposób, że 50% jednostek ma wartości cechy niższe i 50% wyższe od mediany, - kwartyl trzeci dzieli zbiorowość uporządkowaną na dwie części w ten sposób, że 75% jednostek ma wartości cechy niższe, a 25% wyższe od kwartyla trzeciego. Mediana W przypadku szeregów szczegółowych, składających się z reguły z niewielkiej liczby jednostek, medianę oblicza się najczęściej za pomocą wzoru: gdzie Me jest symbolem mediany. Obliczanie mediany z szeregu rozdzielczego punktowego sprowadza się do wskazania jednostki środkowej i odczytania wariantu cechy odpowiadającego tej jednostce. Odnalezienie środkowej jednostki ułatwia skumulowanie liczebności. Kumulacja polega na kolejnym, narastającym sumowaniu liczebności dotyczących poszczególnych wariantów cechy. Mediana W przypadku szeregów rozdzielczych przedziałowych kwartyle wyznaczamy metodą graficzną lub rachunkową. Przy metodzie rachunkowej wykorzystuje się następujące wzory: gdzie: Q1, Q2, Q3 – odpowiednio kwartyl pierwszy, drugi (mediana) i trzeci; xQ1, xQ2, xQ3 – dolne granice przedziałów, w których znajdują się odpowiednio kwartyl pierwszy, drugi i trzeci; N – ogólna liczebność danej zbiorowości; nQ1, nQ2, nQ3 – liczebności przedziałów, w których znajdują się odpowiednio kwartyl pierwszy, mediana i kwartyl trzeci; iQ1, iQ2, iQ3 – interwały przedziałów, w których znajduje się odpowiednio kwartyl pierwszy, drugi i trzeci; suma liczebności od klasy pierwszej do tej, w której znajduje się odpowiednio kwartyl pierwszy, drugi i trzeci. Graficzna metoda wyznaczania kwartyli Kwantyle Decyle i percentyle wyznacza się podobnie jak kwartyle. Decyle dzielą zbiorowość uporządkowaną na 10 części pod względem liczebności. Percentyle dzielą zbiorowość uporządkowaną na 100 części pod względem liczebności. Średnia arytmetyczna, dominanta i mediana, jako miary tendencji centralnej, są powiązane ze sobą odpowiednimi zależnościami, które można wyrazić równościami lub nierównościami (decyduje tu typ rozkładu empirycznego). W przypadku umiarkowanie asymetrycznego rozkładu zachodzi między nimi następujący związek: Wzór ten nosi nazwę wzoru Pearsona. Wartości średnie nie dają wyczerpującej charakterystyki struktury zbiorowości. W szczególności nie informują one o stopniu zmienności (dyspersji) badanej cechy. Dyspersją (rozproszeniem) nazywamy zróżnicowanie jednostek zbiorowości statystycznej ze względu na wartości badanej cechy. Siłę dyspersji oceniamy za pomocą pozycyjnych i klasycznych miar zmienności. Do miar pozycyjnych należą: empiryczny obszar zmienności (rozstęp, amplituda wahań) oraz odchylenie ćwiartkowe. Grupę miar klasycznych worzą: odchylenie standardowe, wariancja oraz odchylenie przeciętne. Do miar zmienności zaliczamy również współczynnik zmienności, który – w zależności od sposobu liczenia – może być klasyczną lub pozycyjną miarą dyspersji. Empiryczny obszar zmienności (Rozstęp) Empiryczny obszar zmienności jest różnica między największą i najmniejszą wartością zmiennej w badanej zbiorowości: R = xmax - xmin Jak wynika ze wzoru, obszar zmienności możemy określić ściśle na podstawie szeregu wyliczającego. Na podstawie szeregu rozdzielczego przedziałowego można jedynie określić jego przybliżoną wartość, jako różnicę między górną granicą ostatniej klasy i dolną granicą klasy pierwszej. Odchylenie przeciętne Odchylenie przeciętne określa, o ile wszystkie jednostki danej zbiorowości różnią się średnio ze względu na wartość zmiennej od średniej arytmetycznej tej zmiennej. Odchylenie przeciętne jest średnią arytmetyczną bezwzględnych wartości (modułów) odchyleń wartości cechy od jej średniej arytmetycznej. Dla szeregu szczegółowego: dla szeregu rozdzielczego punktowego: dla szeregu rozdzielczego przedziałowego: Odchylenie ćwiartkowe Odchylenie ćwiartkowe opiera się na wartościach kwartyla pierwszego i trzeciego. Oblicza się je następująco: Odchylenie ćwiartkowe mierzy poziom zróżnicowania tylko części jednostek badanej zbiorowości (pozostałej po odrzuceniu 25% jednostek o wartościach najniższych oraz 25% jednostek o wartościach najwyższych). Odchylenie ćwiartkowe mierzy więc średnią rozpiętość w połowie obszaru zmienności. Jeżeli do opisu tendencji centralnej w danym szeregu użyto mediany, a do opisu zmienności – odchylenia ćwiartkowego, to można określić typowy obszar zmienności w następujący sposób: Nietypowe w danej zbiorowości są te jednostki, których wartości są niższe od Me – Q i wyższe od Me + Q. Wariancja Wariancja to średnia arytmetyczna z kwadratów odchyleń poszczególnych wartości cechy od średniej arytmetycznej całej zbiorowości. Dla szeregu szczegółowego oblicza się ją następująco: dla szeregu rozdzielczego punktowego: dla szeregu rozdzielczego przedziałowego: Wariancja Wariancja jako miara zróżnicowania ma szereg właściwości, m.in.: 1) wariancja wartości zmiennej jest różnicą między średnią arytmetyczną kwadratów wartości zmiennej a kwadratem średniej arytmetycznej tej zmiennej, czyli, 2) jeżeli badaną zbiorowość podzielimy według określonego kryterium na k grup, to wariancja dla całej zbiorowości (wariancja ogólna) będzie sumą dwóch składników: średniej arytmetycznej wewnątrz grupowych wariancji wartości zmiennej (wariancji wewnątrzgrupowej) oraz wariancji średniej grupowych wartości tej zmiennej (wariancji międzygrupowej), co można zapisać: Wariancja Wariancja obliczana na podstawie szeregów rozdzielczych przedziałowych jest wielkością zawyżoną. Spowodowane jest to tym, że do obliczeń wykorzystujemy środki przedziałów klasowych, a nie średnie arytmetyczne z poszczególnych klas. Ponieważ liczba przedziałów klasowych jest z reguły odwrotnie proporcjonalna do ich rozpiętości, przeszacowanie wariancji jest tym większe, im mniejsza jest liczba klas. W celu zmniejszenia popełnianego błędu zaleca się stosowanie poprawki Shepparda równej , gdzie i jest rozpiętością klas. Stosując poprawkę Shepparda, wariancję z szeregu rozdzielczego przedziałowego obliczamy za pomocą wzoru: Poprawkę Shepparda możemy stosować tylko w szeregu rozdzielczym o równych rozpiętościach wszystkich klas. Odchylenie standardowe Odchylenie standardowe jest pierwiastkiem kwadratowym z wariancji, czyli: Odchylenie standardowe określa, o ile wszystkie jednostki danej zbiorowości różnią się średnio od średniej arytmetycznej badanej zmiennej. Odchylenie standardowe można wykorzystać do konstrukcji typowego przedziału zmienności badanej cechy. Typowy przedział zmienności określa wzór: Pomiędzy odchyleniami: ćwiartkowym, przeciętnym i standardowym, obliczonymi z tego samego szeregu, zachodzi następująca relacja: Graficzna prezentacja reguły trzech sigm 68% 95% 99,7% -3,5 -3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 Odchylenie standardowe 1) 2) 3) 4) Odchylenie standardowe ma następujące właściwości: jest wielkością obliczaną na podstawie wszystkich obserwacji w danym szeregu; jego wartość nie zmieni się, jeśli liczebności szeregu wyrazimy w liczbach względnych (procentach) dostatecznie dokładnie ustalonych; wartość odchylenia standardowego nie zmieni się, jeśli do wszystkich wartości zmiennej w szeregu dodamy pewną stałą liczbę; jeżeli wszystkie wartości szeregu pomnożymy przez pewną stałą liczbę większą od zera, to odchylenie standardowe będzie również tylokrotnie większe. Współczynnik zmienności Współczynnik zmienności jest ilorazem bezwzględnej miary dyspersji i odpowiednich wartości średnich. Jest on wyrażony w procentach. Można obliczyć współczynnik zmienności różnymi metodami: Z punktu widzenia potrzeb analizy statystycznej istotny jest nie tylko przeciętny poziom i wewnętrzne zróżnicowanie zbiorowości, ale również to, czy przeważająca liczba jednostek znajduje się powyżej, czy poniżej przeciętnego poziomu badanej cechy. Problem ten wiąże się z oceną asymetrii (skośności) rozkładu. Asymetrię rozkładu najłatwiej jest określić poprzez porównanie modalnej, mediany i średniej arytmetycznej. W rozkładach symetrycznych wszystkie średnie są sobie równe. W rozkładach asymetrycznych wymienione średnie kształtują się na różnych poziomach. Jeśli spełniona jest nierówność: , o rozkład charakteryzuje się asymetrią prawostronną; jeżeli zaś zachodzi nierówność , to mówimy o asymetrii lewostronnej. Współczynnik asymetrii Miarą określającą zarówno kierunek jak i siłę asymetrii jest współczynnik asymetrii (skośności). Jest to miara niemianowana i unormowana, co umożliwia porównanie asymetrii różnych rozkładów. Współczynnik skośności można obliczać następującymi metodami: Wartość współczynników asymetrii z reguły zawiera się w granicach <-1;1>. Jedynie przy bardzo silnej asymetrii przekraczają one nieznacznie wartość ±1. Współczynnik asymetrii Dla rozkładu symetrycznego As=0, dla rozkładu o asymetrii prawostronnej As>0, a dla rozkładu o asymetrii lewostronnej As<0. Do klasycznych współczynników asymetrii należy także współczynnik asymetrii A: przy czym: dla szeregu szczegółowego, dla szeregu rozdzielczego. gdzie: m3 – moment centralny rzędu trzeciego. Istnieje ścisły związek miedzy koncentracją wartości cechy wokół średniej a ich zróżnicowaniem. Im większe jest zróżnicowanie, tym mniejsza jest koncentracja. Miarą skupienia poszczególnych obserwacji wokół średniej jest współczynnik skupienia (kurtoza): przy czym: dla szeregu szczegółowego, dla szeregu rozdzielczego. gdzie: m4 – moment centralny rzędu czwartego. Kurtoza Im wyższa wartość współczynnika K, tym bardziej wysmukła jest krzywa liczebności, a zatem większa koncentracja wartości cech wokół średniej. Małe wartości wskazują natomiast na spłaszczenie rozkładu zbiorowości względem badanej cechy. Przyjmuje się, że jeżeli zbiorowość ma rozkład normalny, to K=3, bardziej spłaszczony rozkład od normalnego ma K<3, a bardziej wysmukły K>3. Z tego względu współczynnik koncentracji K podaje się w postaci: Dziękuję za uwagę