Statystyka opisowa: tabularyczne i graficzne przedstawianie danych
Transkrypt
Statystyka opisowa: tabularyczne i graficzne przedstawianie danych
Statystyka opisowa: tabularyczne i graficzne przedstawianie danych, rozkład empiryczny cechy, miary położenia, centralne, rozproszenia, skośności, spłaszczenia Zmienne przedstawia się w postaci szeregów statystycznych, tj. ciągu wielkości statystycznych, pogrupowanych rosnąco lub malejąco według określonych kryteriów. Rodzaje szeregów statystycznych: 1. szczegółowy - uporządkowany ciąg wszystkich zmierzonych wartości badanej cechy 2. czasowy - uporządkowany wg czasu pomiaru ciąg wszystkich zmierzonych wartości badanej cechy 3. rozdzielczy a. z cechą jakościową (niemierzalną) b. z cechą ilościową (mierzalną) • punktowe (jednostopniowe) -do wartości dyskretnych proste skumulowane • przedziałowe (wielostopniowe) - do wartości ciągłych i dyskretnych proste skumulowane Szeregiem rozdzielczym danej cechy jest zestawienie dwóch kolumn. Pierwsza określa wielkość lub przedział wielkości badanej cechy od wartości najmniejszej do największej, druga liczbę obserwacji danej wielkości lub inny wskaźnik proporcjonalny do liczby obserwacji. Szeregiem rozdzielczym skumulowanym danej cechy skokowej jest zestawienie dwóch kolumn. Pierwsza określa wielkość lub przedział wielkości badanej cechy od wartości najmniejszej do największej, druga liczbę obserwacji lub inny wskaźnik proporcjonalny do liczby obserwacji danej wielkości i wielkości większych lub danej wielkości i wielkości mniejszych Przyk»ad 1. Mamy zbiór obserwacji różnorodności gatunkowej okrzemek pochodzący z przebadania 163 rdzeni osadów dennych Bałtyku (liczebność próby n=163). Są to zmienne dyskretne, gdyż zliczano tu liczbę różnych gatunków w rdzeniu. Pierwszym etapem analizy danych jest wykonanie szeregu rozdzielczego prostego (w skrócie nazywany szeregiem rozdzielczym) i kumulacyjnego Liczba gatunków xi Częstość ni 0 1 2 3 4 5 6 7 8 9 10 2 16 33 41 33 16 11 9 1 0 1 Częstość skumul. ni9 2 18 51 92 125 141 152 161 162 162 163 Częstość skumul. ni↑ 163 161 145 112 71 38 22 11 2 1 1 Częstość względna ni/n [%] 1,23 9,82 20,25 25,15 20,25 9,82 6,75 5,52 0,61 0,00 0,61 Częstość skumul. względna ni9/n [%] Częstość skumul. względna ni↑/n [%] 1,23 11,04 31,29 56,44 76,69 86,50 93,25 98,77 99,39 99,39 100,00 100,00 98,77 88,96 68,71 43,56 23,31 13,50 6,75 1,23 0,61 0,61 Przedstawiony powyżej przykład nosi nazwę szeregu rozdzielczego punktowego (jednostopniowego). Podobnie wygląda szereg rozdzielczy z cechą jakościową, tyle że zamiast wartości X podajemy kategorie jakościowe. W przypadku zmiennych ciąg»ych używa się szeregu rozdzielczego przedziałowego (wielostopniowego). Różnica polega na tym, że wartości cechy zostają zastąpione przedziałami wartości. Szereg przedziałowy możemy zastosować także w odniesieniu do cechy skokowej, jeżeli liczba zaobserwowanych wartości jest znaczna. Liczba gatunków xi +0 ; 2) +2 ; 4) +4 ; 6) +6 ; 8) +8 ; 10) +10 ; 12) Częstość 18 74 49 20 1 1 Częstość skumul. 18 92 141 161 162 163 Częstość względna 11,04 45,40 30,06 12,27 0,61 0,61 Częstość skumul. względna 11,04 56,44 86,50 98,77 99,39 100,00 Gęstość ni//∆x Gęstośc względna 9,0 37,0 24,5 10,0 0,5 0,5 5,520 22,700 15,030 6,135 0,305 0,305 Szeregi rozdzielcze dają odpowiedź na pytanie jak często w badanej zbiorowości występują określone wartości – opisują więc strukturę lub inaczej rozkład badanej cechy. Szeregi rozdzielcze przedstawiają rozkłady empiryczne badanych cech w próbie. Przy opracowywaniu szeregu przedziałowego wyłania się ważny problem określenia rozpiętości przedziałów i ich liczby. Ogólnie obowiązującą zasadą jest, że liczba przedziałów powinna być funkcją ilości obserwacji (im więcej obserwacji tym można wyznaczyć więcej przedziałów) Liczba przedziałów może być określona wzorami: r = 1 + 3,32 ⋅ log(n ) r ≤ 5 ⋅ log(n ) r= n gdzie: r - liczba przedzia»ów, n - liczba obserwacji, Przyjąwszy optymalną liczbę przedziałów ich rozpiętość można otrzymać, stosując wzór: x − xmin ∆x = max r gdzie: ∆x - rozpiętość przedziałów, xmin, xmax – minimalna i maksymalna zmierzona wartość cechy. Podane wzory mają charakter tylko wskazówek, a nie ścisłych zaleceń. Z każdego wzoru otrzymujemy różne Aoptymalne@ liczby przedziałów. Przy wyznaczaniu liczby i szerokości przedziałów należy brać pod uwagę następujące kryteria: • Liczba przedziałów nie może być ani zbyt mała, ani zbyt duża. Opracowanie danych zawsze wiąże się z pewną stratą informacji (uogólnieniem), która będzie poważna, jeżeli utworzymy małą liczbę przedziałów o dużej rozpiętości. Natomiast duża liczba wąskich przedziałów prowadzi do tego, że mamy ciągle do czynienia ze zbyt dużą ilością informacji, na podstawie których trudno wyobrazić sobie rozkład wartości. • Liczba obserwacji w poszczególnych przedziałach nie powinna być zbyt ma»»a. Postuluje się aby w większości klas ni$4, wynika z tego, że aby zbudować szereg przedziałowy należy dysponować odpowiednio dużą liczbą obserwacji. Trudno wyznaczać tu jakieś granice, można jednak przyjąć, że poniżej liczebności próby = 15 trudno zajmować się statystyką. • Ze względów praktycznych dobrze jest granice przedziałów określać liczbami Aokrągłymi@@, a takie mogą ze wzorów nie wynikać. Nie będzie zatem niewłaściwe pewne przesunięcie granic, w stosunku do tych, które wynikają z zaproponowanych wyżej wzorów. • Zazwyczaj wymagana jest równa rozpiętość wszystkich przedziałów Wykres słupkowy i krzywa częstości skumulowanej (≤ ) Wykres słupkowy i krzywa częstości 70 140 60 120 50 100 40 30 100 50 80 liczba obserwacji 60 20 40 10 20 względna częstość [%] 160 liczba obserwacji 80 mediana 0 [0;2) [2;4) [4;6) [6;8) zróżnicowanie gatunkowe [8;10) [10;12) 0 0 [0;2) [2;4) [4;6) [6;8) [8;10) [10;12) zróżnicowanie gatunkowe Empiryczny rozkład w próbie może być przedstawiony w formie WYKRESU SŁUPKOWEGO (HISTOGRAMU – jeśli dotyczy gęstości) lub KRZYWEJ CZĘSTOŚCI (GĘSTOŚCI) będących graficznym obrazem szeregu rozdzielczego prostego lub skumulowanego Wykres słupkowy otrzymujemy w ten sposób, że na osi odciętych zaznaczamy przedziały wartości cech i nad nimi budujemy prostokąty o wysokościach proporcjonalnych do liczebności, częstości lub gęstości dla danego przedziału. Suma wysokości słupków na wykresach częstości lub ich pól na wykresach gęstości jest równa liczebności próby (bądź 100% w przypadku wskaźników względnych). Krzywa częstości jest natomiast łamaną łączącą środki górnych krawędzi słupków, a w przypadku szeregu kumulacyjnego ich prawych lub lewych górnych rogów (w zależności od kierunku kumulacji). Im większa próba tym więcej węższych przedziałów, które dają coraz gładszy przebieg krzywej częstości czy gęstości (rozkład wartości w próbie) PRÓBA MAŁO LICZNA PRÓBA BARDZO LICZNA Istnieją różne typy rozkładów empirycznych. Najczęściej spotykane: A - C – rozkłady symetryczne – obserwacje są rozłożone równomiernie po obu stronach osi symetrii. Wartość cechy, przez którą przechodzi oś symetrii pełni tu rolę punktu centralnego, wokół którego znajduje się najwięcej obserwacji, a w miarę oddalania się od tej wartości liczba spostrzeżeń maleje. Rozkłady A, B i C różnią się stopniem skupienia wartości wokół wartości centralnej. B – najmniejsze skupienie – różne wartości występują z podobną częstością. C – największe skupienie, gwałtowny spadek częstości występowania wartości idąc od wartości dominujących w kierunku skrajnych D - I – rozkłady skośne (asymetryczne) rozkłady D - F są prawoskośne (z lewej strome, z prawej ukośne) - większość obserwacji grupuje się w przedziałach znajdujących się bliżej początku szeregu, czyli dużo elementów posiada stosunkowo niskie wartości cechy, natomiast niewiele jest obserwacji o wysokich wartościach rozkłady G – I są lewoskośne (z lewej ukośne, z prawej strome) – przedział klasowy zawierający największą liczbę obserwacji jest przesunięty w prawo, czyli stosunkowo niewiele jednostek posiada niskie wartości cechy, natomiast licznie występują te o wysokich wartościach Przedstawione rozkłady różnią się siłą asymetrii: D, G – umiarkowanie asymetryczne – punkt, wokół którego skupia się najwięcej obserwacji jest nieznacznie oddalony od środka rozkładu E, H – silnie asymetryczne F, I – skrajnie asymetryczne (j-kształtne) J – rozkład bimodalny, w którym można dostrzec dwa wyraźnie zarysowane punkty skupienia obserwacji Jest to najprostszy z przypadków rozkładów wielomodalnych, ktore często wskazują, że mamy do czynienia z elementami kilku różnych populacji lub populacją niejednorodną. Należy się zastanowić nad rozdzieleniem danych. K – rozkład u-kształtny (siodłowy) – posiada również dwa punkty skupienia obserwacji, znajdujące się na jego krańcach, co oznacza, że najbardziej liczebnie występują wartości skrajne L – rozkład równomierny – w którym wszystkie wartości występują z taką samą częstością Podstawowe charakterystyki rozkładu empirycznego Rozkłady mają pewne charakterystyki, które określają: 1. położenie wykresu lub określonych jego części wzdłuż osi x (miary położenia) 2. rozmieszczenie wartości zmiennej i jej przeciętne wartości (miary centralne) 3. zróżnicowanie wartości zmiennej, skupienie, spłaszczenie (miary rozproszenia i koncentracji) 4. symetrię rozkładu (miary symetrii) MIARY POŁOŻENIA kwartyle, kwantyle, centyle – wartości zmiennej, które dzielą zbiorowość na określone części pod względem liczby jednostek – wyznaczane z krzywej kumulacyjnej lub szeregu kumulacyjnego • kwartyl dolny Q1 - 25% wartości # Q1 # 75% wartości – PozQ1=0,25·(n+1) P(X<Q1)=25% i P(X>Q1)=75% • kwartyl dolny Q3 - 75% wartości # Q3 # 25% wartości – PozQ3=0,75·(n+1) P(X<Q3)=75% i P(X>Q3)=25% kwantyle dzielą powierzchnię na 5 równych części, centyle na 100, itd.. • • najpierw ustala się pozycję kwartyla, kwantyla, centyla Poz=p*(n+1) (p-część wartości leżących poniżej wyznaczanej wartości) następnie szereguje wartości od najmniejszej do największej i odczytuje tę stojącą w wyznaczonej pozycji – jeżeli pozycja wypada pomiędzy dwiema obserwacjami to liczy się wartość średnią z obu MIARY CENTRALNE średnia arytmetyczna (charakteryzuje średni poziom wartości zmiennej – wartość oczekiwana) ∑ x= n i =1 xi n gdzie: xi – zmierzona i-ta wartość, n – liczebność próby średnia ważona - stosowana aby pewnym pomiarom nadać większe znaczenie ∑ (x ⋅ w ) = ∑ w n xw i =1 i i n i =1 i gdzie: wi – waga dla i-tej wartości, średnia geometryczna – stosowana przy ocenie średniej zjawisk dynamicznych (średniego tempa zmian), gdzie interesuje badacza nie o ile coś się zmienia, a raczej ile razy n ∏x xg = n i i =1 = n x1 ⋅ x2 ⋅ ... ⋅ xn moda (Mo) - wartość występująca najczęściej - odczytywana z szeregu szczegółowego, rozdzielczego lub histogramu jako ta, której odpowiada największa liczebność Jeżeli histogram ma kilka „szczytów” mówimy, że jest wielomodalny (bimodalny, trimodalny …) – świadczy to o niejednorodności badanej zbiorowości W przypadku zmiennych ciągłych wartośc modalną zastępuje się przedziałem modalnym mediana (Md) - wartość środkowa (50% wartości nie mniejszych - $ - niż mediana i 50% nie większych - # - nió mediana) - odczytywana z krzywej kumulacyjnej lub szeregu kumulacyjnego • • najpierw ustala się pozycję mediany PozMd=0,5·(n+1) następnie szereguje wartości od najmniejszej do największej i odczytuje tę stojącą w wyznaczonej pozycji – jeżeli pozycja wypada pomiędzy dwiema obserwacjami to liczymy wartość średnią z obu MIARY ROZPROSZENIA (ZMIENNOŚCI) rozstęp – miara charakteryzująca cały obszar zmienności wartości badanej cechy R = xmax − xmin wariancja (s2) i odchylenie standardowe (s) - charakteryzuje średnie odchylenie wartości zmiennej od wartości średniej (s* - estymator obciążony, s – nieobciążony) ∑ (x n s = 2 * i i =1 n ∑ (x n s = 2 − x) 2 i =1 i − x) n −1 2 2 n n ⋅ ∑ x − ∑ xi i =1 i =1 , = 2 n n 2 i s* = s*2 2 n n ⋅ ∑ x − ∑ xi i =1 i =1 , = n ⋅ (n − 1) n s 2 = s*2 ⋅ n −1 n 2 i s = s2 im zbiorowość bardziej zróżnicowana tym większa wariancja i odchylenie standardowe, wspó»»czynnik zmiennoÑÑci – stosowana dla porównania rozproszenia dwóch prób o różnych średnich (na wartość odchylenia standardowego wpływ ma wartość średnia) s V = 100% ⋅ x odchylenie ćwiartkowe (rozstęp kwartylowy) IQR=Q3-Q1 MIARY SPŁASZCZENIA I SYMETRII kurtosis - miara spłaszczenia rozkładów symetrycznych, stosowana szczególnie często w geologii 1 n (xi − x )4 ∑ n K = i =1 4 s Im wyższa wartość tym bardziej wysmukły histogram W odniesieniu do kształtu rozkładu normalnego • K=3 jak w rozkładzie normalnym • K<3 rozkład bardziej spłaszczony niż rozkład normalny • K>3 rozkład bardziej wysmukły niż rozkład normalny skośność rozkładu 1 n (xi − x )3 ∑ n S k = i =1 3 s Im wartośc dalej od 0 tym większa skośność • Sk=0 symetryczny • Sk>0 prawo (dodatnio) skośny • Sk<0 lewo (ujemnie) skośny Istnieją też inne definicje skośności oparte na miarach pozycyjnych Wykorzystując miary centralne i miary rozproszenia rozkład badanej cechy można przedstawić graficznie w postaci wykresu „Skrzynki z wąsami” (Box and Wiskers) Wykres ramkowy Wykres ramkowy 18 1,1 xmax 16 xmax 0,9 14 x+s 0,7 12 0,5 10 x 8 Q3 0,3 x-s 6 Md Q1 0,1 4 xmin xmin -0,1 2 Statystyki (wskaźniki struktury) możemy ogólnie podzielić na dwa typy: • parametryczne (klasyczne) – obliczane na podstawie wszystkich obserwacji (wszelkie odmiany średniej, odchylenie standardowe, skośność, kurtoza) • nieparametryczne – wyznaczane na podstawie ich miejsca w szeregu lub częstotliwościi występowania (moda, mediana, kwartyle, kwantyle, centyle) Sens i interpretacja wskaźników struktury zależy od tego jak wygląda rozkład częstości. Miary położenia • mają sens w opisie zmiennych ilościowych • służą określeniu zakresu występowania wszystkich, lub określonej części wartości badanej cechy, • wartości kwartyli, kwantyli itd. podaje się często obok wartości ekstremalnych w przypadku rozkładów mocno skupionych (symetrycznych i skośnych) w celu rozdzielenia zakresu wartości często występujących i bardzo rzadkich • W rozkładach prawoskośnych Q1 leży bliżej Md niż Q3, a w lewoskośnych odwrotnie Miary centralne Wskazują wartości typowe, oczekiwane w większości sytuacji, przeciętne. Cechy róznych miar: Moda • łatwa do wskazania i interpretacji • gdy istnieje wyraźnie dominująca kategoria jest to najlepszy wskaźnik wartości typowych - może służyć jako prognoza obserwacji (spodziewana wartość cechy w losowej sytuacji) • gdy kilka kategorii charakteryzuje się podobną częstością występowania moda przestaje być dobrą miarą tendencji centralnej, gdyż jest podatna na losową zmienność próby (w różnych próbach z tej samej populacji, szczególnie przy ich niewielkiej liczebności może być różna) oraz sposób kategoryzacji (przy zmianie sposobu podziału danych na kategorie, związanym np. z zaokrąglaniem końców przedziałów, może się zmieniać) Mediana • Lepsza do opisu wartości typowych niż średnia arytmetyczna w przypadku: − rozkładów skośnych, gdyż leży bliżej wartości występujących najczęściej niż średnia arytmetyczna, − populacji o bardzo rzadko występujących wartościach ekstremalnych, gdyż jest mało podatna na zmiany wartości skrajnych w losowych próbach • Jej wadą jest mała stabilność, która jednak rośnie wraz ze wzrostem liczebności próby • Najlepsza do prognoz, gdy błąd szeregu prognoz określany jest jako suma bezwzględnych odchyleń wartości przewidywanych od rzeczywistych, gdyż ∑ xi − C = min, gdy C = Md gdzie C – dowolna stała Średnia arytmetyczna • Obliczana na podstawie wszystkich wartości, dlatego bardzo wrażliwa na zmiany wartości skrajnych, • Suma odchyleń od średniej jest zawsze równa 0 (odchylenia na plus muszą być zrównoważone przez odchylenia na minus) • Najlepsza do prognoz, gdy błąd szeregu prognoz określany jest jako suma kwadratów odchyleń wartości przewidywanych od rzeczywistych, gdyż ∑ (xi − C )2 = min, gdy C = x • • gdzie C – dowolna stała Jest bardziej stabilna niż mediana (rozrzut średnich policzonych z wielu prób pochodzących z tej samej populacji jest mniejszy niż rozrzut median) Leży dalej od dominanty niż mediana w rozkładach skośnych Miary rozproszenia Najczęściej wykorzystywane to: Odchylenie standardowe • charakteryzuje przeciętne odchylenie wartości od wartości średniej, • w obliczeniach ważna jest wielkość odchylenia a nie jego kierunek, stąd jego interpretacja łatwa jest tylko w przypadku rozkładów symetrycznych lub umiarkowanie skośnych, • zakres (x ± s ) przyjmuje się jako obszar typowej zmienności badanej cechy Odchylenie ćwiartkowe • szerokość przedziału, w którym leży 50% wartości najbliższych wartości środkowej • w przypadku rozkładów niesymetrycznych przedział (Q1; Q3) nie jest symetryczny względem mediany, ale lepiej oddaje obszar typowej zmienności badanej cechy, niż zakres (x ± s ) Generalna zasada: • Statystyki parametryczne wykorzystujemy najczęściej do opisu rozkładów o tendencji centralnej czyli takich, w których punkt skupienia znajduje się w środku rozkładu (symetryczne) lub w jego pobliżu (umiarkowanie asymetryczne) • Statystyki nieparametryczne można stosować do opisu każdego typu rozkładu, lecz są szczególnie przydatne w analizie szeregów silnie asymetrycznych i takich, w których nie posiadamy pełnych informacji o rozkładzie (są otwarte przedziały klasowe) Statystyki względne (współczynnik zmienności) stosujemy, gdy porównujemy rozkłady: • Różnych cech • Tej samej cechy w różnych zbiorowościach