Statystyka opisowa
Transkrypt
Statystyka opisowa
Podstawowe pojęcia: Badanie statystyczne - zespół czynności zmierzających do uzyskania za pomocą metod statystycznych informacji charakteryzujących interesującą nas zbiorowość (populację generalną) Populacja generalna (populacja) - Zbiór jednostek wchodzących w skład zbiorowości statystycznej będącej obiektem badania statystycznego (drzewostan, drzewostany badanego nadleśnictwa, studenci SGGW, samochody znajdujące się na parkingu przed wydziałem leśnym) Populacja Populacja skończona zawiera skończoną liczbę jednostek statystycznych Populacja nieskończona nieskończona liczba jednostek statystycznych (hipotetyczna) Jednostka statystyczna- Każdy element wchodzący w skład populacji wyróżniany na podstawie określonej cechy Populacja: drzewostan wszystkie drzewostany w Polsce studenci wydziału leśnego Jednostka statystyczna: Pojedyncze drzewo drzewostan jeden student Cecha mierzalna (zmienna) niemierzalna Cecha mierzalna (zmienna) przyjmuje różne wartości w określonych jednostkach miary (pierśnica, wysokość drzewa, długość włosów studentów wl, liczba studentów w poszczególnych grupach ćwiczeniowych) Cecha niemierzalna (jakościowa) wyrażana jest słownie kolor włosów studentów wl, barwa korony drzewa Cecha mierzalna ciągła skokowa Ciągła - zmienna, której wartości mogą być dowolnymi liczbami z danego przedziału liczbowego (pierśnica, wysokość drzewa, długość włosów studentów) Skokowa - skończona liczba wartości (liczba studentów w poszczególnych grupach ) Miary statystyczne Szereg rozdzielczy jest statystycznym sposobem prezentacji rozkładu empirycznego. Uzyskuje się go dzieląc dane statystyczne na pewne kategorie i podając liczebność lub częstość zbiorów danych przypadających na każdą z tych kategorii. •Czytelność zbiorowości statystycznej •Szybka orientacja w zakresie zmienności cechy •Przystępność zbiorowości statystycznej •„Ułatwiamy sobie życie” Szereg rozdzielczy •Liczba klas nie powinna być mniejsza od 6 i większa od 15 •Klasy powinny być tak ustalone, aby objęły wszystkie wartości zmiennej •W miarę możliwości należy tworzyć klasy o jednakowej rozpiętości •Środkami przedziałów klasowych powinny być liczby, którymi łatwo operować •Nie powinno być klas o liczebności równej zero Zadanie Utwórz szereg rozdzielczy i przedstaw go graficznie w postaci histogramu dla cechy .... (prowadzący przydzieli każdemu inną cechę z pliku „dane.xls”).Przyjrzyj się wynikom i powiedz, czy szereg został dobrze opracowany (kryteria budowy szeregu rozdzielczego). spróbuj go udoskonalić. Zwróćmy uwagę różne możliwe drogi wykonania histogramu w „Statistice”. Miary położenia Miary położenia - informują nas o przeciętnej wartości zmiennej średnia arytmetyczna (M) - najczęściej stosowana miara położenia, właśnie ta miara jest zwana w skrócie średnią. x1+x2+...+xn n = 1 n Σxi Mediana (Me) -wartość takiej jednostki, która dzieli uporządkowaną zbiorowość statystyczną na dwie części równe pod względem liczebności n+1 2 Modalna (Mo) - zwana również dominanta, jest wartością tej jednostki w uporządkowanej zbiorowości, której odpowiada największa liczebność Przybliżony wzór Paersona Mo = M - 3(M - Me) C = M - Me c 3c Mo Me M Rozkład o asymetrii dodatniej c 3c M Me Mo Rozkład o asymetrii ujemnej Zadanie Oblicz miary położenia dla swojej cechy .... : Średnia Suma Mediana Modalna Miary zmienności Wariancja – średnia arytmetyczna kwadratów odchyleń poszczególnych wartości cechy od jej średniej arytmetycznej. Wariancja informuje o tym, jak duże jest zróżnicowanie wyników w danym zbiorze. Wariancja jest podstawową miarą w większości testów statystycznych, analiz. Najpopularniejsze analizy statystyczne posługują się tą miarą statystyczną: np. analiza wariancji, analiza regresji. Ma zatem duże znaczenie przy analizowaniu wyników badań. Miary zmienności Odchylenie standardowe - pierwiastek kwadratowy z wariancji. Określa stopień skupienia wartości zmiennej wokół średniej arytmetycznej. Mniejszemu odchyleniu standardowemu odpowiada większy stopień skupienia wartości zmiennej wokół średniej. Współczynnik zmienności - Współczynnik zmienności informuje nas o zmienności wyników, obserwacji w odniesieniu do "wielkości średniej„. Pozwala na porównywanie zmienności różnych cech, ponieważ w odróżnieniu od innych miar zmienności jest wyrażany w wartościach procentowych. Miary asymetrii Skośność (współczynnik skośności) informuje nas o tym jak wyniki dla danej zmiennej kształtują się wokół średniej. Czy większość zaobserwowanych wyników jest z lewej strony średniej, blisko wartości średniej czy z prawej strony średniej? Innymi słowy, czy w naszym zbiorze obserwacji więcej jest wyników, które są niższe niż średnia dla całej grupy, wyższe czy równe średniej? Współczynnik skośności gdy przyjmuje wartość bliską 0 świadczy o braku asymetrii wyników. Współczynnik skośności powyżej 0 świadczy o prawostronnej asymetrii rozkładu (inaczej nazywanym rozkładem dodatnio skośnym), a wyniki poniżej 0 świadczą o lewostronnej asymetrii rozkładu (inaczej nazwanym ujemno skośnym rozkładem). Miara koncentracji Kurtoza - informuje nas o tym, na ile nasze obserwacje, wyniki są skoncentrowane wokół średniej. Jeżeli występuje znaczna koncentracja wyników wokół średniej (kurtoza przyjmuje wartość powyżej 0). Jeżeli występuje słaba koncentracja wyników wokół średniej (kurtoza przyjmuje wartość poniżej 0). Kurtozę możemy również wyjaśnić "od drugiej strony". Jeżeli kurtoza jest niska (poniżej zera) to w zbiorze danych możemy zaobserwować większą liczbę wyników skrajnych (znacznie oddalonych od średniej), gdy kurtoza jest wyższa tym liczba takich obserwacji maleje. Zadanie Oblicz miary zmienności, asymetrii i koncentracji dla swojej cechy .... : Wariancja Odchylenie standardowe Współczynnik zmienności Współczynnik skośności Kurtoza Pozostałe miary Kwartyle dzielą wszystkie nasze obserwacje na cztery równe co do ilości obserwacji grupy. Kwartyl pierwszy (dolny) dzieli obserwacje w stosunku 25% - 75%, co oznacza, że 25% obserwacji jest niższa bądź równa wartości I-ego kwartyla, a 75% obserwacji jest równa bądź większa niż wartość I-ego kwartyla Kwartyl drugi (środkowy), inaczej zwany medianą dzieli obserwacje na dwie części w stosunku 50%-50%. Kwartyl trzeci (górny) dzieli obserwacje w stosunku 75% - 25%, co oznacza, że 75% obserwacji jest niższa bądź równa wartości III-ego kwartyla, a 25% obserwacji jest równa bądź większa niż wartość III-ego kwartyla. Rozstęp - różnica między największą i najmniejszą wartością cechy: R = Xmax - Xmin Pozostałe miary Błąd standardowy - danej statystyki (miary, np. średniej) to odchylenie standardowe rozkładu tej wartości z prób. Przykład: Badacz chciał sprawdzić jaki jest średni wzrost w populacji mężczyzn w wieku 25-30 lat. Aby uzyskać dokładną wartość średniego wzrostu w populacji badacz musiałby przebadać wszystkich mężczyzn w tym wieku. Badacz chciał estymować prawdziwą wartość średniego wzrostu w tej populacji na podstawie próby 100 mężczyzn. Średni wzrost w jego próbie wyniósł 178,9 cm. Średnia z próby (z jednego badania) stanowi estymator (przybliżenie) wartości prawdziwej w populacji. Jeżeli badacz przeprowadziłby wielokrotnie takie badanie, dla każdej z prób (dla każdego z badania) otrzymałby jakiś średni wynik. Za każdym razem ten wynik byłby "przybliżeniem" prawdziwej średniej wartości wzrostu. Błąd standardowy jest miarą zróżnicowania tych średnich z prób, z kolejnych badań, czyli na ile nasz estymowany (w populacji) średni wynik zmienia się w poszczególnych próbach. Pozostałe miary Błąd standardowy - danej statystyki (miary, np. średniej) to odchylenie standardowe rozkładu tej wartości z prób. Im błąd standardowy jest mniejszy tym dokładniej przewidywany jest dany parametr, miara, statystyka. Błąd standardowy uzależniony jest od wielkości zróżnicowania (wariancji) danej cechy. Jeżeli nasza cecha charakteryzuje się dużą zmiennością (wariancją) tym nasze oszacowanie prawdziwej wartości będzie mniej dokładne. Zadanie Oblicz pozostałe dla swojej cechy .... : Dolny i górny kwartyl Rozstęp Wykonaj wykres „ramka-wąsy” dla: Mediana/kwartyle/rozstęp Średnia/błąd standardowy/odchylenie standardowe