Statystyka opisowa

Transkrypt

Statystyka opisowa
Podstawowe pojęcia:
Badanie statystyczne - zespół czynności zmierzających do uzyskania za
pomocą metod statystycznych informacji charakteryzujących interesującą
nas zbiorowość (populację generalną)
Populacja generalna (populacja) - Zbiór jednostek wchodzących w skład
zbiorowości statystycznej będącej obiektem badania statystycznego
(drzewostan, drzewostany badanego nadleśnictwa, studenci SGGW,
samochody znajdujące się na parkingu przed wydziałem leśnym)
Populacja
Populacja skończona
zawiera skończoną
liczbę jednostek
statystycznych
Populacja nieskończona nieskończona liczba jednostek
statystycznych (hipotetyczna)
Jednostka statystyczna- Każdy element wchodzący w skład
populacji wyróżniany na podstawie określonej cechy
Populacja:
drzewostan
wszystkie drzewostany w Polsce
studenci wydziału leśnego
Jednostka statystyczna:
Pojedyncze drzewo
drzewostan
jeden student
Cecha
mierzalna (zmienna)
niemierzalna
Cecha mierzalna (zmienna) przyjmuje różne wartości w określonych
jednostkach miary (pierśnica, wysokość drzewa, długość włosów
studentów wl, liczba studentów w poszczególnych grupach
ćwiczeniowych)
Cecha niemierzalna (jakościowa) wyrażana jest słownie kolor
włosów studentów wl, barwa korony drzewa
Cecha mierzalna
ciągła
skokowa
Ciągła - zmienna, której wartości mogą być dowolnymi liczbami z danego
przedziału liczbowego (pierśnica, wysokość drzewa, długość włosów
studentów)
Skokowa - skończona liczba wartości (liczba studentów w
poszczególnych grupach )
Miary statystyczne
Szereg rozdzielczy
jest statystycznym sposobem prezentacji rozkładu empirycznego. Uzyskuje
się go dzieląc dane statystyczne na pewne kategorie i podając liczebność
lub częstość zbiorów danych przypadających na każdą z tych kategorii.
•Czytelność zbiorowości statystycznej
•Szybka orientacja w zakresie zmienności cechy
•Przystępność zbiorowości statystycznej
•„Ułatwiamy sobie życie”
Szereg rozdzielczy
•Liczba klas nie powinna być mniejsza od 6 i większa od 15
•Klasy powinny być tak ustalone, aby objęły wszystkie wartości zmiennej
•W miarę możliwości należy tworzyć klasy o jednakowej rozpiętości
•Środkami przedziałów klasowych powinny być liczby,
którymi łatwo operować
•Nie powinno być klas o liczebności równej zero
Zadanie
Utwórz szereg rozdzielczy i przedstaw go graficznie w
postaci histogramu dla cechy ....
(prowadzący przydzieli każdemu inną cechę z pliku
„dane.xls”).Przyjrzyj się wynikom i powiedz, czy szereg został
dobrze opracowany (kryteria budowy szeregu rozdzielczego).
spróbuj go udoskonalić.
Zwróćmy uwagę różne możliwe drogi wykonania histogramu w
„Statistice”.
Miary położenia
Miary położenia - informują nas o przeciętnej wartości zmiennej
średnia arytmetyczna (M) - najczęściej stosowana miara położenia,
właśnie ta miara jest zwana w skrócie średnią.
x1+x2+...+xn
n
=
1
n
Σxi
Mediana (Me) -wartość takiej jednostki, która dzieli uporządkowaną
zbiorowość statystyczną na dwie części równe pod względem liczebności
n+1
2
Modalna (Mo) - zwana również dominanta, jest wartością tej jednostki w
uporządkowanej zbiorowości, której odpowiada największa liczebność
Przybliżony wzór Paersona
Mo = M - 3(M - Me)
C = M - Me
c
3c
Mo
Me
M
Rozkład o asymetrii dodatniej
c
3c
M Me Mo
Rozkład o asymetrii ujemnej
Zadanie
Oblicz miary położenia dla swojej cechy .... :
Średnia
Suma
Mediana
Modalna
Miary zmienności
Wariancja – średnia arytmetyczna kwadratów odchyleń poszczególnych
wartości cechy od jej średniej arytmetycznej.
Wariancja informuje o tym, jak duże jest zróżnicowanie wyników w danym
zbiorze.
Wariancja jest podstawową miarą w większości testów statystycznych,
analiz. Najpopularniejsze analizy statystyczne posługują się tą miarą
statystyczną: np. analiza wariancji, analiza regresji. Ma zatem duże
znaczenie przy analizowaniu wyników badań.
Miary zmienności
Odchylenie standardowe - pierwiastek kwadratowy z wariancji. Określa
stopień skupienia wartości zmiennej wokół średniej arytmetycznej.
Mniejszemu odchyleniu standardowemu odpowiada większy stopień
skupienia wartości zmiennej wokół średniej.
Współczynnik zmienności - Współczynnik zmienności informuje nas o
zmienności wyników, obserwacji w odniesieniu do "wielkości średniej„.
Pozwala na porównywanie zmienności różnych cech, ponieważ w
odróżnieniu od innych miar zmienności jest wyrażany w wartościach
procentowych.
Miary asymetrii
Skośność (współczynnik skośności) informuje nas o tym jak wyniki dla
danej zmiennej kształtują się wokół średniej. Czy większość
zaobserwowanych wyników jest z lewej strony średniej, blisko wartości
średniej czy z prawej strony średniej? Innymi słowy, czy w naszym zbiorze
obserwacji więcej jest wyników, które są niższe niż średnia dla całej grupy,
wyższe czy równe średniej?
Współczynnik skośności gdy przyjmuje wartość bliską 0 świadczy o braku
asymetrii wyników. Współczynnik skośności powyżej 0 świadczy o
prawostronnej asymetrii rozkładu (inaczej nazywanym rozkładem dodatnio
skośnym), a wyniki poniżej 0 świadczą o lewostronnej asymetrii rozkładu
(inaczej nazwanym ujemno skośnym rozkładem).
Miara koncentracji
Kurtoza - informuje nas o tym, na ile nasze obserwacje, wyniki są skoncentrowane
wokół średniej.
Jeżeli występuje znaczna koncentracja wyników wokół średniej (kurtoza przyjmuje
wartość powyżej 0). Jeżeli występuje słaba koncentracja wyników wokół średniej
(kurtoza przyjmuje wartość poniżej 0).
Kurtozę możemy również wyjaśnić "od drugiej strony". Jeżeli kurtoza jest niska
(poniżej zera) to w zbiorze danych możemy zaobserwować większą liczbę wyników
skrajnych (znacznie oddalonych od średniej), gdy kurtoza jest wyższa tym liczba
takich obserwacji maleje.
Zadanie
Oblicz miary zmienności, asymetrii i koncentracji dla swojej
cechy .... :
Wariancja
Odchylenie standardowe
Współczynnik zmienności
Współczynnik skośności
Kurtoza
Pozostałe miary
Kwartyle dzielą wszystkie nasze obserwacje na cztery równe co do ilości obserwacji
grupy.
Kwartyl pierwszy (dolny) dzieli obserwacje w stosunku 25% - 75%, co oznacza, że
25% obserwacji jest niższa bądź równa wartości I-ego kwartyla, a 75% obserwacji
jest równa bądź większa niż wartość I-ego kwartyla
Kwartyl drugi (środkowy), inaczej zwany medianą dzieli obserwacje na dwie części
w stosunku 50%-50%.
Kwartyl trzeci (górny) dzieli obserwacje w stosunku 75% - 25%, co oznacza, że 75%
obserwacji jest niższa bądź równa wartości III-ego kwartyla, a 25% obserwacji jest
równa bądź większa niż wartość III-ego kwartyla.
Rozstęp - różnica między największą i najmniejszą wartością cechy:
R = Xmax - Xmin
Pozostałe miary
Błąd standardowy - danej statystyki (miary, np. średniej) to odchylenie
standardowe rozkładu tej wartości z prób.
Przykład: Badacz chciał sprawdzić jaki jest średni wzrost w populacji mężczyzn w
wieku 25-30 lat. Aby uzyskać dokładną wartość średniego wzrostu w populacji
badacz musiałby przebadać wszystkich mężczyzn w tym wieku. Badacz chciał
estymować prawdziwą wartość średniego wzrostu w tej populacji na podstawie próby
100 mężczyzn. Średni wzrost w jego próbie wyniósł 178,9 cm. Średnia z próby (z
jednego badania) stanowi estymator (przybliżenie) wartości prawdziwej w populacji.
Jeżeli badacz przeprowadziłby wielokrotnie takie badanie, dla każdej z prób (dla
każdego z badania) otrzymałby jakiś średni wynik. Za każdym razem ten wynik
byłby "przybliżeniem" prawdziwej średniej wartości wzrostu. Błąd standardowy jest
miarą zróżnicowania tych średnich z prób, z kolejnych badań, czyli na ile nasz
estymowany (w populacji) średni wynik zmienia się w poszczególnych próbach.
Pozostałe miary
Błąd standardowy - danej statystyki (miary, np. średniej) to odchylenie
standardowe rozkładu tej wartości z prób.
Im błąd standardowy jest mniejszy tym dokładniej przewidywany jest dany parametr,
miara, statystyka. Błąd standardowy uzależniony jest od wielkości zróżnicowania
(wariancji) danej cechy. Jeżeli nasza cecha charakteryzuje się dużą zmiennością
(wariancją) tym nasze oszacowanie prawdziwej wartości będzie mniej dokładne.
Zadanie
Oblicz pozostałe dla swojej cechy .... :
Dolny i górny kwartyl
Rozstęp
Wykonaj wykres „ramka-wąsy” dla:
Mediana/kwartyle/rozstęp
Średnia/błąd standardowy/odchylenie standardowe