Statystyka
Transkrypt
Statystyka
Statystyka dr Tomasz Giętkowski www.krajobraz.ukw.edu.pl wersja 20.01.2013/13:40 Tematyka wykładów 1. Definicja statystyki 2. Populacja, próba 3. Skale pomiarowe 4. Miary położenia (klasyczne i pozycyjne) 5. Miary rozproszenia: wariancja, odchylenie standardowe 6. Rozkład empiryczny (histogram, rodzaje rozkładów) 7. Prawidłowość statystyczna, prawo wielkich liczb Bernoulliego, Centralne twierdzenie graniczne 8. Rozkład normalny (warunki zaistnienia, standaryzacja zmiennej, reguła trzech sigm, obserwacje niewiarygodne) 9. Miary współzmienności dla danych w skali nominalnej (jakościowych) 10. Miary współzmienności dla danych w skali ilorazowej i przedziałowej 11. Regresja 12. Wnioskowanie statystyczne 13. Testy nieparametryczne (chi2, K-S) 14. Testy parametryczne (t-studenta) Przykładowe pytania 1. Definicja statystyki. 2. Czym zajmuje się statystyka? 3. Co nazywamy populacją? 4. Z poniżej podanych wybierz opis dotyczący populacji. 5. Jakie warunki musi spełniać prosta próba statystyczna? 6. Jakie skale pomiarowe można wyróżnić? 1 7. Przyporządkuj rodzaj skali do badanego zjawiska? 8. Podaj systematykę miar położenia. 9. Jaka jest różnica pomiędzy średnią arytmetyczną ma medianą? 10. Jaki rodzaj miary położenia należy zastosować do zebranych poniżej danych 11. Dlaczego wariancja jest miarą nieinterpretowalną? 12. Co pokazuje odchylenie standardowe? 13. Z wykresów poniżej wybierz histogram? 14. Jaki typ rozkładu prezentuje poniższy diagram? 15. Jakie są warunki wystąpienia prawidłowości statystycznej? 16. O czym mówi prawo wielkich liczb Bernoulliego? 17. Jakie warunki procesu muszą być spełnione aby jego obserwacje miały rozkład normalny? 18. Ile wynosi standaryzowana wartość średniej? 19. Podaj wartość standaryzowaną dla odchylenia standardowego. 20. Czego dotyczy reguła trzech sigm? 21. Czym są obserwacje niewiarygodne? Jakie kogą być ich przyczyny? 22. Podaj przykład tabeli wielodzielczej. 23. Czym są rozkłady brzegowe? 24. Jakimi miarami można ocenić korelację dla obserwacji w skalach nominalnych? 25. Jak konstruuje się wykres korelacyjny (rozrzutu)? 26. Jakimi miarami może ocenić korelację dla obserwacji w skalach ilorazowych i przedziałowych? 27. Opisz etapy obliczania współczynnika korelacji rang Spearmana. 28. Opisz krótko okoliczności powstania terminu regresja. 29. Czym jest regresja? 30. Jaka jest różnicą pomiędzy korelacją a regresją? 31. Na czym polega estymacja funkcji regresji? 32. Opisz krótko na czym polega metoda najmniejszych kwadratów (w aspekcie estymacji funkcji regresji)? 33. Czym jest współczynnik regresji? 34. Czym jest hipoteza statystyczna i jakie są jej rodzaje? 35. Jaką rolę pełni hipoteza zerowa? 36. Na podstawie przedstawionej hipotezy badawczej sformułuj hipotezę statystyczną. 2 37. Czym jest test statystyczny? 38. Jakie błędy można popełnić podczas weryfikacji hipotez, jak się nazywają? 39. Czym jest poziom istotności? 40. Co oznacza, że poziom istotności założony w teście wynosi alfa=0.05? 41. Przedstaw etapy wnioskowania statystycznego. 42. Czym jest poziom krytyczny (p-wartość), w jaki sposób na jego podstawie podejmuje się decyzję w teście statystycznym? 43. Czym jest obszar krytyczny? 44. Jaka jest decyzja w teście statystycznym , jeżeli wartość statystyki znajduje się w obszarze krytycznym? 45. Jakie warunki testu muszą być spełnione, aby można było zastosować test chi2? 46. Jakie warunki testu muszą być spełnione, aby można było zastosować test KołmogorowaSmirnowa? 47. Opisz warunki jakie muszą zaistnieć, aby można zastosować test t-studenta. 48. Jakie znasz rodzaje testu t-studenta? 49. Co oznacza, że dane są zależne? Przykładowe modele zadań zadania bez użycia komputera dane: 0.1 2.4 5.2 5.9 6.2 7.7 8.3 9.5 10.3 11.1 12.4 12.8 13.3 13.3 13.5 13.7 14.2 14.8 15.4 16.3 17.1 19.3 22.4 23.8 24.9 1. Dla przedstawionych danych oblicz: średnią arytmetyczną, medianę, wartość modalną oraz odchylenie standardowe. 2. Dla przedstawionych danych skonstruuj szereg rozdzielczy zawierający pięć klas. 3. Dla przedstawionych danych wykreśl histogram (przedstawiający częstość występowania wartości). Określ wstępnie jakim rozkładem charakteryzują się dane. 4. Wśród rolników przeprowadzono ankiety dotyczące nawadniania pól uprawnych. Okazało się, że średnio w roku zużywają na ten cel ilość wody, stanowiącą ekwiwalent 250 mm opadu. Rozrzut (odchyl. stand.) zużycia oszacowano na 47,8 mm. W związku z przewidywaną suszą, ustalono 3 dopuszczalny próg zużycia wody 300 mm w przeliczeniu na ekwiwalent opadu. Ponad ten próg rolnicy będę wnosili dodatkowe opłaty. Zadanie: Zakładając, że badane zjawisko ma rozkład normalny, oblicz: 1. Jaki odsetek rolników, chcąc utrzymać dotychczasowy sposób nawadniania będzie podlegało dodatkowym opłatom? 2. Jakie jest średnie zużycie wody w mm ekwiwalentu opadów, dla środkowych 50% gospodarstw? Polecam tablicę standardowego rozkładu normalnego (Z) dostępną na stronie: http://www.statsoft.pl/textbook/stathome_stat.html?http%3A%2F%2Fwww.statsoft.pl%2Ftextbook%2Fsttable.html zadania przy wykorzystaniu arkusza kalkulacyjnego: 5. W pewnym regionie zbadano 120 reprezentatywnych odcinków granicy leśno-polnej, pod kątem stopnia rozwinięcia okrajka* w zależności od utworów powierzchniowych, na których ta granica występuje. Uzyskano następujące wyniki. Zadanie: Za pomocą współczynnika C-Pearsona, określ czy istnieje i jak silna jest zależność pomiędzy rodzajem podłoża, a stopniem rozwinięcia okrajka. Pamiętaj, że wartości oczekiwane dla testu chi2, oblicza się poprzez mnożenie odpowiadających sobie liczebności brzegowych dla wiersza i kolumny, na których przecięciu znajduje się wartość empiryczna. Następnie otrzymany wynik należy pomnożyć przez liczbę obserwacji (w tym przypadku 140). Np. dla wartości 14, wartość oczekiwana wynosi po zaokrągleniu do całości 11. * forma roślinności, występująca zwykle na granicy lasu i łąki lub pola, przybierają postać ziołorośli lub festonów tworzonych przez pnącza. UWAGA! Polecenie może dotyczyć innych miar współzależności opartej na chi2. 4 6. W celu zweryfikowania przypuszczeń o powiązaniu ilości wody w korycie a stanie jej zanieczyszczenia, dokonano pomiarów zawartości azotynów przy różnym stanie wody w rzece. Wyniki zapisano tabeli: Zadania: Oceń siłę powiązania pomiędzy stanem wód a zawartością związku chemicznego. 7. Zbadano kilka większych wsi regionu pod kątem wykorzystania ich walorów dla potrzeb turystyki. Jako zmienne wykorzystano wskaźnik waloryzacji (od 0 do 100) oraz liczbę turystów w gospodarstwach agroturystycznych w sezonie letnim. Wyniki zapisano w tabeli: Zadania: Sprawdź, czy istnieje zależność pomiędzy oceną walorów wsi a liczbą turystów w sezonie. 5 zadania przy wykorzystaniu programu PAST: 8. Na 19 dopływach dwóch dużych rzek zbadano liczbę tam bobrowych i przeliczono ją na jednostkę długości cieków. Wyniki zapisano w tabeli: Zadanie Sprawdź czy te dwie zlewnie różnią się pod względem preferencji siedliskowych bobrów, przy założeniu poziomu istotności α = 0.05. 6 9. Na jednym z torfowisk rozstawiono 15 urządzeń do pomiaru głębokości zalegania poziomu wód gruntowych. Pomiary wykonano w kwietniu oraz lipcu. Wyniki zapisano w tabeli: Zadanie: Przy założeniu poziomu istotności α = 0.05 zweryfikuj przypuszczenie, że poziom wód w tych miesiącach był na torfowisku różny. 10. Dla sprawdzenia charakteru topoklimatu łąki oraz brzegu dużego jeziora (obiekty były niezbyt odległe) postawiano stacje rejestrujące temperaturę powietrza w tych miejscach. Temperaturę mierzono zawsze o godzinie 16:00. Następnie wybrano 12 dni w roku z podobnym typem pogody, charakterystycznym dla dobrze ustabilizowanej sytuacji wyżowej. Wyniki zapisano w tabeli: Zdanie: Przy założeniu poziomu istotności α = 0.05 zweryfikuj przypuszczenie, że topoklimat łąki oraz brzegu dużego jeziora jest różny. 7