Statystyka

Transkrypt

Statystyka
Statystyka
dr Tomasz Giętkowski
www.krajobraz.ukw.edu.pl
wersja 20.01.2013/13:40
Tematyka wykładów
1. Definicja statystyki
2. Populacja, próba
3. Skale pomiarowe
4. Miary położenia (klasyczne i pozycyjne)
5. Miary rozproszenia: wariancja, odchylenie standardowe
6. Rozkład empiryczny (histogram, rodzaje rozkładów)
7. Prawidłowość statystyczna, prawo wielkich liczb Bernoulliego, Centralne twierdzenie
graniczne
8. Rozkład normalny (warunki zaistnienia, standaryzacja zmiennej, reguła trzech sigm, obserwacje
niewiarygodne)
9. Miary współzmienności dla danych w skali nominalnej (jakościowych)
10. Miary współzmienności dla danych w skali ilorazowej i przedziałowej
11. Regresja
12. Wnioskowanie statystyczne
13. Testy nieparametryczne (chi2, K-S)
14. Testy parametryczne (t-studenta)
Przykładowe pytania
1. Definicja statystyki.
2. Czym zajmuje się statystyka?
3. Co nazywamy populacją?
4. Z poniżej podanych wybierz opis dotyczący populacji.
5. Jakie warunki musi spełniać prosta próba statystyczna?
6. Jakie skale pomiarowe można wyróżnić?
1
7. Przyporządkuj rodzaj skali do badanego zjawiska?
8. Podaj systematykę miar położenia.
9. Jaka jest różnica pomiędzy średnią arytmetyczną ma medianą?
10. Jaki rodzaj miary położenia należy zastosować do zebranych poniżej danych
11. Dlaczego wariancja jest miarą nieinterpretowalną?
12. Co pokazuje odchylenie standardowe?
13. Z wykresów poniżej wybierz histogram?
14. Jaki typ rozkładu prezentuje poniższy diagram?
15. Jakie są warunki wystąpienia prawidłowości statystycznej?
16. O czym mówi prawo wielkich liczb Bernoulliego?
17. Jakie warunki procesu muszą być spełnione aby jego obserwacje miały rozkład normalny?
18. Ile wynosi standaryzowana wartość średniej?
19. Podaj wartość standaryzowaną dla odchylenia standardowego.
20. Czego dotyczy reguła trzech sigm?
21. Czym są obserwacje niewiarygodne? Jakie kogą być ich przyczyny?
22. Podaj przykład tabeli wielodzielczej.
23. Czym są rozkłady brzegowe?
24. Jakimi miarami można ocenić korelację dla obserwacji w skalach nominalnych?
25. Jak konstruuje się wykres korelacyjny (rozrzutu)?
26. Jakimi miarami może ocenić korelację dla obserwacji w skalach ilorazowych i przedziałowych?
27. Opisz etapy obliczania współczynnika korelacji rang Spearmana.
28. Opisz krótko okoliczności powstania terminu regresja.
29. Czym jest regresja?
30. Jaka jest różnicą pomiędzy korelacją a regresją?
31. Na czym polega estymacja funkcji regresji?
32. Opisz krótko na czym polega metoda najmniejszych kwadratów (w aspekcie estymacji funkcji
regresji)?
33. Czym jest współczynnik regresji?
34. Czym jest hipoteza statystyczna i jakie są jej rodzaje?
35. Jaką rolę pełni hipoteza zerowa?
36. Na podstawie przedstawionej hipotezy badawczej sformułuj hipotezę statystyczną.
2
37. Czym jest test statystyczny?
38. Jakie błędy można popełnić podczas weryfikacji hipotez, jak się nazywają?
39. Czym jest poziom istotności?
40. Co oznacza, że poziom istotności założony w teście wynosi alfa=0.05?
41. Przedstaw etapy wnioskowania statystycznego.
42. Czym jest poziom krytyczny (p-wartość), w jaki sposób na jego podstawie podejmuje się
decyzję w teście statystycznym?
43. Czym jest obszar krytyczny?
44. Jaka jest decyzja w teście statystycznym , jeżeli wartość statystyki znajduje się w obszarze
krytycznym?
45. Jakie warunki testu muszą być spełnione, aby można było zastosować test chi2?
46. Jakie warunki testu muszą być spełnione, aby można było zastosować test KołmogorowaSmirnowa?
47. Opisz warunki jakie muszą zaistnieć, aby można zastosować test t-studenta.
48. Jakie znasz rodzaje testu t-studenta?
49. Co oznacza, że dane są zależne?
Przykładowe modele zadań
zadania bez użycia komputera
dane:
0.1
2.4
5.2
5.9
6.2
7.7
8.3
9.5 10.3 11.1 12.4 12.8 13.3 13.3 13.5 13.7 14.2 14.8 15.4 16.3 17.1 19.3 22.4 23.8 24.9
1. Dla przedstawionych danych oblicz: średnią arytmetyczną, medianę, wartość modalną oraz
odchylenie standardowe.
2. Dla przedstawionych danych skonstruuj szereg rozdzielczy zawierający pięć klas.
3. Dla przedstawionych danych wykreśl histogram (przedstawiający częstość występowania wartości).
Określ wstępnie jakim rozkładem charakteryzują się dane.
4. Wśród rolników przeprowadzono ankiety dotyczące nawadniania pól uprawnych. Okazało się, że
średnio w roku zużywają na ten cel ilość wody, stanowiącą ekwiwalent 250 mm opadu. Rozrzut
(odchyl. stand.) zużycia oszacowano na 47,8 mm. W związku z przewidywaną suszą, ustalono
3
dopuszczalny próg zużycia wody 300 mm w przeliczeniu na ekwiwalent opadu. Ponad ten próg rolnicy
będę wnosili dodatkowe opłaty.
Zadanie:
Zakładając, że badane zjawisko ma rozkład normalny, oblicz:
1. Jaki odsetek rolników, chcąc utrzymać dotychczasowy sposób nawadniania będzie podlegało
dodatkowym opłatom?
2. Jakie jest średnie zużycie wody w mm ekwiwalentu opadów, dla środkowych 50%
gospodarstw?
Polecam tablicę standardowego rozkładu normalnego (Z) dostępną na stronie:
http://www.statsoft.pl/textbook/stathome_stat.html?http%3A%2F%2Fwww.statsoft.pl%2Ftextbook%2Fsttable.html
zadania przy wykorzystaniu arkusza kalkulacyjnego:
5. W pewnym regionie zbadano 120 reprezentatywnych odcinków granicy leśno-polnej, pod kątem
stopnia rozwinięcia okrajka* w zależności od utworów powierzchniowych, na których ta granica
występuje. Uzyskano następujące wyniki.
Zadanie:
Za pomocą współczynnika C-Pearsona, określ czy istnieje i jak silna jest zależność pomiędzy rodzajem
podłoża, a stopniem rozwinięcia okrajka.
Pamiętaj, że wartości oczekiwane dla testu chi2, oblicza się poprzez mnożenie odpowiadających sobie liczebności
brzegowych dla wiersza i kolumny, na których przecięciu znajduje się wartość empiryczna. Następnie otrzymany wynik
należy pomnożyć przez liczbę obserwacji (w tym przypadku 140). Np. dla wartości 14, wartość oczekiwana wynosi po
zaokrągleniu do całości 11.
* forma roślinności, występująca zwykle na granicy lasu i łąki lub pola, przybierają postać ziołorośli lub festonów tworzonych przez
pnącza.
UWAGA! Polecenie może dotyczyć innych miar współzależności opartej na chi2.
4
6. W celu zweryfikowania przypuszczeń o powiązaniu ilości wody w korycie a stanie jej
zanieczyszczenia, dokonano pomiarów zawartości azotynów przy różnym stanie wody w rzece. Wyniki
zapisano tabeli:
Zadania:
Oceń siłę powiązania pomiędzy stanem wód a zawartością związku chemicznego.
7. Zbadano kilka większych wsi regionu pod kątem wykorzystania ich walorów dla potrzeb turystyki.
Jako zmienne wykorzystano wskaźnik waloryzacji (od 0 do 100) oraz liczbę turystów w
gospodarstwach agroturystycznych w sezonie letnim. Wyniki zapisano w tabeli:
Zadania:
Sprawdź, czy istnieje zależność pomiędzy oceną walorów wsi a liczbą turystów w sezonie.
5
zadania przy wykorzystaniu programu PAST:
8. Na 19 dopływach dwóch dużych rzek zbadano liczbę tam bobrowych i przeliczono ją na jednostkę
długości cieków. Wyniki zapisano w tabeli:
Zadanie
Sprawdź czy te dwie zlewnie różnią się pod
względem preferencji siedliskowych bobrów,
przy założeniu poziomu istotności α = 0.05.
6
9. Na jednym z torfowisk rozstawiono 15 urządzeń do pomiaru głębokości zalegania poziomu wód
gruntowych. Pomiary wykonano w kwietniu oraz lipcu. Wyniki zapisano w tabeli:
Zadanie:
Przy założeniu poziomu
istotności α = 0.05 zweryfikuj
przypuszczenie, że poziom wód
w tych miesiącach był na
torfowisku różny.
10. Dla sprawdzenia charakteru topoklimatu łąki oraz brzegu dużego jeziora (obiekty były niezbyt
odległe) postawiano stacje rejestrujące temperaturę powietrza w tych miejscach. Temperaturę
mierzono zawsze o godzinie 16:00. Następnie wybrano 12 dni w roku z podobnym typem pogody,
charakterystycznym dla dobrze ustabilizowanej sytuacji wyżowej. Wyniki zapisano w tabeli:
Zdanie:
Przy założeniu poziomu istotności α = 0.05
zweryfikuj przypuszczenie, że topoklimat łąki
oraz brzegu dużego jeziora jest różny.
7