Chi-square (two samples)

Transkrypt

Chi-square (two samples)
Test Chi2 (2)
Chi-square (two samples)
Typowe zastosowanie
Założenia
Potrzebne dane
Testowanie zgodności
rozkładu danych w szeregu
rozdzielczym (frekwencji)
Każda klasa powinna
wynosić co najmniej 5
obserwacji (nie dotyczy testu
Monte Carlo i Testu Fishera)
Dwie kolumny danych
policzeniowych w różnych
rzędach
• Należy go używać w celu porównania rozkładów
liczebności cech
• W żadnej z cech nie powinno być mniej niż 5
przypadków
Chi-square (two samples)
Chi-square (two samples)
• Opcja „sample vs. expected” powinna zostać
zaznaczona, jeśli druga kolumna zawiera wartości
pochodzące z rozkładu teoretycznego (wartości
oczekiwane). Jeśli dane pochodzą z dwóch prób
należy pozostawić okienko nie zaznaczone.
Chi-square (two samples)
Chi-square (two samples)
• Opcja „one constraint” powinna zostać zaznaczona,
jeśli druga kolumna zawiera dane znormalizowane w
celu dopasowania ich do całkowitej liczby obserwacji,
lub gdy obie próby zawierają takie same sumy (np.
gdy dane są wartościami procentowymi). Opcja ta
zmniejsza liczbę stopni swobody o 1.
• Przy zaznaczeniu tej opcji pojawia się możliwość
wykonania testu permutacji z 10 000 losowo
permutowanych replik (sumy kolumn i rzędów
pozostają bez zmian).
Chi-square (two samples)
Chi-square (two samples)
• Kiedy zaznaczona jest opcja „One constraint” a tabela
jest czteropolowa (2×2), możliwe jest obliczenie testu
dokładności Fishera (dwustronnego). Jeśli jest
dostępny, test dokładności Fishera jest znacznie
silniejszy od testu 2
Chi-square (two samples)
PRZYKŁADY
Chi-square (two samples)
• Mamy np. problem:
– Dla próbki grocików, czy istnieje związek pomiędzy
materiałem, z którego wykonany jest grocik, a faktem, że
posiada on zadziory?
Chi-square (two samples)
• Dane muszą zostać zapisane w formie tablicy:
materiał
Żelazo
Brąz

zadziory

brak
obecność
20
0
20
9
11
20
29
11
40
Chi-square (two samples)
• Hipoteza zerowa:
– Brak związku pomiędzy materiałem, z którego wykonany
jest grocik, a faktem, że posiada on zadziory
Chi-square (two samples)
Chi-square (two samples)
• Im wyższa wartość statystyki (Chi^2) tym większy
związek pomiędzy próbkami
• p to obliczone prawdopodobieństwo popełnienia
błędu I rodzaju (prawdopodobieństwo popełnienia
pomyłki polegającej na odrzuceniu prawdziwej
hipotezy zerowej)
• Jeżeli p>0.05 przyjmujemy hipotezę zerową
Chi-square (two samples)
Chi-square (two samples)
• W naszym przypadku p=9.8127*10-5=0.000098127
• p dla testu dokładności Fishera wynosi p=0.0001453
Chi-square (two samples)
• W naszym przypadku p=9.8127*10-5=0.000098127
• p dla testu dokładności Fishera wynosi p=0.0001453
• Odrzucamy hipotezę zerową nawet na podstawie
silniejszego testu Fishera, popełniając błąd I
rodzaju równy p=0.0001453 (mamy 0.1453%
szansy, że hipoteza zerowa jest prawdziwa)
• Chcemy sprawdzić czy istnieje związek pomiędzy
materiałem a chronologią, podzieloną umownie na 3
okresy.
chronologia
materiał
Późny
(50-399)
Średni
(400-799)
Wczesny
(800-1200)

0
3
17
20
żelazo
12
8
0
20

12
11
17
40
brąz
• Chcemy sprawdzić czy istnieje związek pomiędzy
wagą grobu ciałopalnego a możliwością określenia
płci
• Dane w pliku statystyka2.dat
• Z materiału możemy usunąć groby dziecięce,
ponieważ w nich nie identyfikowaliśmy płci
– Usuwamy obiekty, w których płeć została określona jako
„n.d.” („nie dotyczy”)
• Przyjmijmy 4 klasy wagi grobu:
–
–
–
–
0-20 gram = bardzo małe
21-500 gram = małe
501-1500 gram = średnie
>1500 gram = duże
• Tworzymy tablicę rozdzielczą
– Dla ułatwienia warto obiekty posortować wg wagi grobu
Waga grobu
płeć
Mały
(0.5-20)
Średni
(21-500)
Duży
(501-1500)

B. duży
>1500
Znana
0
2
9
4
15
Nieznana
21
12
16
5
54

21
14
25
9
69
• Wnioski?
– 2 = 14.119
– p = 0.0027481 (p = 0.0022 przy poprawce Monte Carlo)
PRACA DOMOWA
Proszę znaleźć problem związany z
archeologią, który można rozwiązać za
pomocą testu 2 , zgromadzić dane
(ewentualnie mogą być to dane fikcyjne),
obliczyć test i podać wyniki z
interpretacją

Podobne dokumenty