Chi-square (two samples)
Transkrypt
Chi-square (two samples)
Test Chi2 (2) Chi-square (two samples) Typowe zastosowanie Założenia Potrzebne dane Testowanie zgodności rozkładu danych w szeregu rozdzielczym (frekwencji) Każda klasa powinna wynosić co najmniej 5 obserwacji (nie dotyczy testu Monte Carlo i Testu Fishera) Dwie kolumny danych policzeniowych w różnych rzędach • Należy go używać w celu porównania rozkładów liczebności cech • W żadnej z cech nie powinno być mniej niż 5 przypadków Chi-square (two samples) Chi-square (two samples) • Opcja „sample vs. expected” powinna zostać zaznaczona, jeśli druga kolumna zawiera wartości pochodzące z rozkładu teoretycznego (wartości oczekiwane). Jeśli dane pochodzą z dwóch prób należy pozostawić okienko nie zaznaczone. Chi-square (two samples) Chi-square (two samples) • Opcja „one constraint” powinna zostać zaznaczona, jeśli druga kolumna zawiera dane znormalizowane w celu dopasowania ich do całkowitej liczby obserwacji, lub gdy obie próby zawierają takie same sumy (np. gdy dane są wartościami procentowymi). Opcja ta zmniejsza liczbę stopni swobody o 1. • Przy zaznaczeniu tej opcji pojawia się możliwość wykonania testu permutacji z 10 000 losowo permutowanych replik (sumy kolumn i rzędów pozostają bez zmian). Chi-square (two samples) Chi-square (two samples) • Kiedy zaznaczona jest opcja „One constraint” a tabela jest czteropolowa (2×2), możliwe jest obliczenie testu dokładności Fishera (dwustronnego). Jeśli jest dostępny, test dokładności Fishera jest znacznie silniejszy od testu 2 Chi-square (two samples) PRZYKŁADY Chi-square (two samples) • Mamy np. problem: – Dla próbki grocików, czy istnieje związek pomiędzy materiałem, z którego wykonany jest grocik, a faktem, że posiada on zadziory? Chi-square (two samples) • Dane muszą zostać zapisane w formie tablicy: materiał Żelazo Brąz zadziory brak obecność 20 0 20 9 11 20 29 11 40 Chi-square (two samples) • Hipoteza zerowa: – Brak związku pomiędzy materiałem, z którego wykonany jest grocik, a faktem, że posiada on zadziory Chi-square (two samples) Chi-square (two samples) • Im wyższa wartość statystyki (Chi^2) tym większy związek pomiędzy próbkami • p to obliczone prawdopodobieństwo popełnienia błędu I rodzaju (prawdopodobieństwo popełnienia pomyłki polegającej na odrzuceniu prawdziwej hipotezy zerowej) • Jeżeli p>0.05 przyjmujemy hipotezę zerową Chi-square (two samples) Chi-square (two samples) • W naszym przypadku p=9.8127*10-5=0.000098127 • p dla testu dokładności Fishera wynosi p=0.0001453 Chi-square (two samples) • W naszym przypadku p=9.8127*10-5=0.000098127 • p dla testu dokładności Fishera wynosi p=0.0001453 • Odrzucamy hipotezę zerową nawet na podstawie silniejszego testu Fishera, popełniając błąd I rodzaju równy p=0.0001453 (mamy 0.1453% szansy, że hipoteza zerowa jest prawdziwa) • Chcemy sprawdzić czy istnieje związek pomiędzy materiałem a chronologią, podzieloną umownie na 3 okresy. chronologia materiał Późny (50-399) Średni (400-799) Wczesny (800-1200) 0 3 17 20 żelazo 12 8 0 20 12 11 17 40 brąz • Chcemy sprawdzić czy istnieje związek pomiędzy wagą grobu ciałopalnego a możliwością określenia płci • Dane w pliku statystyka2.dat • Z materiału możemy usunąć groby dziecięce, ponieważ w nich nie identyfikowaliśmy płci – Usuwamy obiekty, w których płeć została określona jako „n.d.” („nie dotyczy”) • Przyjmijmy 4 klasy wagi grobu: – – – – 0-20 gram = bardzo małe 21-500 gram = małe 501-1500 gram = średnie >1500 gram = duże • Tworzymy tablicę rozdzielczą – Dla ułatwienia warto obiekty posortować wg wagi grobu Waga grobu płeć Mały (0.5-20) Średni (21-500) Duży (501-1500) B. duży >1500 Znana 0 2 9 4 15 Nieznana 21 12 16 5 54 21 14 25 9 69 • Wnioski? – 2 = 14.119 – p = 0.0027481 (p = 0.0022 przy poprawce Monte Carlo) PRACA DOMOWA Proszę znaleźć problem związany z archeologią, który można rozwiązać za pomocą testu 2 , zgromadzić dane (ewentualnie mogą być to dane fikcyjne), obliczyć test i podać wyniki z interpretacją