Wykład 6 - Netstrefa.pl
Transkrypt
Wykład 6 - Netstrefa.pl
STATYSTYKA I DOŚ ŚWIADCZALNICTWO Wykłład 6 Test niezależ żnoś ści chi-kwadrat (χ2) Cel: ocena wystę ępowania zależ żnoś ści mię ędzy dwiema cechami jakoś ściowymi/skategoryzowanymi X- pierwsza cecha; Y – druga cecha Przykłłady cech jakoś ściowych/skategoryzowanych: - kolor (czerwony, różowy, biały) - grupa krwi (A, B, AB, 0) - cechy ilościowe wyrażone w postaci klas np. zawartość białka: niska, średnia, wysoka itp… Rozważając liczbę obserwacji sklasyfikowanych wg dwóch kryteriów, np. ludzi wg koloru oczu i koloru włosów (kolory oczu: brązowy, niebieski; kolory włosów: blondyni, szatyni, bruneci) lub np. rośliny pewnego gatunku wg odmiany i stopnia porażenia chorobą (odmiany: A, B, C itd..; stopień porażenia: brak, słaby, średni, duży, bardzo duży) w każdej z klas liczymy liczbę osobników i liczebności te możemy przedstawić w postaci tablicy dwudzielnej zwanej tablicą ą kontyngencji m – liczba klas cechy X; k – liczba klas cechy Y nij- obserwowana liczebność w danej podklasie cechy X i Y N- całkowita liczebność obserwacji Całkowita liczebność powinna być duża (N>30), natomiast liczebności w podklasach (nij) nie powinny być zerowe (wskazane by nij>5) H0: Cechy X i Y są ą niezależ żne Statystyka testowa: ntij - liczebność teoretyczna (oczekiwana, w przypadku gdy cechy X i Y są niezależne) ni• ; n•j – sumy liczebności dla poszczególnych klas cechy X i dla klas cechy Y Jeżeli χ2emp > χ2kryt to H0 odrzucamy, a wię ęc stwierdzamy, że cechy X i Y nie są ą niezależ żne, a wię ęc wystę ępuje miedzy nimi zwią ązek Χ2kryt= Χ2α;(m-1)(k-1) W programach statystycznych otrzymujemy w wyniku wartość p, powyższą hipotezę odrzucamy jeśli p<α Analiza skupień ń – wielowymiarowa klasyfikacja obiektów Metoda, a właściwie to zbiór metod pozwalających na grupowanie obiektów pod względem wielu cech jednocześnie. W przypadku dwóch lub trzech cech możliwe jest wskazanie obiektów podobnych do siebie na podstawie wartości tych cech (X, Y ewentualnie Z) na wykresie punktowym W przypadku grupowania cech pod względem więcej niż 3 cech (zmiennych) nie mam możliwości graficznego przedstawienia na wykresie wartości wszystkich cech. Możliwe jest natomiast określenie odległości między obiektami w przestrzeni wielowymiarowej Odległość Euklidesowa w przestrzeni o p wymiarach między dwoma obiektami: p d ( xi , xk ) = d ik = 2 ( x − x ) ∑ ij kj j =1 Xij; Xkj – wartości j-tej cechy dla obiektów i oraz k p – liczba cech/zmiennych Istnieją również inne miary określania odległości, np. odległość miejska (tzw. city block lub typu Manhattan) Ze względu na stosowanie różnych jednostek poszczególnych cech oraz różnych skal wartości, zwykle odległość między obiektami jest określana na podstawie zmiennych standaryzowanych Metody grupowania Hierarchiczne – pozwalają na łączenie obiektów w grupy z zachowaniem hierarchii, tzn. możemy określić na podstawie dendrogramu które obiekty w obrębie wydzielonych grup są podobne, a które bardziej odległe Wybrane metody aglomeracji (łączenia obiektów) w grupowaniu hierarchicznym: -Metoda najbliższego sąsiada - metoda najdalszego sąsiada - metoda Warda - metoda centroidów Niehierarchiczne – po zaliczeniu obiektu do danej grupy nie możemy powiedzieć, które z obiektów, które z obiektów w obrębie jednej grupy są bardziej podobne. Metodą niehierarchiczną jest metoda k-średnich Przykłładowy dendrogram, powstałł y jako wynik analizy skupień ń. Kreskowana linia czerwona przedstawia podziałł obiektów na 4 grupy. Istnieje dowolność ść w ustalaniu liczby grup, tak wię ęc moż żna obiekty podzielić ć na wię ększą ą lub tez mniejszą ą liczbę ę grup w zależ żnoś ści, od stawianych celów analizy Przykłady zastosowań: 1) Wydzielenie grup odmian jabłoni podobnych pod względem wielu cech np.: - koloru owoców (kolor musi być wyrażony ilościowo tzn. w postaci liczby np. w skali 5 stopniowej 1- zielony…. 5- czerwony) - wielkości owoców - szybkości wzrostu - wrażliwości na choroby itp. 2) Wydzielenie grup gmin podobnych pod względem wielu cech np.: - liczba mieszkańców - dochody w przeliczeniu na mieszkańca - stopa bezrobocia - udział powierzchni użytków rolnych, lasów, sadów -itp.