Wykład 6 - Netstrefa.pl

Transkrypt

Wykład 6 - Netstrefa.pl
STATYSTYKA I DOŚ
ŚWIADCZALNICTWO
Wykłład 6
Test niezależ
żnoś
ści chi-kwadrat (χ2)
Cel: ocena wystę
ępowania zależ
żnoś
ści mię
ędzy dwiema cechami
jakoś
ściowymi/skategoryzowanymi
X- pierwsza cecha; Y – druga cecha
Przykłłady cech jakoś
ściowych/skategoryzowanych:
- kolor (czerwony, różowy, biały)
- grupa krwi (A, B, AB, 0)
- cechy ilościowe wyrażone w postaci klas np. zawartość białka: niska, średnia, wysoka
itp…
Rozważając liczbę obserwacji sklasyfikowanych wg dwóch kryteriów, np. ludzi
wg koloru oczu i koloru włosów (kolory oczu: brązowy, niebieski; kolory
włosów: blondyni, szatyni, bruneci) lub np. rośliny pewnego gatunku wg
odmiany i stopnia porażenia chorobą (odmiany: A, B, C itd..; stopień porażenia:
brak, słaby, średni, duży, bardzo duży) w każdej z klas liczymy liczbę
osobników i liczebności te możemy przedstawić w postaci tablicy dwudzielnej
zwanej tablicą
ą kontyngencji
m – liczba klas cechy X;
k – liczba klas cechy Y
nij- obserwowana liczebność w danej podklasie cechy X i Y
N- całkowita liczebność obserwacji
Całkowita liczebność powinna być duża (N>30), natomiast liczebności w
podklasach (nij) nie powinny być zerowe (wskazane by nij>5)
H0: Cechy X i Y są
ą niezależ
żne
Statystyka testowa:
ntij - liczebność teoretyczna (oczekiwana, w przypadku gdy cechy X i Y są niezależne)
ni• ; n•j – sumy liczebności dla poszczególnych klas cechy X i dla klas cechy Y
Jeżeli χ2emp > χ2kryt to H0 odrzucamy, a wię
ęc stwierdzamy, że cechy X i Y nie są
ą
niezależ
żne, a wię
ęc wystę
ępuje miedzy nimi zwią
ązek
Χ2kryt= Χ2α;(m-1)(k-1)
W programach statystycznych otrzymujemy w wyniku wartość p, powyższą hipotezę odrzucamy jeśli p<α
Analiza skupień
ń – wielowymiarowa klasyfikacja obiektów
Metoda, a właściwie to zbiór metod pozwalających na grupowanie
obiektów pod względem wielu cech jednocześnie.
W przypadku dwóch lub trzech cech możliwe jest wskazanie
obiektów podobnych do siebie na podstawie wartości tych cech (X,
Y ewentualnie Z) na wykresie punktowym
W przypadku grupowania cech pod względem więcej niż 3 cech
(zmiennych) nie mam możliwości graficznego przedstawienia na
wykresie wartości wszystkich cech. Możliwe jest natomiast
określenie odległości między obiektami w przestrzeni
wielowymiarowej
Odległość Euklidesowa w przestrzeni o p wymiarach między
dwoma obiektami:
p
d ( xi , xk ) = d ik =
2
(
x
−
x
)
∑ ij kj
j =1
Xij; Xkj – wartości j-tej cechy dla obiektów i oraz k
p – liczba cech/zmiennych
Istnieją również inne miary określania odległości, np.
odległość miejska (tzw. city block lub typu Manhattan)
Ze względu na stosowanie różnych jednostek poszczególnych cech oraz różnych
skal wartości, zwykle odległość między obiektami jest określana na podstawie
zmiennych standaryzowanych
Metody grupowania
Hierarchiczne – pozwalają na łączenie obiektów w grupy z zachowaniem
hierarchii, tzn. możemy określić na podstawie dendrogramu które obiekty
w obrębie wydzielonych grup są podobne, a które bardziej odległe
Wybrane metody aglomeracji (łączenia obiektów) w grupowaniu
hierarchicznym:
-Metoda najbliższego sąsiada
- metoda najdalszego sąsiada
- metoda Warda
- metoda centroidów
Niehierarchiczne – po zaliczeniu obiektu do danej grupy nie możemy
powiedzieć, które z obiektów, które z obiektów w obrębie jednej grupy są
bardziej podobne.
Metodą niehierarchiczną jest metoda k-średnich
Przykłładowy dendrogram, powstałł y jako wynik analizy skupień
ń.
Kreskowana linia czerwona przedstawia podziałł obiektów na 4
grupy. Istnieje dowolność
ść w ustalaniu liczby grup, tak wię
ęc moż
żna
obiekty podzielić
ć na wię
ększą
ą lub tez mniejszą
ą liczbę
ę grup w
zależ
żnoś
ści, od stawianych celów analizy
Przykłady zastosowań:
1) Wydzielenie grup odmian jabłoni podobnych pod względem wielu
cech np.:
- koloru owoców (kolor musi być wyrażony ilościowo tzn. w postaci
liczby np. w skali 5 stopniowej 1- zielony…. 5- czerwony)
- wielkości owoców
- szybkości wzrostu
- wrażliwości na choroby
itp.
2) Wydzielenie grup gmin podobnych pod względem wielu cech np.:
- liczba mieszkańców
- dochody w przeliczeniu na mieszkańca
- stopa bezrobocia
- udział powierzchni użytków rolnych, lasów, sadów
-itp.

Podobne dokumenty