MIWS_dobor_zmiennych

Transkrypt

MIWS_dobor_zmiennych
Metoda analizy macierzy współczynników korelacji
Idea metody sprowadza się do wyboru takich zmiennych objaśniających, które są silnie
skorelowane ze zmienną objaśnianą i równocześnie słabo skorelowane między sobą.
Procedura obejmuje następujące etapy:
1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze
zmienną objaśnianą jest mniejsza od krytycznej:
ห‫ݎ‬௫௜௬ ห ≤ ‫∗ ݎ‬
2. Z pozostałych zmiennych do modelu wybiera się taką (Xh), dla której korelacja ze
zmienną objaśnianą jest największa:
ห‫ݎ‬௫௛௬ ห = max {|‫ݎ‬௫௜௬ |}
3. Eliminuje się ze zbioru potencjalnych zmiennych te wszystkie zmienne, dla których
korelacja ze zmienną Xh jest większa od krytycznej:
|‫ݎ‬௫௛௫௜ | > ‫∗ ݎ‬
Procedurę powtarza się do momentu wyczerpania zbioru potencjalnych zmiennych
objaśniających (szczególnie punkty 2 oraz 3)
Wartość krytyczną można wyznaczyć dla zadanego poziomu istotności α oraz n-2 stopni
swobody korzystając ze wzoru:
‫ݐ‬ఈ,௡ିଶ ଶ
‫= ݎ‬ඨ
‫ݐ‬ఈ,௡ିଶ ଶ + ݊ − 2
∗
gdzie ‫ݐ‬ఈ,௡ିଶ jest wartością odczytaną z tablic testu t Studenta dla poziomu istotności α
oraz n-2 stopni swobody.
Metoda grafów
Procedurę metody można ująć w następujących etapach:
1. Buduje się nową macierz współczynników korelacji przez zastąpienie w macierzy
współczynników korelacji zerami wszystkie współczynniki korelacji, które są (ich
wartości bezwzględne) mniejsze lub równe wartości krytycznej,
2. Eliminuje się potencjalne zmienne objaśniające, dla których współczynnik korelacji ze
zmienną objaśnianą w nowej macierzy jest równy zero
3. Na podstawie macierzy powstałej w punkcie 1. Buduje się graf powiązań między
potencjalnymi zmiennymi – powiązanie istnieje, jeśli współczynnik korelacji między
zmiennymi jest różny od zera,
4. Z każdego z powstałych grafów wybiera się zmienną do modelu, którą cechuje
największa liczba powiązań.
Jako wartość krytyczną można przyjąć wartość zaproponowaną wcześniej.
1. Otwór plik MIWS_dobor_zmiennych.xls.
2. Dokonaj analizy przedstawionych zmiennych: objaśnianej oraz objaśniających. Czy wszystkie
z potencjalnych zmiennych mają być uwzględniane analizie? (dot. zmiennej X6)
3. Dla każdej ze zmiennych oblicz średnią, odchylenie standardowe oraz współczynnik
zmienności. Wykorzystaj funkcje arkusza ŚREDNIA(), ODCH.STANDARDOWE(). Wyniki
przedstaw w kolejnych wierszach arkusza w obszarze komórek (B30:H32). W pierwszej
kolumnie (A) umieść opis. (Dla zmiennej X6 obliczenia nie są konieczne).
UWAGA! Formułę na średnią, odchylenie oraz współczynnik korelacji wpisujemy do pierwszej
kolumny i kopiujemy do pozostałych komórek.
4. Czy zmienność rozpatrywanych zmiennych jest wystarczająca? Czy wszystkie wartości
współczynnika zmienności przekraczają wartość krytyczną? (Wartość krytyczna 10%)
5. Dokonaj analizy wzrokowej wykresów zależności zmiennej objaśnianej od poszczególnych
potencjalnych zmiennych, pod kątem ewentualnego zakwestionowania zależności liniowej.
Przykładowy wykres zależności przedstawiono poniżej (Y od X1).
6. Zbuduj macierz (tabelę) współczynników korelacji między zmiennymi, wykorzystując
narzędzie ANALIZA DANYCH (menu NARZĘDZIA). Wybierz „Korelacja”.
7. Metody doboru zmiennych na wejściu do modelu wymagają zbudowanej macierzy
współczynników korelacji (można ją również zbudować wykorzystując funkcje: PEARSON(),
WSP.KORELACJI()). Ponadto rozważane metody wymagają wartości krytycznej, przy
obliczaniu której należy skorzystać z funkcji ROZKŁAD.T.ODW().
8. Metoda analizy macierzy współczynników korelacji.
Obliczanie wartości krytycznej przedstawiono na poniższych zrzutach ekranowych.
Następnie kopiujemy utworzoną wcześniej macierz (tabelę) poniżej (początek nowego
obszaru od komórki J19)
W macierzy tej usuwamy (DELETE) wszystkie wiersze (i kolumny) odpowiadające zmiennym,
dla których wartość bezwzględna współczynnika korelacji ze zmienną objaśnianą (w pierwszej
kolumnie) jest mniejsza bądź równa wartości krytycznej. Jest to realizacja pierwszego etapu
metody.
Następnie w celach porządkowych przesuwamy wartości, tak aby tworzyły spójny obszar w
arkuszu.
Realizujemy drugi etap metody – Do modelu wchodzi zmienna X5t, ponieważ współczynnik
korelacji ze zmienną Y jest największy. Ponieważ współczynnik korelacji między zmienną X4t i
X5t jest większy od wartości krytycznej (patrz etap trzeci), dlatego ta zmienna zostaje
usunięta.
Do modelu wchodzi tylko zmienna X5t, czyli …
9. Metoda grafów.
Etap 1. Buduje się nową macierz współczynników korelacji przez zastąpienie w
macierzy współczynników korelacji zerami wszystkie współczynniki korelacji, które są
(ich wartości bezwzględne) mniejsze lub równe wartości krytycznej – ponownie
kopiujemy macierz współczynników korelacji i zamieniamy wartości spełniające
podany warunek zerami.
Eliminuje się potencjalne zmienne objaśniające, dla których współczynnik korelacji ze
zmienną objaśnianą w nowej macierzy jest równy zero – usuwamy wszystkie wiersze i
kolumny odpowiadające zmiennym X1t, X2t oraz X3t i porządkujemy (analogicznie jak
wcześniej).
Na podstawie macierzy powstałej w punkcie 1. Buduje się graf powiązań między
potencjalnymi zmiennymi – powiązanie istnieje, jeśli współczynnik korelacji między
zmiennymi jest różny od zera.
X4t
X5t
Powstał jeden grał, czyli do modelu wchodzi jedna zmienna. Ponieważ wierzchołki grafu
cechuje taka sama liczba połączeń, to do modelu wchodzi zmienna silniej związana ze
zmienną objaśnianą.
Do modelu wchodzi tylko zmienna X5t, czyli …