1 Regresja

Transkrypt

1 Regresja
Studia podyplomowe w zakresie technik internetowych
i komputerowej analizy danych
Statystyczna analiza danych
Adam Kiersztyn
5 godzin lekcyjnych
2012-02-05 13.00 - 17.00
1
Regresja
Do tej pory poznaliśmy juz· metody pozwalajace
¾ stwierdzić, czy dwie próby
sa¾ niezalez·ne. W tym miejscu spróbujemy opisać rodzaj zalez·ności pomiedzy
¾
badanami cechami. Najprostszym sposobem zalez·ności jest zalez·ność liniowa
pomiedzy
¾
dwiema cechami. Rozwaz·my przyk÷adowa¾zalez·ność pomiedzy
¾
czasem
nauki a wynikiem z egzaminu. Wykres rozrzutu danych z pliku "nauka.sav"
pozwala nam oszacować rodzaj zalez·ności. W tym celu wybieramy prosty wykres
rozrzutu
Nastepnie
¾
wskazujemy interesujace
¾ nas zmienne, teoretycznie kolejność zmiennych jest bez znaczenia, ale w sposób naturalny odczuwamy, z·e wynik zalez·y
od czasu nauki, a nie odwrotnie.
1
Jako wynik otrzymujemy raport, w którym mamy w sposób gra…czny zaprezen-
2
towane wystepuj
¾ ace
¾ zalez·ności
×atwo zauwaz·yć, z·e nasze obserwacje rozk÷adaja¾ sie¾ wokó÷pewnej prostej,
naszym celem bedzie
¾
wyznaczenie równania tej prostej. W tym celu skorzystamy
z modu÷
u regresja liniowa
3
Nastepnie
¾
określamy zmienna¾ zalez·na¾ i niezalez·na¾
4
W wynikowym raporcie najwaz·niejsza jest nastepuj
¾ aca
¾ tabelka.
z której moz·emy odczytać interesujacy
¾ nas wzór prostej. Okazuje sie,
¾ z·e zalez·ność wyniku w zalez·ności od czasu nauki opisuje prosta
y = 3:010x
0:153
Za pomoca¾ tej prostej moz·emy szacować wyniki znajac
¾ czas poświecony
¾
na
nauk¾
e i dla przyk÷
adu osoba uczaca
¾ sie¾ 50 godzin powinna otrzymać oko÷o 150
punktów ( na 100 moz·liwych ;) ). Zauwaz·my jeszcze, z·e w programie mamy
kilka moz·liwych sposobów wyznaczania równania (1). Mamy równiez· moz·liwość
wyboru z kilku dostepnych
¾
statystyk oraz wykresów (2).
5
Teraz wyznaczymy równanie prostej regresji za pomoca¾programu Statistica.
Wybieramy z menu statystyka regresje¾ wieloraka¾
Nastepnie
¾
wskazujemy zmienne
6
i jako wynik otrzymujemy skoroszyt, w którym mamy interesujacy
¾ nas wynik.
7
Oczywiście w statystyce moz·na rozwaz·ać inne, bardziej z÷
oz·one typy regresji.
W klasyczny sposób (na kartce) wyznaczanie innych krzywych regresji jest dość
trudne i pracoch÷
onne. Na szczeście
¾
za pomoca¾ programów statystycznych jest
stosunkowo proste. Musimy jedynie zasugerować jakiego rodzaju krzywej regresji sie¾ spodziewamy. Przy wyborze moga¾ nam pomóc wykresy rozrzutu. W
pliku regresja.sav mamy kilka przyk÷adowych zestawów danych. Pierwsza zmienna jest zmienna¾ niezalez·na,
¾ jak ÷
atwo odczytać z poniz·szego wykresu rozrzutu
druga ze zmiennych zalez·y od pierwszej w sposób liniowy
Trzecia zmienna jest zwiazana
¾
z pierwsza¾ za pomoca¾ trójmianu kwadratowego (chociaz· moz·e tego nie widać na rysunku), czyli jak ktoś woli funkcji
kwadratowej.
8
Trzecia ze zmiennych zalez·nych (u nas jest to zmienna o nazwie zalez·na3) jest
zwiazana
¾
wielomianem stopnia trzeciego. Wykres rozrzutu przyjmuje nastepu¾
jac
¾ a¾ postać.
9
Ostatnia zaś zmienna zalez·na jest zwiazana
¾
za pomoca¾ funkcji wyk÷adniczej.
Postaramy sie¾ wyznaczyć poszczególne funkcje opisujace
¾ nasze zalez·ności.
W programie SPSS skorzystamy z modu÷u estymacja krzywej...
10
gdzie musimy wybrać zmienne oraz rodzaj krzywej regresji
Dla pierwszej zmiennej zalez·nej zgonie z sugestia¾ wykresu rozrzutu wyznaczamy prosta¾ regresji. Otrzymujemy raport w którym mamy wyznaczona¾ in11
teresujac
¾ a¾ nas prosta¾ oraz dodatkowo poprzez wybranie stosownego pola mamy
na wykres rozrzutu naniesiona¾ nasza¾ prosta.
¾
12
W tym miejscu pojawia sie¾ naturalne pytanie z jaka¾dok÷adnościa¾nasza wyznaczona prosta pokrywa sie¾ ze stanem faktycznym. Poniewaz· dane do przyk÷adu
zosta÷
y dobrane w taki sposób, z·e zmienna zalez·na wyraz·a sie¾ za pomoca¾ wzoru
y = 2x + 5 +
gdzie przyjmuje wartości 1 z prawdopodobieństwem
wyznaczy÷nastepuj
¾ acy
¾ wzór
1
2.
Natomiast SPSS
y = 1:73x + 9:359
Moz·e nie jest to idealne przybliz·enie, jest ono spowodowane stosunkowo ma÷a¾
liczba¾ obserwacji. Dla 500 obserwacji nasza estymowana krzywa przyjmuje
postać.
i widzimy, z·e dopasowanie jest juz· znacznie lepsze.
Dla zmiennej zalez·nej2 otrzymujemy nastepuj
¾ acy
¾ wynik
oraz stosowna¾ krzywa¾
13
W rzeczywistości wzór ma nastepuj
¾ ac
¾ a¾ postać
y = x2
17x + 22 + :
Dla trzeciej zmienne prawdziwy zwiazek
¾
zadany jest za pomoca¾ funkcji
y = x3
2x2
5x
2+
program natomiast proponuje nam nastepuj
¾ acy
¾ wzór oraz jego reprezentacje¾
14
gra…czna.
¾
×atwo spostrzec, z·e sugerowany wzór funkcji nie jest zbytnio zbliz·ony do stanu
faktycznego, jest to spowodowane tym, z·e nasze wartości nie w pobliz·u punktów charakterystycznych jakimi sa¾ wierzcho÷ki. W ostatnim przypadku funkcja
15
zadane jest wzorem
ex
100000
natomiast program szacuje nam krzywa¾ w nastepuj
¾ acy
¾ sposób
y=
y = e0:095x
której reprezentacja gra…czna przyjmuje postać
W czasie ćwiczeń prześledzimy równiez· inne przyk÷adowe dane, w tym równiez·
inne rodzaje krzywych regresji oraz ich kombinacje.
16