1 Regresja
Transkrypt
1 Regresja
Studia podyplomowe w zakresie technik internetowych i komputerowej analizy danych Statystyczna analiza danych Adam Kiersztyn 5 godzin lekcyjnych 2012-02-05 13.00 - 17.00 1 Regresja Do tej pory poznaliśmy juz· metody pozwalajace ¾ stwierdzić, czy dwie próby sa¾ niezalez·ne. W tym miejscu spróbujemy opisać rodzaj zalez·ności pomiedzy ¾ badanami cechami. Najprostszym sposobem zalez·ności jest zalez·ność liniowa pomiedzy ¾ dwiema cechami. Rozwaz·my przyk÷adowa¾zalez·ność pomiedzy ¾ czasem nauki a wynikiem z egzaminu. Wykres rozrzutu danych z pliku "nauka.sav" pozwala nam oszacować rodzaj zalez·ności. W tym celu wybieramy prosty wykres rozrzutu Nastepnie ¾ wskazujemy interesujace ¾ nas zmienne, teoretycznie kolejność zmiennych jest bez znaczenia, ale w sposób naturalny odczuwamy, z·e wynik zalez·y od czasu nauki, a nie odwrotnie. 1 Jako wynik otrzymujemy raport, w którym mamy w sposób gra…czny zaprezen- 2 towane wystepuj ¾ ace ¾ zalez·ności ×atwo zauwaz·yć, z·e nasze obserwacje rozk÷adaja¾ sie¾ wokó÷pewnej prostej, naszym celem bedzie ¾ wyznaczenie równania tej prostej. W tym celu skorzystamy z modu÷ u regresja liniowa 3 Nastepnie ¾ określamy zmienna¾ zalez·na¾ i niezalez·na¾ 4 W wynikowym raporcie najwaz·niejsza jest nastepuj ¾ aca ¾ tabelka. z której moz·emy odczytać interesujacy ¾ nas wzór prostej. Okazuje sie, ¾ z·e zalez·ność wyniku w zalez·ności od czasu nauki opisuje prosta y = 3:010x 0:153 Za pomoca¾ tej prostej moz·emy szacować wyniki znajac ¾ czas poświecony ¾ na nauk¾ e i dla przyk÷ adu osoba uczaca ¾ sie¾ 50 godzin powinna otrzymać oko÷o 150 punktów ( na 100 moz·liwych ;) ). Zauwaz·my jeszcze, z·e w programie mamy kilka moz·liwych sposobów wyznaczania równania (1). Mamy równiez· moz·liwość wyboru z kilku dostepnych ¾ statystyk oraz wykresów (2). 5 Teraz wyznaczymy równanie prostej regresji za pomoca¾programu Statistica. Wybieramy z menu statystyka regresje¾ wieloraka¾ Nastepnie ¾ wskazujemy zmienne 6 i jako wynik otrzymujemy skoroszyt, w którym mamy interesujacy ¾ nas wynik. 7 Oczywiście w statystyce moz·na rozwaz·ać inne, bardziej z÷ oz·one typy regresji. W klasyczny sposób (na kartce) wyznaczanie innych krzywych regresji jest dość trudne i pracoch÷ onne. Na szczeście ¾ za pomoca¾ programów statystycznych jest stosunkowo proste. Musimy jedynie zasugerować jakiego rodzaju krzywej regresji sie¾ spodziewamy. Przy wyborze moga¾ nam pomóc wykresy rozrzutu. W pliku regresja.sav mamy kilka przyk÷adowych zestawów danych. Pierwsza zmienna jest zmienna¾ niezalez·na, ¾ jak ÷ atwo odczytać z poniz·szego wykresu rozrzutu druga ze zmiennych zalez·y od pierwszej w sposób liniowy Trzecia zmienna jest zwiazana ¾ z pierwsza¾ za pomoca¾ trójmianu kwadratowego (chociaz· moz·e tego nie widać na rysunku), czyli jak ktoś woli funkcji kwadratowej. 8 Trzecia ze zmiennych zalez·nych (u nas jest to zmienna o nazwie zalez·na3) jest zwiazana ¾ wielomianem stopnia trzeciego. Wykres rozrzutu przyjmuje nastepu¾ jac ¾ a¾ postać. 9 Ostatnia zaś zmienna zalez·na jest zwiazana ¾ za pomoca¾ funkcji wyk÷adniczej. Postaramy sie¾ wyznaczyć poszczególne funkcje opisujace ¾ nasze zalez·ności. W programie SPSS skorzystamy z modu÷u estymacja krzywej... 10 gdzie musimy wybrać zmienne oraz rodzaj krzywej regresji Dla pierwszej zmiennej zalez·nej zgonie z sugestia¾ wykresu rozrzutu wyznaczamy prosta¾ regresji. Otrzymujemy raport w którym mamy wyznaczona¾ in11 teresujac ¾ a¾ nas prosta¾ oraz dodatkowo poprzez wybranie stosownego pola mamy na wykres rozrzutu naniesiona¾ nasza¾ prosta. ¾ 12 W tym miejscu pojawia sie¾ naturalne pytanie z jaka¾dok÷adnościa¾nasza wyznaczona prosta pokrywa sie¾ ze stanem faktycznym. Poniewaz· dane do przyk÷adu zosta÷ y dobrane w taki sposób, z·e zmienna zalez·na wyraz·a sie¾ za pomoca¾ wzoru y = 2x + 5 + gdzie przyjmuje wartości 1 z prawdopodobieństwem wyznaczy÷nastepuj ¾ acy ¾ wzór 1 2. Natomiast SPSS y = 1:73x + 9:359 Moz·e nie jest to idealne przybliz·enie, jest ono spowodowane stosunkowo ma÷a¾ liczba¾ obserwacji. Dla 500 obserwacji nasza estymowana krzywa przyjmuje postać. i widzimy, z·e dopasowanie jest juz· znacznie lepsze. Dla zmiennej zalez·nej2 otrzymujemy nastepuj ¾ acy ¾ wynik oraz stosowna¾ krzywa¾ 13 W rzeczywistości wzór ma nastepuj ¾ ac ¾ a¾ postać y = x2 17x + 22 + : Dla trzeciej zmienne prawdziwy zwiazek ¾ zadany jest za pomoca¾ funkcji y = x3 2x2 5x 2+ program natomiast proponuje nam nastepuj ¾ acy ¾ wzór oraz jego reprezentacje¾ 14 gra…czna. ¾ ×atwo spostrzec, z·e sugerowany wzór funkcji nie jest zbytnio zbliz·ony do stanu faktycznego, jest to spowodowane tym, z·e nasze wartości nie w pobliz·u punktów charakterystycznych jakimi sa¾ wierzcho÷ki. W ostatnim przypadku funkcja 15 zadane jest wzorem ex 100000 natomiast program szacuje nam krzywa¾ w nastepuj ¾ acy ¾ sposób y= y = e0:095x której reprezentacja gra…czna przyjmuje postać W czasie ćwiczeń prześledzimy równiez· inne przyk÷adowe dane, w tym równiez· inne rodzaje krzywych regresji oraz ich kombinacje. 16