Zadanie 1
Transkrypt
Zadanie 1
Projekt numer 4 – Mariusz Strzelecki (grupa D) Zadanie 1 Statystyki ceny domów sprzedanych w 1999 roku N Ważne 20 Braki danych 0 Średnia $271,850.00 Mediana $296,500.00 Odchylenie standardowe $81,777.152 Wariancja 6,688E9 Minimum $118,000 Maksimum $403,000 Percentyle 25 $244,000.00 50 $296,500.00 75 $318,000.00 Estymatory: Wartości oczekiwanej: $271 850,00 Wariancji (nieobciążony): 6 687 502 632 $^2 Wariancji (obciążony): 6 353 127 500$^2 Widzimy, że ceny w 1999 roku układały się wokół 300 000$ z wyjątkiem czterech transakcji opiewających na kwoty z przedziału 100 000$ - 150 000$. Mediana, jak i kwartyle również świadczą o tym, że ceny układają się wokół 300 000$ Statystyki cen domów sprzedanych w 2000 roku N Ważne 74 Braki danych 0 Średnia $251,918.92 Mediana $276,500.00 Odchylenie standardowe $79,152.836 Wariancja 6,265E9 Minimum $125,000 Maksimum $416,000 Percentyle 25 $139,750.00 50 $276,500.00 75 $307,500.00 Estymatory: Wartości oczekiwanej: 251 918,92 $ Wariacji (nieobciążony): 6 265 171 418 $^2 Wariacji (obciążony): 6 180 506 939 $^2 W 2000 roku ceny również układały się wokół 300 000$, jednak niski pierwszy kwartyl jak i rzut oka na wykres pokazują, że znacznie więcej niż w poprzednim roku było transakcji dużo niższej klasy. Przechyla to też średnią dużo niżej niż w 1999. Zadanie 2 Przeprowadziłem Test Kołmogorowa-Smirnowa w celu wykazania zgodności rozkładu liczby dni z rozkładem normalnym: Test Kołmogorowa-Smirnowa dla jednej próby Liczba dni na rynku N 93 Parametry rozkładu Średnia a,,b 49,53 normalnego Odchylenie standardowe Największe różnice Wartość bezwzględna ,104 Dodatnia ,104 Ujemna -,073 Z Kołmogorowa-Smirnowa 33,397 1,005 Istotność asymptotyczna (dwustronna) ,265 a. Testowana jest zgodność z rozkładem normalnym. b. Obliczono na podstawie danych. Istotność jest większa niż zakładany poziom (0,05), więc nie ma podstaw do odrzucenia hipotezy o normalności rozkładu liczby dni. Warto zauważyć, że w jednym z rekordów nie ma informacji o liczbie dni na rynku (systemowy brak danych), dlatego w tym teście N=93. Ponieważ nie ma podstaw do odrzucenia, narysuję wykresy P-P. Wykres prawdopodobieństwa Oszacowania parametrów rozkładu Liczba dni na rynku Rozkład normalny Pozycja Skala Obserwacje nie są ważone. 49,53 33,397 Wykresy P-P przemawiają za normalnością rozkładu, odchylenia od normy nie przekraczają 0,1. Gdyby przyjąć hipotezę o normalności z parametrami wyliczonymi przez program (49,53; 33,397), wówczas prawdopodobieństwo tego, że dom będzie na rynku krócej niż 21 dni wynosi 19,77% Zadanie 3 Aby stwierdzić prawdziwość tej hipotezy, wykonam test T dla jednej próby. Możemy go wykonać, gdy przyjmiemy, że rozkład jest normalny. Poprzednie zadanie podaje informację, że nie możemy odrzucać tej hipotezy. Załóżmy więc, że ilość dni na rynku ma rozkład normalny. Test T (T-TEST) Statystyki dla jednej próby Błąd Średnia N Liczba dni na rynku 93 Odchylenie standardowy standardowe średniej 49,53 33,397 3,463 Test dla jednej próby Wartość testowana = 50 Istotność t Liczba dni na rynku df -,135 (dwustronna) 92 ,893 Różnica średnich -,468 Test dla jednej próby Wartość testowana = 50 95% przedział ufności dla różnicy średnich Dolna granica Liczba dni na rynku -7,35 Górna granica 6,41 Jak widać, nie mamy podstaw do odrzucenia hipotezy, że średnia liczba dni, w których oferta pozostaje na rynku jest równa 50. Wynik testu nie dziwi, a przedział ufności jest bardzo szeroki. Zadanie 4 Aby wyznaczyć rozkład łączy ulicy i zmiennej, stwierdzającej, czy dom jest tani, wykonałem tabele krzyżowe oparte o nową zmienną „tani_dom”, opisującą, czy dom został sprzedany za <170 000$ Tabela krzyżowa tani_dom * Ulica Liczebność Ulica Bunker Hill Dr tani_dom Dawson Ln Fairway View Dr Lakeview Dr Par Dr 0 28 0 7 8 7 1 0 23 0 0 0 28 23 7 8 7 Ogółem Tabela krzyżowa tani_dom * Ulica Liczebność Ulica Persimmon Dr tani_dom Ogółem Wintergreen Te Ogółem 0 9 12 71 1 0 0 23 9 12 94 Zarówno z tabel krzyżowych, jak i z wykresu łatwo widać, że tylko domy na Dawson Ln należą do tanich, wszystkie domy na pozostałych ulicach kosztują powyżej 170 000$ Zadanie 5 Wykresy słupkowe prezentują się następująco: Z powyższych wykresów widać, że najwięcej domów jest na Bunker Hill Dr, najmniej zaś na Par Dr lub Fairway View Dr. Przetestuję hipotezę, że ofert na ulicy, która występuje najczęściej jest 4 razy więcej niż na tej, która występuje najrzadziej używając testu chi-kwadrat. Rodzaj Ulicy Obserwowane N Oczekiwane N Reszty 1 28 28,0 ,0 2 7 7,0 ,0 Ogółem 35 Statystyki testu Rodzaj Ulicy Chi-kwadrat ,000a df Istotność asymptotyczna 1 1,000 a. 0 komórek (,0%) ma liczebność oczekiwaną mniejszą od 5. Minimalna liczebność oczekiwana w komórce wynosi 7,0. Test wykazał, że ofert na ulicy, która występuje najczęściej jest 4 razy więcej niż na tej, która występuje najrzadziej z prawdopodobieństwem 1. Zadanie 6 Najpierw przeprowadzam badanie dla wszystkich próbek. Przedtem jednak wygeneruję wykresy skrzynkowe, żeby stwierdzić, czy wśród zmiennych nie ma wartości odstających: Wykonuję test T dla prób zależnych: Statystyki dla prób zależnych Błąd Średnia Para 1 Cena N $256,159.57 Wielkość domu (w stopach Odchylenie standardowy standardowe średniej 94 $79,695.294 2540,96 94 $8,219.942 954,719 kwadratowych) Korelacje dla prób zależnych N Para 1 Cena & Wielkość domu (w Korelacja 94 Istotność ,894 ,000 stopach kwadratowych) Test dla prób zależnych Różnice w próbach zależnych Błąd Średnia Para 1 Cena - Wielkość domu (w stopach kwadratowych) 253618,617 Odchylenie standardowy standardowe średniej 78842,541 8131,987 98,472 Test dla prób zależnych Różnice w próbach zależnych 95% przedział ufności dla różnicy średnich Dolna granica Para 1 Cena - Wielkość domu (w Górna granica 237470,102 269767,132 t df 31,188 93 stopach kwadratowych) Test dla prób zależnych Istotność (dwustronna) Para 1 Cena - Wielkość domu (w ,000 stopach kwadratowych) Jak widać, poziom istotności jest mniejszy od zakładanego 0,05, więc odrzucamy hipotezę, że zmienne nie są zależne. Zmienne są więc zależne z dość wysokim współczynnikiem korelacji: 0,864. Wykonam analizę regresji dla tych zmiennych (gdzie cena jest zmienną zależną, a wielkość domu zmienną niezależną). Brak jest wartości odstających, wykonuję więc analizę regresji dla wszystkich obserwacji. Podsumowanie modelu i oszacowań parametrów Zmienna zależna:Cena Oceny parametrów Model - Podsumowanie Równanie Liniowy R-kwadrat ,800 F 367,922 df1 Istotność df2 1 92 Zmienną niezależną jest Wielkość domu (w stopach kwadratowych). ,000 Stała 66449,604 b1 74,661 Analiza regresji liniowej wykazała, że zmienne układają się wokół prostej o równaniu: [cena] = 74,661 * [wielkość domu] + 66449,604 Z wykresu widać jasno, że zmienne układają się w dwóch różnych grupach. Przeprowadzimy to samo badanie z podziałem obserwacji na zaobserwowane dwa podzbiory: Najpierw sprawdzę znów, czy nie ma wartości odstających dla domów droższych niż 170 000$: Jak widać, mamy dwie obserwacje o cenie znacznie odstającej od pozostałych. Usuniemy te obserwacje z analizy i narysujemy wykresy skrzynkowe jeszcze raz. Jak widać – znów mamy dwie wartości odstające. Usuniemy obie obserwacje (o numerach 1 i 69) i powtórzymy badanie wykresami skrzynkowymi. Wreszcie nie ma obserwacji odstających ani dla ceny, ani dla wielkości domu. Wykonamy analizę regresji, a odrzuconych czterech obserwacji nie będziemy rozpatrywać osobno (dla czterech obserwacji wykonywanie analizy regresji mija się z celem) Korelacje Wielkość domu (w stopach Cena Cena Korelacja Pearsona kwadratowych) 1 Istotność (dwustronna) N Wielkość domu (w stopach Korelacja Pearsona kwadratowych) Istotność (dwustronna) N **. Korelacja jest istotna na poziomie 0.01 (dwustronnie). ,691 ** ,000 67 67 ** 1 ,691 ,000 67 67 Istotność jest znów mniejsza niż 0,05, więc odrzucamy hipotezę, jakoby zmienne nie były skorelowane. Zauważmy dodatkowo, że współczynnik korelacji jest mniejszy, niż dla poprzedniego badania (liczonych wszystkich obserwacji), co świadczy o tym, że wszystkie obserwacje są bardziej skorelowane (tańsze domy „przeciągają” prostą na swoją stronę). Wykonamy analizę regresji tego przypadku: Podsumowanie modelu i oszacowań parametrów Zmienna zależna:Cena Oceny parametrów Model - Podsumowanie Równanie Liniowy R-kwadrat ,477 F 59,375 df1 Istotność df2 1 65 ,000 Stała 173224,620 b1 41,186 Zmienną niezależną jest Wielkość domu (w stopach kwadratowych). Zmienne układają się wokół linii [wartość] = 41,186 * [cena] + 173224,620, co dokładnie prezentuje wykres rozrzutu: Zmienne są dodatnio słabo skorelowane (R=0,681) dla domów droższych niż 170 000$ Te same badania trzeba przeprowadzić dla drugiej grupy obserwacji (domów tańszych niż 170 000$) Najpierw wykresy skrzynkowe: Brak jest wartości odstających. Przetestujemy korelację zmiennych: Korelacje a Wielkość domu (w stopach Cena Cena kwadratowych) Korelacja Pearsona 1 -,296 Istotność (dwustronna) ,171 N Wielkość domu (w stopach Korelacja Pearsona kwadratowych) Istotność (dwustronna) 23 23 -,296 1 ,171 N 23 23 a. tani_dom = 1 Zauważamy, że istotność jest większa niż zakładana. Nie mamy więc podstaw do odrzucenia hipotezy o niezależności zmiennych. Analiza regresji ma się następująco: Podsumowanie modelu i oszacowań parametrów a Zmienna zależna:Cena Oceny parametrów Model - Podsumowanie Równanie R-kwadrat Liniowy ,087 F 2,013 df1 Istotność df2 1 21 Zmienną niezależną jest Wielkość domu (w stopach kwadratowych). a. tani_dom = 1 ,171 Stała 136400,221 b1 -4,177 Ponieważ istotność jest większa niż zakładana, a nie ma sensu robić analizy regresji bez stałej (ponieważ nie jest tak, że dla zerowej powierzchni domu jego cena jest równa zero i rośnie liniowo), więc nie mamy podstaw do odrzucenia hipotezy, że zmienne są niezależne (dla tańszych domów). Wnioski z całej przeprowadzonej analizy regresji mają się następująco: Rozpatrując wszystkie obserwacje otrzymujemy wysoki dodani współczynnik korelacji (0,894), ale na wykresie analizy regresji widzimy, że dane układają się wokół dwóch podgrup. Rozpatrując te obie podgrupy osobno: o Dla domów droższych współczynnik korelacji się zmniejsza, pomimo usunięcia czterech odstających obserwacji wciąż jest on mniejszy niż 0,7 o Wśród domów tańszych istotność korelacji przekracza zakładany poziom ufności, więc nie mamy podstaw do odrzucenia hipotezy o niezależności zmiennych. Analiza regresji pokazuje, że zmienne nie są zależne.