Zadanie 1

Transkrypt

Zadanie 1
Projekt numer 4 – Mariusz Strzelecki (grupa D)
Zadanie 1
Statystyki ceny domów sprzedanych w 1999 roku
N
Ważne
20
Braki danych
0
Średnia
$271,850.00
Mediana
$296,500.00
Odchylenie standardowe
$81,777.152
Wariancja
6,688E9
Minimum
$118,000
Maksimum
$403,000
Percentyle
25
$244,000.00
50
$296,500.00
75
$318,000.00
Estymatory:
Wartości oczekiwanej: $271 850,00
Wariancji (nieobciążony): 6 687 502 632 $^2
Wariancji (obciążony): 6 353 127 500$^2
Widzimy, że ceny w 1999 roku układały się wokół 300 000$ z wyjątkiem czterech transakcji
opiewających na kwoty z przedziału 100 000$ - 150 000$. Mediana, jak i kwartyle również świadczą o
tym, że ceny układają się wokół 300 000$
Statystyki cen domów sprzedanych w 2000 roku
N
Ważne
74
Braki danych
0
Średnia
$251,918.92
Mediana
$276,500.00
Odchylenie standardowe
$79,152.836
Wariancja
6,265E9
Minimum
$125,000
Maksimum
$416,000
Percentyle
25
$139,750.00
50
$276,500.00
75
$307,500.00
Estymatory:
Wartości oczekiwanej: 251 918,92 $
Wariacji (nieobciążony): 6 265 171 418 $^2
Wariacji (obciążony): 6 180 506 939 $^2
W 2000 roku ceny również układały się wokół 300 000$, jednak niski pierwszy kwartyl jak i rzut oka
na wykres pokazują, że znacznie więcej niż w poprzednim roku było transakcji dużo niższej klasy.
Przechyla to też średnią dużo niżej niż w 1999.
Zadanie 2
Przeprowadziłem Test Kołmogorowa-Smirnowa w celu wykazania zgodności rozkładu liczby dni z
rozkładem normalnym:
Test Kołmogorowa-Smirnowa dla jednej próby
Liczba dni na
rynku
N
93
Parametry rozkładu
Średnia
a,,b
49,53
normalnego
Odchylenie standardowe
Największe różnice
Wartość bezwzględna
,104
Dodatnia
,104
Ujemna
-,073
Z Kołmogorowa-Smirnowa
33,397
1,005
Istotność asymptotyczna (dwustronna)
,265
a. Testowana jest zgodność z rozkładem normalnym.
b. Obliczono na podstawie danych.
Istotność jest większa niż zakładany poziom (0,05), więc nie ma podstaw do odrzucenia hipotezy o
normalności rozkładu liczby dni. Warto zauważyć, że w jednym z rekordów nie ma informacji o liczbie
dni na rynku (systemowy brak danych), dlatego w tym teście N=93. Ponieważ nie ma podstaw do
odrzucenia, narysuję wykresy P-P.
Wykres prawdopodobieństwa
Oszacowania parametrów rozkładu
Liczba dni na
rynku
Rozkład normalny
Pozycja
Skala
Obserwacje nie są ważone.
49,53
33,397
Wykresy P-P przemawiają za normalnością rozkładu, odchylenia od normy nie przekraczają 0,1.
Gdyby przyjąć hipotezę o normalności z parametrami wyliczonymi przez program (49,53; 33,397),
wówczas prawdopodobieństwo tego, że dom będzie na rynku krócej niż 21 dni wynosi 19,77%
Zadanie 3
Aby stwierdzić prawdziwość tej hipotezy, wykonam test T dla jednej próby. Możemy go wykonać, gdy
przyjmiemy, że rozkład jest normalny. Poprzednie zadanie podaje informację, że nie możemy
odrzucać tej hipotezy. Załóżmy więc, że ilość dni na rynku ma rozkład normalny.
Test T (T-TEST)
Statystyki dla jednej próby
Błąd
Średnia
N
Liczba dni na rynku
93
Odchylenie
standardowy
standardowe
średniej
49,53
33,397
3,463
Test dla jednej próby
Wartość testowana = 50
Istotność
t
Liczba dni na rynku
df
-,135
(dwustronna)
92
,893
Różnica średnich
-,468
Test dla jednej próby
Wartość testowana = 50
95% przedział ufności dla różnicy
średnich
Dolna granica
Liczba dni na rynku
-7,35
Górna granica
6,41
Jak widać, nie mamy podstaw do odrzucenia hipotezy, że średnia liczba dni, w których oferta
pozostaje na rynku jest równa 50. Wynik testu nie dziwi, a przedział ufności jest bardzo szeroki.
Zadanie 4
Aby wyznaczyć rozkład łączy ulicy i zmiennej, stwierdzającej, czy dom jest tani, wykonałem tabele
krzyżowe oparte o nową zmienną „tani_dom”, opisującą, czy dom został sprzedany za <170 000$
Tabela krzyżowa tani_dom * Ulica
Liczebność
Ulica
Bunker Hill Dr
tani_dom
Dawson Ln
Fairway View Dr
Lakeview Dr
Par Dr
0
28
0
7
8
7
1
0
23
0
0
0
28
23
7
8
7
Ogółem
Tabela krzyżowa tani_dom * Ulica
Liczebność
Ulica
Persimmon Dr
tani_dom
Ogółem
Wintergreen Te
Ogółem
0
9
12
71
1
0
0
23
9
12
94
Zarówno z tabel
krzyżowych, jak i
z wykresu łatwo
widać, że tylko
domy na Dawson
Ln należą do
tanich, wszystkie
domy na
pozostałych
ulicach kosztują
powyżej 170 000$
Zadanie 5
Wykresy słupkowe prezentują się następująco:
Z powyższych wykresów widać, że najwięcej domów jest na Bunker Hill Dr, najmniej zaś na Par Dr
lub Fairway View Dr. Przetestuję hipotezę, że ofert na ulicy, która występuje najczęściej jest 4 razy
więcej niż na tej, która występuje najrzadziej używając testu chi-kwadrat.
Rodzaj Ulicy
Obserwowane N
Oczekiwane N
Reszty
1
28
28,0
,0
2
7
7,0
,0
Ogółem
35
Statystyki testu
Rodzaj Ulicy
Chi-kwadrat
,000a
df
Istotność asymptotyczna
1
1,000
a. 0 komórek (,0%) ma liczebność
oczekiwaną mniejszą od 5. Minimalna
liczebność oczekiwana w komórce wynosi
7,0.
Test wykazał, że ofert na ulicy, która występuje najczęściej jest 4 razy więcej niż na tej, która
występuje najrzadziej z prawdopodobieństwem 1.
Zadanie 6
Najpierw przeprowadzam badanie dla wszystkich próbek.
Przedtem jednak wygeneruję wykresy skrzynkowe, żeby stwierdzić, czy wśród zmiennych nie ma
wartości odstających:
Wykonuję test T dla prób zależnych:
Statystyki dla prób zależnych
Błąd
Średnia
Para 1
Cena
N
$256,159.57
Wielkość domu (w stopach
Odchylenie
standardowy
standardowe
średniej
94 $79,695.294
2540,96
94
$8,219.942
954,719
kwadratowych)
Korelacje dla prób zależnych
N
Para 1
Cena & Wielkość domu (w
Korelacja
94
Istotność
,894
,000
stopach kwadratowych)
Test dla prób zależnych
Różnice w próbach zależnych
Błąd
Średnia
Para 1
Cena - Wielkość domu (w
stopach kwadratowych)
253618,617
Odchylenie
standardowy
standardowe
średniej
78842,541
8131,987
98,472
Test dla prób zależnych
Różnice w próbach zależnych
95% przedział ufności dla różnicy
średnich
Dolna granica
Para 1
Cena - Wielkość domu (w
Górna granica
237470,102
269767,132
t
df
31,188
93
stopach kwadratowych)
Test dla prób zależnych
Istotność
(dwustronna)
Para 1
Cena - Wielkość domu (w
,000
stopach kwadratowych)
Jak widać, poziom istotności jest mniejszy od zakładanego 0,05, więc odrzucamy hipotezę, że
zmienne nie są zależne. Zmienne są więc zależne z dość wysokim współczynnikiem korelacji: 0,864.
Wykonam analizę regresji dla tych zmiennych (gdzie cena jest zmienną zależną, a wielkość domu
zmienną niezależną).
Brak jest wartości odstających, wykonuję więc analizę regresji dla wszystkich obserwacji.
Podsumowanie modelu i oszacowań parametrów
Zmienna zależna:Cena
Oceny parametrów
Model - Podsumowanie
Równanie
Liniowy
R-kwadrat
,800
F
367,922
df1
Istotność
df2
1
92
Zmienną niezależną jest Wielkość domu (w stopach kwadratowych).
,000
Stała
66449,604
b1
74,661
Analiza regresji liniowej wykazała, że zmienne układają się wokół prostej o równaniu:
[cena] = 74,661 * [wielkość domu] + 66449,604
Z wykresu widać jasno, że zmienne układają się w dwóch różnych grupach. Przeprowadzimy to samo
badanie z podziałem obserwacji na zaobserwowane dwa podzbiory:
Najpierw sprawdzę znów, czy nie ma wartości odstających dla domów droższych niż 170 000$:
Jak widać, mamy dwie obserwacje o cenie znacznie odstającej od pozostałych. Usuniemy te
obserwacje z analizy i narysujemy wykresy skrzynkowe jeszcze raz.
Jak widać – znów mamy dwie wartości odstające. Usuniemy obie obserwacje (o numerach 1 i 69) i
powtórzymy badanie wykresami skrzynkowymi.
Wreszcie nie ma obserwacji odstających ani dla ceny, ani dla wielkości domu. Wykonamy analizę
regresji, a odrzuconych czterech obserwacji nie będziemy rozpatrywać osobno (dla czterech
obserwacji wykonywanie analizy regresji mija się z celem)
Korelacje
Wielkość domu
(w stopach
Cena
Cena
Korelacja Pearsona
kwadratowych)
1
Istotność (dwustronna)
N
Wielkość domu (w stopach
Korelacja Pearsona
kwadratowych)
Istotność (dwustronna)
N
**. Korelacja jest istotna na poziomie 0.01 (dwustronnie).
,691
**
,000
67
67
**
1
,691
,000
67
67
Istotność jest znów mniejsza niż 0,05, więc odrzucamy hipotezę, jakoby zmienne nie były
skorelowane. Zauważmy dodatkowo, że współczynnik korelacji jest mniejszy, niż dla poprzedniego
badania (liczonych wszystkich obserwacji), co świadczy o tym, że wszystkie obserwacje są bardziej
skorelowane (tańsze domy „przeciągają” prostą na swoją stronę). Wykonamy analizę regresji tego
przypadku:
Podsumowanie modelu i oszacowań parametrów
Zmienna zależna:Cena
Oceny parametrów
Model - Podsumowanie
Równanie
Liniowy
R-kwadrat
,477
F
59,375
df1
Istotność
df2
1
65
,000
Stała
173224,620
b1
41,186
Zmienną niezależną jest Wielkość domu (w stopach kwadratowych).
Zmienne układają się wokół linii [wartość] = 41,186 * [cena] + 173224,620, co dokładnie prezentuje
wykres rozrzutu:
Zmienne są dodatnio słabo skorelowane (R=0,681) dla domów droższych niż 170 000$
Te same badania trzeba przeprowadzić dla drugiej grupy obserwacji (domów tańszych niż 170 000$)
Najpierw wykresy skrzynkowe:
Brak jest wartości odstających. Przetestujemy korelację zmiennych:
Korelacje
a
Wielkość domu (w stopach
Cena
Cena
kwadratowych)
Korelacja Pearsona
1
-,296
Istotność (dwustronna)
,171
N
Wielkość domu (w stopach
Korelacja Pearsona
kwadratowych)
Istotność (dwustronna)
23
23
-,296
1
,171
N
23
23
a. tani_dom = 1
Zauważamy, że istotność jest większa niż zakładana. Nie mamy więc podstaw do odrzucenia
hipotezy o niezależności zmiennych. Analiza regresji ma się następująco:
Podsumowanie modelu i oszacowań parametrów
a
Zmienna zależna:Cena
Oceny parametrów
Model - Podsumowanie
Równanie
R-kwadrat
Liniowy
,087
F
2,013
df1
Istotność
df2
1
21
Zmienną niezależną jest Wielkość domu (w stopach kwadratowych).
a. tani_dom = 1
,171
Stała
136400,221
b1
-4,177
Ponieważ istotność jest większa niż zakładana, a nie ma sensu robić analizy regresji bez stałej
(ponieważ nie jest tak, że dla zerowej powierzchni domu jego cena jest równa zero i rośnie liniowo),
więc nie mamy podstaw do odrzucenia hipotezy, że zmienne są niezależne (dla tańszych domów).
Wnioski z całej przeprowadzonej analizy regresji mają się następująco:

Rozpatrując wszystkie obserwacje otrzymujemy wysoki dodani współczynnik korelacji
(0,894), ale na wykresie analizy regresji widzimy, że dane układają się wokół dwóch podgrup.

Rozpatrując te obie podgrupy osobno:
o
Dla domów droższych współczynnik korelacji się zmniejsza, pomimo usunięcia
czterech odstających obserwacji wciąż jest on mniejszy niż 0,7
o
Wśród domów tańszych istotność korelacji przekracza zakładany poziom ufności,
więc nie mamy podstaw do odrzucenia hipotezy o niezależności zmiennych. Analiza
regresji pokazuje, że zmienne nie są zależne.