Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych
Transkrypt
Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych
Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Zadanie 1 Eksploracja (EXAMINE) Informacja o analizowanych danych Obserwacje Uwzględnione Wykluczone Ogółem Procen Procen N t N t N Procent Wzrost cen w 230 70,1% 98 29,9% 328 100,0% ciągu ostatnich 12 miesięcy Wzrost cen w 230 70,1% 98 29,9% 328 100,0% najbliższych 12 miesiącach Statystyki opisowe (DESCRIPTIVES) Wzrost cen w Średnia ciągu ostatnich 12 95% przedział Dolna granica miesięcy ufności dla Górna granica średniej 5% średnia obcięta Mediana Wariancja Odchylenie standardowe Minimum Maksimum Rozstęp Rozstęp ćwiartkowy Skośność Kurtoza Statystyka 40,19 36,25 44,13 37,00 30,00 920,196 30,335 2 300 298 26 3,954 26,373 Wzrost cen w najbliższych 12 miesiącach Średnia 95% przedział Dolna granica ufności dla Górna granica średniej 5% średnia obcięta Mediana Wariancja Odchylenie standardowe Minimum Maksimum Rozstęp Rozstęp ćwiartkowy Skośność Kurtoza 38,85 34,83 42,87 35,63 30,00 958,458 30,959 2 300 298 30 3,583 22,979 Statystyki opisowe (DESCRIPTIVES) Wzrost cen w Średnia ciągu ostatnich 12 95% przedział Dolna granica miesięcy ufności dla Górna granica średniej 5% średnia obcięta Mediana Wariancja Odchylenie standardowe Minimum Maksimum Rozstęp Rozstęp ćwiartkowy Skośność Kurtoza Błąd standardo wy 2,000 ,160 ,320 Wzrost cen w najbliższych 12 miesiącach Średnia 95% przedział Dolna granica ufności dla Górna granica średniej 5% średnia obcięta Mediana Wariancja Odchylenie standardowe Minimum Maksimum Rozstęp Rozstęp ćwiartkowy Skośność Kurtoza 2,041 ,160 ,320 Obie próby są do siebie podobne. Średnia wynosi około 40. Mediana wynosi 30 dla każdej zmiennej. Wartości minimum i maksimum wynoszą tyle samo 2 i 300. Odchylenie standardowe około 30 dla obu zmiennych. Próba jest duża. Uwzględniono 230 obserwacji. Percentyle Przeciętne Wzrost cen w ważone (Definicja ciągu ostatnich 12 1) miesięcy Wzrost cen w najbliższych 12 miesiącach Zawiasy Tukey'a Wzrost cen w ciągu ostatnich 12 miesięcy Wzrost cen w najbliższych 12 miesiącach 5 10,00 Percentyle 10 25 17,10 23,75 50 30,00 10,00 10,50 20,00 30,00 24,00 30,00 20,00 30,00 Percentyle Przeciętne Wzrost cen w ważone (Definicja ciągu ostatnich 12 1) miesięcy Wzrost cen w najbliższych 12 miesiącach Zawiasy Tukey'a Wzrost cen w ciągu ostatnich 12 miesięcy Wzrost cen w najbliższych 12 miesiącach Percentyle 75 90 95 50,00 69,00 100,00 50,00 50,00 50,00 70,00 100,00 Wzrost cen w ciągu ostatnich 12 miesięcy Wzrost cen w najbliższych 12 miesiącach Zadanie 2 Test T (T-TEST) W pliku Dane_wzrost_cen.sav próba jest duża nie ma, więc konieczności sprawdzania normalności rozkładu. H0: Oprocentowanie 12-miesięcznych lokat jest równe 3-krotnej inflacji. H1: Oprocentowanie 12-miesięcznych lokat jest inne niż 3-krotna inflacja. Statystyki dla jednej próby Odchyleni Błąd e standardo Średni standardo wy N a we średniej 12 miesięczne 217 40,66 18,878 1,282 oprocentowania zł na lokacie Test dla jednej próby Wartość testowana = 30 Istotność (dwustron Różnica t df na) średnich 12 miesięczne 8,321 216 ,000 10,664 oprocentowania zł na lokacie Test dla jednej próby Wartość testowana = 30 95% przedział ufności dla różnicy średnich Dolna granica Górna granica 12 miesięczne 8,14 13,19 oprocentowania zł na lokacie Istotność jest mniejsza niż 0,05 -> H0 odrzucamy i przyjmujemy H1. Zadanie 3 Test T (T-TEST) W pliku Dane_wzrost_cen.sav próba jest duża nie ma, więc konieczności sprawdzania normalności rozkładu. H0: Zmienne mają jednakowe średnie. H1: Zmienne mają różne średnie. Statystyki dla prób zależnych Para Wzrost cen w 1 ciągu ostatnich 12 miesięcy Wzrost cen w najbliższych 12 miesiącach Błąd Odchylenie standardo standardow wy Średnia N e średniej 40,19 230 30,335 2,000 38,85 230 30,959 Korelacje dla prób zależnych N Korelacja Istotność Para Wzrost cen w 230 ,885 ,000 1 ciągu ostatnich 12 miesięcy & Wzrost cen w najbliższych 12 miesiącach 2,041 Test dla prób zależnych Różnice w próbach zależnych Błąd Średni Odchylenie standardowy a standardowe średniej Para Wzrost cen w 1,335 14,738 ,972 1 ciągu ostatnich 12 miesięcy - Wzrost cen w najbliższych 12 miesiącach Test dla prób zależnych Różnice w próbach zależnych 95% przedział ufności dla różnicy średnich Dolna Górna granica granica Para Wzrost cen w -,580 3,250 1 ciągu ostatnich 12 miesięcy - Wzrost cen w najbliższych 12 miesiącach t 1,374 df 229 Test dla prób zależnych Istotność (dwustron na) Para Wzrost cen w ,171 1 ciągu ostatnich 12 miesięcy - Wzrost cen w najbliższych 12 miesiącach Otrzymaliśmy istotność większą niż 0,05 -> Nie ma podstaw do odrzucenia H0. Zadanie 4 Dopasowanie krzywej (CURVEFIT) Opis modelu Nazwa modelu MOD_1 Zmienna 1 Wzrost cen w ciągu zależna ostatnich 12 miesięcy Równanie 1 Liniowy Zmienna niezależna Wzrost cen w najbliższych 12 miesiącach Stała Uwzględnione Zmienna opisująca obserwacje Nieokreślone na wykresach Informacja o analizowanych danych Liczebno ść Ogółem 328 obserwacji Obserwacje 98 a wykluczone Obserwacje 0 prognozowane Nowoutworzone 0 obserwacje a. Obserwacje z brakami danych w dowolnej ze zmiennych są wykluczane z analizy. Podsumowanie przetwarzanych zmiennych Zmienne Niezależn Zależna a Wzrost Wzrost cen w cen w ciągu najbliższy ostatnich ch 12 12 miesiącac miesięcy h Liczba dodatnich wartości 266 241 Liczba zer 0 0 Liczba ujemnych wartości 0 0 Liczba braków Brak danych 62 87 danych zdefiniowany przez użytkownika Systemowy brak 0 0 danych Podsumowanie modelu i oszacowań parametrów Zmienna zależna:Wzrost cen w ciągu ostatnich 12 miesięcy Oceny Model - Podsumowanie parametrów Równa R-kwad Istotno nie rat F df1 df2 ść Stała b1 Liniowy ,782 820,08 1 228 ,000 6,513 ,867 5 Zmienną niezależną jest Wzrost cen w najbliższych 12 miesiącach. R^2 = 0,782 co oznacza, że w 78% różnice w prognozie dają się wytłumaczyć różnicami w zauważonym przez respondentów wzroście cen w ubiegłym okresie. R=0,884 co świadczy o dodatniej korelacji miedzy prognozą cen i ubiegłym okresem. Równanie prostej regresji ma postać y = 0,867 * x + 6,513. Eksploracja (EXAMINE) Informacja o analizowanych danych Obserwacje Uwzględnione Wykluczone Ogółem N Procent N Procent N Procent Wzrost cen w 230 70,1% 98 29,9% 328 100,0% ciągu ostatnich 12 miesięcy Wzrost cen w 230 70,1% 98 29,9% 328 100,0% najbliższych 12 miesiącach Wykresy skrzynkowe ujawniły przypadki odstające dla zmiennych wzrost_wstecz i wzrost_prognoza. Jest 24 takich obserwacji, wartości usuwamy z pliku i powtarzamy analizę. Dopasowanie krzywej (CURVEFIT) Opis modelu Nazwa modelu MOD_2 Zmienna 1 Wzrost cen w ciągu zależna ostatnich 12 miesięcy Równanie 1 Liniowy Zmienna niezależna Wzrost cen w najbliższych 12 miesiącach Stała Uwzględnione Zmienna opisująca obserwacje Nieokreślone na wykresach Informacja o analizowanych danych Liczebno ść Ogółem 304 obserwacji Obserwacje 94 a wykluczone Obserwacje 0 prognozowane Nowoutworzone 0 obserwacje Informacja o analizowanych danych Liczebno ść Ogółem 304 obserwacji Obserwacje 94 a wykluczone Obserwacje 0 prognozowane Nowoutworzone 0 obserwacje a. Obserwacje z brakami danych w dowolnej ze zmiennych są wykluczane z analizy. Podsumowanie przetwarzanych zmiennych Zmienne Niezależn Zależna a Wzrost Wzrost cen w cen w ciągu najbliższy ostatnich ch 12 12 miesiącac miesięcy h Liczba dodatnich wartości 243 220 Liczba zer 0 0 Liczba ujemnych wartości 0 0 Liczba braków Brak danych 61 84 danych zdefiniowany przez użytkownika Systemowy brak 0 0 danych Podsumowanie modelu i oszacowań parametrów Zmienna zależna:Wzrost cen w ciągu ostatnich 12 miesięcy Oceny Model - Podsumowanie parametrów Równa R-kwad Istotno nie rat F df1 df2 ść Stała b1 Liniowy ,585 293,06 1 208 ,000 10,984 ,706 0 Zmienną niezależną jest Wzrost cen w najbliższych 12 miesiącach. R^2 = 0,585 co oznacza, że w 59% różnice w prognozie dają się wytłumaczyć różnicami w zauważonym przez respondentów wzroście cen w ubiegłym okresie. R=0,765 co świadczy o dodatniej korelacji miedzy prognozą cen i ubiegłym okresem. Równanie prostej regresji ma postać y = 0,706 * x + 10,984. Równanie może być używane do przewidywania odpowiedzi na drugie pytanie na podstawie odpowiedzi na pierwsze, ponieważ R=0,765 co świadczy o dodatniej korelacji miedzy prognozą cen i ubiegłym okresem.