aiwd_-_laboratorium_05a
Transkrypt
aiwd_-_laboratorium_05a
POLITECHNIKA RZESZOWSKA IM. IGNACEGO ŁUKASIEWICZA WYDZIAŁ BUDOWY MASZYN I LOTNICTWA ZAKŁAD INFORMATYKI ANALIZA I WIZUALIZACJA DANYCH Laboratorium 5a Strona 1 z 13 1. Przygotowanie i analiza statystyk opisowych w pakiecie MS Excel 2. Wykorzystanie dodatku „Analiza danych” w pakiecie MS Excel Ad 1. Pakiet MS Excel jest wyposażony w bardzo przydatne narzędzie służące do wszechstronnej analizy danych, którym jest dodatek: „Analiza danych”. W celu jego uruchomienia należy wpierw go włączyć zaznaczając odpowiednią funkcjonalność w menu „Narzędzia” „Dodatki” – rysunek 1. - nazwa dodatku to „Analysis ToolPak”. Rysunek 1. Dodatek jest uruchamiany po wybraniu opcji „Analiza danych” z menu „Narzędzia”. Po jego uruchomieniu system wyświetla listę 19 narzędzi użytecznych w analizie danych. W pierwszej kolejności zostanie przedstawiona możliwość narzędzia „Statystyka opisowa”. Umożliwia ono na szybkie wyznaczenie 16 różnych miar statystycznych i zamieszczenie uzyskanych wyników w postaci wygodnej tabeli. Jest to perfekcyjne rozwiązanie dla każdego analityka zajmującego się statystycznym przetwarzaniem dużych baz danych czy innych zbiorów wartości. Miary statystyczne, które można obliczyć za pomocą ww. narzędzia przedstawiono z komentarzem w tabeli 1. W celu skorzystania z narzędzia „Statystyka opisowa” konieczne jest zdefiniowanie zakresu komórek zawierającego analizowane zbiory danych. Dodatkowo należy wskazać, czy dane pogrupowane są w wierszach, czy w kolumnach, Każdy wiersz lub każda kolumna musi zawierać inny zbiór danych. Wyniki obliczeń statystyk będą łatwiejsze do zinterpretowania, jeżeli każdy zbiór danych będzie posiadał swój własny nagłówek. Wymienione wyżej opcje ustawia się w oknie dialogowym narzędzia „Statystyka opisowa” – rysunek 2. Opracował: mgr inż. Marcin Olech POLITECHNIKA RZESZOWSKA IM. IGNACEGO ŁUKASIEWICZA WYDZIAŁ BUDOWY MASZYN I LOTNICTWA ZAKŁAD INFORMATYKI ANALIZA I WIZUALIZACJA DANYCH Laboratorium 5a Strona 2 z 13 Tabela 1. Lp. Statystyka 1 Średnia 2 Błąd standardowy 3 Mediana 4 Tryb 5 Odchylenie standardowe 6 Wariancja próbki 7 8 9 10 11 12 13 14 15 Kurtoza Skośność Zakres Minimum Maksimum Suma Licznik Największy (N) Najmniejszy (N) 16 Poziom ufności Opis Średnia wartość zbioru danych lub inaczej wartość centralna dystrybucji zbioru danych Estymata odchylenia standardowego różnicy między wartością prognozowaną a wartością prawdziwą Wartość środkowa zbioru wartości Dominanta (wartość modalna), najczęściej występująca wartość w zbiorze danych Rozrzut poszczególnych wartości zbioru wokół wartości średniej Kwadrat wartości odchylenia standardowego lub inaczej miara zmienności zbioru wartości Miara spłaszczenia rozkładu wartości zbioru danych Miara asymetrii rozkładu wartości zbioru danych Różnica między największą i najmniejszą wartością zbioru Najmniejsza wartość zbioru Największa wartość zbioru Suma wszystkich elementów zbioru Liczba elementów zbioru N-ta największa wartość zbioru, gdzie N jest określoną liczbą całkowitą N-ta najmniejsza wartość zbioru, gdzie N jest określoną liczbą całkowitą Wartość określająca, jak bardzo wybrana wartość może się różnić od wartości średniej z założonym poziomem prawdopodobieństwa Rysunek 2. Oprócz określenia danych wejściowych należy określić odpowiednio opcje wyjścia tzn. o podać, gdzie ma zostać umieszczona tabela z wyliczonymi statystykami (istniejący arkusz – określić zakres, nowy arkusz, nowy skoroszyt), Opracował: mgr inż. Marcin Olech POLITECHNIKA RZESZOWSKA IM. IGNACEGO ŁUKASIEWICZA WYDZIAŁ BUDOWY MASZYN I LOTNICTWA ZAKŁAD INFORMATYKI ANALIZA I WIZUALIZACJA DANYCH Laboratorium 5a Strona 3 z 13 o wyświetlić lub ukryć statystyki podsumowujące (pozwala to na obliczenie wartości wszystkich podstawowych statystyk opisowych), o określić poziom ufności dla średniej – por. tabela 1. punkt 17., o pola „K-ta największa” i „K-ta najmniejsza” – por. tabela 1. punkt 14. i 15. Użycie narzędzia „Statystyka opisowa” zostanie przedstawione na przykładzie zadania. Przy podawaniu wyników obliczeń poszczególnych statystyk zostanie przedstawiony komentarz i opis do mniej znanych i intuicyjnych statystyk opisowych. Przykład Zadanie polega na obliczeniu i zinterpretowaniu statystyk opisowych dla danych przedstawionych na rysunku 3. dotyczących wysokości sprzedaży w poszczególnych sklepach detalicznych w dwóch regionach kraju. Rysunek 3. W celu rozwiązania zadania należy: o wprowadzić dane wejściowe do arkusza kalkulacyjnego – rysunek 3., o z menu „Narzędzia” wybrać opcję „Analiza danych...” „Statystyka opisowa”, o parametry w oknie dialogowym statystyki opisowej należy ustawić w sposób taki, jak przedstawiono na rysunku 4., Opracował: mgr inż. Marcin Olech POLITECHNIKA RZESZOWSKA IM. IGNACEGO ŁUKASIEWICZA WYDZIAŁ BUDOWY MASZYN I LOTNICTWA ZAKŁAD INFORMATYKI ANALIZA I WIZUALIZACJA DANYCH Laboratorium 5a Strona 4 z 13 Rysunek 4. o zaakceptować ustawienia przyciskiem „OK”, co spowoduje wyliczenie wszystkich statystyk opisowych i umieszczenie ich w tabeli rozpoczynającej się od komórki D1 – rysunek 5., Rysunek 5. o analiza i interpretacja uzyskanych wyników: Opracował: mgr inż. Marcin Olech POLITECHNIKA RZESZOWSKA IM. IGNACEGO ŁUKASIEWICZA WYDZIAŁ BUDOWY MASZYN I LOTNICTWA ZAKŁAD INFORMATYKI ANALIZA I WIZUALIZACJA DANYCH Laboratorium 5a Strona 5 z 13 średnia – region 1.: 3956, region 2.: 3696 – analiza średniej wykazuje, że sklepy w regionie 1. w stosunku do regionu 2. generowały przychody ze sprzedaży średnio o 260 j.p. większe, błąd standardowy – region 1. 149,015, region 2.: 89,591 – analiza błędu standardowego wykazuje niepewność związaną z estymacją średniej w populacji, analizując przedstawione wyniki można stwierdzić, że średnia wyliczona w wypadku regionu drugiego jest pewniejsza niż średnia obliczona dla regionu pierwszego (gdy liczba analizowanych elementów rośnie, błąd standardowy dąży do wartości 0), mediana – region 1.: 3960, region 2.: 3639 – analiza mediany (wartości środkowej) umożliwia określenie, że w regionie 1. połowa sklepów generuje zysk większy od 3960, a połowa mniejszy od tej wartości, w regionie 2. wartość mediany jest równa 3639, tryb – region 1.: 4462, region 2.: 3813 – analiza pozycji tryb (determinanty) umożliwia stwierdzenie, że w regionie pierwszym najczęściej pojawiająca się wartość przychodów ze sprzedaży była równa 4462, w regionie drugim 3813, odchylenie standardowe – region 1.: 537,2817, region 2.: 323,0248 – analiza pozycji odchylenia standardowego wskazuje, że w przypadku regionu pierwszego wartości sprzedaży rozrzucone są wokół wartości średniej o 537,2817, w wypadku regionu 2. o 323,0248, wariancja próbki – to kwadrat wartości odchylenia standardowego, kurtoza – region 1.: -0,9523, region 2.: -0,0147 – analiza kurtozy (współczynnika koncentracji, skupienia) pokazuje, że rozkład danych w wypadku rynku 1. jest nieco bardziej spłaszczone (mają mniejszą koncentrację) w stosunku do rozkład normalny, natomiast rozkład danych dotyczących rynku 2. przypomina rozkład normalny – informacje o wartościach współczynnika kurtozy przedstawiono w tabeli 2. Tabela 2. Kurtoza <0 Nazwa rozkładu platokurtyczny ≈(=)0 mezokurtyczny >0 leptokurtyczny Komentarz większe spłaszczenie rozkładu danych (mniejsza koncentracja rozkładu danych) w stosunku do spłaszczenia rozkładu normalnego spłaszczenie rozkładu danych podobne do spłaszczenia rozkładu normalnego (kurtoza rozkładu normalnego jest równa dokładnie 0) większa koncentracja (mniejsze spłaszczenie) rozkładu danych w stosunku do koncentracji danych dla rozkładu normalnego skośność – region 1.: -0,1289, region 2.: 0,3898 – analiza współczynnika skośności (asymetrii) informuje, że rozkład danych w przypadku regionu 1. cechuje się asymetrią lewostronną, rozkład danych dla regionu 2. prawostronną – informacje o współczynniku asymetrii przedstawiono w tabeli 3. zakres – region 1.: 1763, region 2.: 1087 – analiza zakresu informuje, że w wypadku danych pochodzących z regionu 1. różnica między najniższym, a najwyższym podanym wynikiem sprzedaży jest większa niż w przypadku danych pochodzących z regionu 2., Opracował: mgr inż. Marcin Olech POLITECHNIKA RZESZOWSKA IM. IGNACEGO ŁUKASIEWICZA WYDZIAŁ BUDOWY MASZYN I LOTNICTWA ZAKŁAD INFORMATYKI ANALIZA I WIZUALIZACJA DANYCH Laboratorium 5a Strona 6 z 13 Tabela 3. Skośność <0 =0 >0 Komentarz rozkład cechuje się asymetrycznością lewostronną rozkład symetryczny rozkład cechuje się asymetrycznością prawostronną minimum – region 1.: 3061, region 2.: 3188 – interpretacja wskaźnika: najniższa sprzedaż była równa 3061 i została osiągnięta w regionie 1., maksimum – region 1.: 4824, region 2.: 4275 – najwyższa sprzedaż była równa 4824 i została osiągnięta w regionie 1., suma – region 1.: 51428, region 2.: 48048 – łączna wartość sprzedaży w regionie 1. była wyższa niż w regionie 2. i była równa 51428, licznik – region 1.: 13, region 2.: 13 – zarówno w pierwszym, jak i drugim regionie funkcjonowało i sprzedawało produkty 13 placówek (sklepów detalicznych), Największy(2) – region 1.: 4462, region 2.: 4239 – druga w kolejności najwyższa sprzedaż produktów wynosząca 4462 została osiągnięta w regionie 1. (porównaj maksimum regionu 2. i drugą wartość najwyższą regionu 1.), Najmniejszy(2) – region 1.: 3238, region 2.: 3254 – analizując wyniki najniższej sprzedaży produktów, druga w kolejności najniższa sprzedaż miała miejsce w regionie 2. (por. minimum regionu 2.), Poziom ufności(90,0%) – region 1.: 265,5877, region 2.: 159,6768 – wynik oznacza, że przychody ze sprzedaży na 90% będą zawierały się w przedziale (średnia – poziom ufności, średnia + poziom ufności) czyli od 3690,4113 do 4221,5877 dla regionu 1. i od 3536,3232 do 3855,6767 dla regionu 2. Analizując sposób rozwiązania zadania i interpretację rezultatów można stwierdzić, iż narzędzie „Statystyka opisowa” dostępna w pakiecie MS Excel jest bardzo wygodnym i elastycznym narzędziem do analizy danych. Zadania do wykonania: Z partii bawełny pobrano próbkę złożoną z 64 włókien, a następnie zmierzono długość tych włókien (w mm). otrzymano następujące wyniki: 23, 8, 15, 35, 21, 20, 10, 4, 28, 12, 9, 7, 24, 25, 31, 26, 23, 17, 13, 33, 29, 27, 24, 22, 32, 16, 9, 29, 22, 20, 8, 16, 21, 25, 31, 29, 23, 15, 32, 22, 23, 19, 24, 15, 21, 20, 29, 27, 23, 19, 16, 18, 24, 31, 28, 21, 8, 17, 24, 13, 12, 18, 23, 25. Na podstawie przedstawionych danych obliczyć i zinterpretować statystyki opisowe. Poziom ufności przyjąć według uznania. Z grupy pracowników pewnego zakładu wykonujących taką samą pracę wybrano w sposób losowy 13 pracowników i dokonano badania pod względem wydajności pracy (w szt./h) uzyskując następujące dane: 21, 12, 15, 9, 10, 17, 8, 16, 13, 12, 9, 18. Na tej podstawie należy wyznaczyć 95%-ową realizację przedziału ufności. Dodatkowo wyznaczyć i zinterpretować statystyki opisowe. Opracował: mgr inż. Marcin Olech POLITECHNIKA RZESZOWSKA IM. IGNACEGO ŁUKASIEWICZA WYDZIAŁ BUDOWY MASZYN I LOTNICTWA ZAKŁAD INFORMATYKI ANALIZA I WIZUALIZACJA DANYCH Laboratorium 5a Strona 7 z 13 Ad 2. Przegląd wybranych narzędzi analitycznych dostępnych w dodatku „Analysis ToolPak”: Narzędzia do analizy wariancji ANOVA i znajdowania korelacji między zestawami danych zostaną przedstawione odpowiednio w punkcie 4. i 5. o Wygładzanie wykładnicze – to narzędzie analityczne, które służy do przewidywania wartości na podstawie prognozy dla poprzedniego okresu, skorygowanej o błąd, jaki w niej wystąpił. Narzędzie wykorzystuje stałą wygładzania a, której wielkość określa stopień reakcji prognoz na błędy istniejące w poprzedniej prognozie. Uwaga: Rozsądne wartości współczynnika wygładzania zawierają się w przedziale od 0,2 do 0,3. Oznaczają one, że w bieżącej prognozie należy uwzględnić 20 lub 30-procentową poprawkę na błąd, jaki wystąpił w poprzedniej prognozie. Większe wartości współczynnika dają szybszą odpowiedź, ale mogą być przyczyną błędnych prognoz. Mniejsze wartości współczynnika mogą powodować wydłużenie czasu obliczania wartości prognozy. Interfejs graficzny przedstawiono na rysunku 6. Rysunek 6. Przykład Pewna firma prowadzi sprzedaż oleju opałowego. Dane dotyczące kwartalnej sprzedaży w tys. ton w latach 1999-2004 znajdują się w tabeli 4. Należy wyznaczyć przewidywaną wielkość sprzedaży oleju opałowego w ostatnim kwartale 2004 roku oraz obliczyć błąd bezwzględny i względny, przyjmując wartość rzeczywistą w czwartym kwartale 2004 r. na poziomie 650 tys. ton. Sprawdzić prognozy dla kilku parametrów wygładzania wykładniczego np. 0,1; 0,2; 0,25; 0,3; 0,5; 0,75. Tabela 4. Kwartały I II III IV Lata 1999 500 350 250 400 2000 450 350 200 300 2001 350 200 150 400 2002 550 350 250 550 Opracował: mgr inż. Marcin Olech 2003 550 400 350 600 2004 750 500 400 ? POLITECHNIKA RZESZOWSKA IM. IGNACEGO ŁUKASIEWICZA WYDZIAŁ BUDOWY MASZYN I LOTNICTWA ZAKŁAD INFORMATYKI ANALIZA I WIZUALIZACJA DANYCH Laboratorium 5a Strona 8 z 13 W celu rozwiązania przedstawionego zadania należy: wprowadzić dane do arkusza kalkulacyjnego – rysunek 7. Rysunek 7. uruchomić narzędzie „Wygładzanie wykładnicze” i ustawić jego parametry tak, jak przedstawiono to na rysunku 8. Rysunek 8. Opracował: mgr inż. Marcin Olech POLITECHNIKA RZESZOWSKA IM. IGNACEGO ŁUKASIEWICZA WYDZIAŁ BUDOWY MASZYN I LOTNICTWA ZAKŁAD INFORMATYKI ANALIZA I WIZUALIZACJA DANYCH Laboratorium 5a Strona 9 z 13 po zaakceptowaniu parametrów, system przeanalizuje dane i stworzy prognozę zjawiska na określoną liczbę okresów do przodu, dodatkowo zaprezentowany zostanie wykres wartości rzeczywistych i prognozowanych – rysunek 9., Rysunek 9. wyniki prognoz powinny zostać wpisane do tabeli, która posłuży do obliczenia błędów względnych i bezwzględnych poszczególnych prognoz – gotową tabelę z wynikami prognoz przedstawiono na rysunku 10. Rysunek 10. Zadanie do wykonania: Sprzedaż benzyny na pewnej stacji benzynowej w tys. litrów w kolejnych miesiącach 2003 roku kształtowała się w sposób taki, jak przedstawiono w tabeli 5. Tabela 5. Miesiąc Sprzedaż 1 155 2 162 3 158 4 149 5 152 6 150 7 158 8 154 Opracował: mgr inż. Marcin Olech 9 148 10 153 11 158 12 152 POLITECHNIKA RZESZOWSKA IM. IGNACEGO ŁUKASIEWICZA WYDZIAŁ BUDOWY MASZYN I LOTNICTWA ZAKŁAD INFORMATYKI ANALIZA I WIZUALIZACJA DANYCH Laboratorium 5a Strona 10 z 13 Należy wyznaczyć prognozę sprzedaży benzyny na styczeń 2004 stosując metodę wygładzania wykładniczego z parametrami a={0,05; 0,1; 0,2; 0,25; 0,3; 0,4; 0,5; 0,6; 0,75; 0,8; 0,9}. Dokonać analizy wyników poprzez obliczenie błędu względnego i bezwzględnego biorąc pod uwagę fakt, iż rzeczywista wielkość sprzedaży w styczniu 2004 roku była równa 159 tys. litrów. o histogram – to narzędzie analityczne służące do obliczania indywidualnych i skumulowanych częstotliwości dla danych, znajdujących się w zakresach komórek oraz dla przedziałów danych. Narzędzie generuje dane dotyczące liczby wystąpień danej wartości w zbiorze danych. Na przykład można wyznaczyć rozkład uzyskanych ocen w grupie liczącej 20 studentów. Tabela histogramu zawiera granice przedziałów oraz liczbę ocen między najniższą, a bieżącą granicą. Najczęściej występująca ocena nazywana jest wartością modalną danych. Przykład Zadanie polega na stworzeniu histogramu zawierającego informację o częstości występowania zamówień towarów w określonych przedziałach w pierwszym półroczu roku 2010. Dane źródłowe zostały już wprowadzone do arkusza kalkulacyjnego i są dostępne w pliku histogram_dane.xls. W celu rozwiązania zadania należy: otworzyć ww. plik z danymi wejściowymi (w pliku zostały również zdefiniowane przedziały, według których histogram ma zostać stworzony), uruchomić narzędzie „Histogram” z dodatku „Analiza danych”, ustawić parametry narzędzia w sposób taki, jak przedstawiono to na rysunku 11. Rysunek 11. po zaakceptowaniu parametrów system automatycznie zliczy wystąpienia wyników w poszczególnych przedziałach i stworzy na tej podstawie histogram – rysunek 12. Opracował: mgr inż. Marcin Olech POLITECHNIKA RZESZOWSKA IM. IGNACEGO ŁUKASIEWICZA WYDZIAŁ BUDOWY MASZYN I LOTNICTWA ZAKŁAD INFORMATYKI ANALIZA I WIZUALIZACJA DANYCH Laboratorium 5a Strona 11 z 13 Rysunek 12. interpretując otrzymane wyniki, można stwierdzić, że klienci zamawiają najczęściej towary w ilościach 60 j. oraz 100 j. Zadanie do wykonania: Wykonano 40 pomiarów liczby skrętów przędzy na odcinkach o długości 500mm i otrzymano następujące wyniki: 405, 420, 411, 427, 479, 440, 378, 468, 437, 452, 421, 414, 402, 422, 462, 428, 431, 414, 437, 405, 390, 425, 425, 400, 432, 447, 385, 419, 400, 425, 458, 439, 360, 405, 369, 406, 431, 412, 387, 416. Stworzyć histogram przyjmując liczbę klas (przedziałów) równą 8. Obliczyć statystyki opisowe dla prezentowanych danych i dokonać ich interpretacji. o średnia ruchoma – jest to narzędzie analityczne przewidujące wartości w okresie prognozy na podstawie średniej wartości zmiennej dla określonej liczby poprzednich okresów. Umiejętne wykorzystanie średniej ruchomej może spowodować ujawnienie trendu, który przy zastosowaniu średniej arytmetycznej nie byłby widoczny ze względu na nadawanie każdej wartości równej jeden. Średniej ruchomej używa się najczęściej do przewidywania wysokości sprzedaży, kursów akcji i analizy innych trendów. Przykład Na podstawie danych przedstawionych na rysunku 13. dokonać prognozowania sprzedaży w rozpatrywanym okresie przyjmując interwał równy: 2, 3, 4 i 5. Ocenić trafność prognoz biorąc pod uwagę przyjęty interwał – wykazać minimalny, maksymalny i średni błąd standardowy, dodatkowo przyjmując sprzedaż 2010-10-20 jako wartość wzorcową obliczyć błąd względny i bezwzględny prognozy dla tej daty. Do każdej prognozy wykonać wykres pokazujący dane rzeczywiste i prognozowane. Sposób rozwiązania postawionego problemu: wprowadzenie danych wejściowych do arkusza kalkulacyjnego, uruchomienie narzędzia „Średnia ruchoma” z pakietu „Analysis ToolPak”, ustawienie parametrów początkowych w sposób taki, jak przedstawiono na rysunku 14., wyliczenie średniego, maksymalnego i minimalnego błędu standardowego przy użyciu odpowiednich funkcji, wyliczenie wartości błędu bezwzględnego i względnego dla 2010-10-20, sformatowanie wykresu i arkusza danych w celu uzyskania odpowiedniej czytelności danych i wyników, Opracował: mgr inż. Marcin Olech POLITECHNIKA RZESZOWSKA IM. IGNACEGO ŁUKASIEWICZA WYDZIAŁ BUDOWY MASZYN I LOTNICTWA ZAKŁAD INFORMATYKI ANALIZA I WIZUALIZACJA DANYCH Laboratorium 5a Strona 12 z 13 obliczenie prognoz sprzedaży, błędów, stworzenie wykresów dla interwałów równych odpowiednio 3, 4 i 5 okresów. Fragment arkusza z rozwiązanym zadaniem przedstawiono na rysunku 15. Rysunek 13. Rysunek 14. Opracował: mgr inż. Marcin Olech POLITECHNIKA RZESZOWSKA IM. IGNACEGO ŁUKASIEWICZA WYDZIAŁ BUDOWY MASZYN I LOTNICTWA ZAKŁAD INFORMATYKI ANALIZA I WIZUALIZACJA DANYCH Laboratorium 5a Strona 13 z 13 Rysunek 15. Zadanie do wykonania: Korzystając z danych przedstawionych na rysunku 7. wykonać prognozę sprzedaży oleju opałowego z użyciem narzędzia „Średnia ruchoma” dla interwału równego 2, 3, 4 i 5 okresów. Analogicznie jak w przykładowym zadaniu wyliczyć dla każdego interwału średni, minimalny i maksymalny błąd standardowy. Przyjmując dane rzeczywiste z ostatniego okresu jako wartości wzorcowe wyliczyć błąd względny i bezwzględny w tym okresie. Analogiczne zadanie wykonać dla danych przedstawionych w tabeli 5. (sprzedaż benzyny). Opracował: mgr inż. Marcin Olech