aiwd_-_laboratorium_05a

Transkrypt

POLITECHNIKA RZESZOWSKA IM. IGNACEGO ŁUKASIEWICZA
WYDZIAŁ BUDOWY MASZYN I LOTNICTWA
ZAKŁAD INFORMATYKI
ANALIZA I WIZUALIZACJA DANYCH
Laboratorium 5a
Strona 1 z 13
1. Przygotowanie i analiza statystyk opisowych w pakiecie MS Excel
2. Wykorzystanie dodatku „Analiza danych” w pakiecie MS Excel
Ad 1.
Pakiet MS Excel jest wyposażony w bardzo przydatne narzędzie służące do wszechstronnej
analizy danych, którym jest dodatek: „Analiza danych”. W celu jego uruchomienia należy
wpierw go włączyć zaznaczając odpowiednią funkcjonalność w menu „Narzędzia” 
„Dodatki” – rysunek 1. - nazwa dodatku to „Analysis ToolPak”.
Rysunek 1.
Dodatek jest uruchamiany po wybraniu opcji „Analiza danych” z menu „Narzędzia”. Po jego
uruchomieniu system wyświetla listę 19 narzędzi użytecznych w analizie danych.
W pierwszej kolejności zostanie przedstawiona możliwość narzędzia „Statystyka opisowa”.
Umożliwia ono na szybkie wyznaczenie 16 różnych miar statystycznych i zamieszczenie
uzyskanych wyników w postaci wygodnej tabeli. Jest to perfekcyjne rozwiązanie dla każdego
analityka zajmującego się statystycznym przetwarzaniem dużych baz danych czy innych
zbiorów wartości. Miary statystyczne, które można obliczyć za pomocą ww. narzędzia
przedstawiono z komentarzem w tabeli 1. W celu skorzystania z narzędzia „Statystyka
opisowa” konieczne jest zdefiniowanie zakresu komórek zawierającego analizowane zbiory
danych. Dodatkowo należy wskazać, czy dane pogrupowane są w wierszach, czy
w kolumnach, Każdy wiersz lub każda kolumna musi zawierać inny zbiór danych. Wyniki
obliczeń statystyk będą łatwiejsze do zinterpretowania, jeżeli każdy zbiór danych będzie
posiadał swój własny nagłówek. Wymienione wyżej opcje ustawia się w oknie dialogowym
narzędzia „Statystyka opisowa” – rysunek 2.
Opracował: mgr inż. Marcin Olech
ZAKŁAD INFORMATYKI
Laboratorium 5a
Strona 2 z 13
Tabela 1.
Lp.
Statystyka
1
Średnia
2
Błąd standardowy
3
Mediana
4
Tryb
5
Odchylenie
standardowe
6
Wariancja próbki
7
8
9
10
11
12
13
14
15
Kurtoza
Skośność
Zakres
Minimum
Maksimum
Suma
Licznik
Największy (N)
Najmniejszy (N)
16
Poziom ufności
Opis
Średnia wartość zbioru danych lub inaczej wartość centralna dystrybucji
zbioru danych
Estymata odchylenia standardowego różnicy między wartością prognozowaną
a wartością prawdziwą
Wartość środkowa zbioru wartości
Dominanta (wartość modalna), najczęściej występująca wartość w zbiorze
danych
Rozrzut poszczególnych wartości zbioru wokół wartości średniej
Kwadrat wartości odchylenia standardowego lub inaczej miara zmienności
zbioru wartości
Miara spłaszczenia rozkładu wartości zbioru danych
Miara asymetrii rozkładu wartości zbioru danych
Różnica między największą i najmniejszą wartością zbioru
Najmniejsza wartość zbioru
Największa wartość zbioru
Suma wszystkich elementów zbioru
Liczba elementów zbioru
N-ta największa wartość zbioru, gdzie N jest określoną liczbą całkowitą
N-ta najmniejsza wartość zbioru, gdzie N jest określoną liczbą całkowitą
Wartość określająca, jak bardzo wybrana wartość może się różnić od wartości
średniej z założonym poziomem prawdopodobieństwa
Rysunek 2.
Oprócz określenia danych wejściowych należy określić odpowiednio opcje wyjścia tzn.
o podać, gdzie ma zostać umieszczona tabela z wyliczonymi statystykami (istniejący
arkusz – określić zakres, nowy arkusz, nowy skoroszyt),
ZAKŁAD INFORMATYKI
Laboratorium 5a
Strona 3 z 13
o wyświetlić lub ukryć statystyki podsumowujące (pozwala to na obliczenie wartości
wszystkich podstawowych statystyk opisowych),
o określić poziom ufności dla średniej – por. tabela 1. punkt 17.,
o pola „K-ta największa” i „K-ta najmniejsza” – por. tabela 1. punkt 14. i 15.
Użycie narzędzia „Statystyka opisowa” zostanie przedstawione na przykładzie zadania. Przy
podawaniu wyników obliczeń poszczególnych statystyk zostanie przedstawiony komentarz
i opis do mniej znanych i intuicyjnych statystyk opisowych.
Przykład
Zadanie polega na obliczeniu i zinterpretowaniu statystyk opisowych dla danych
przedstawionych na rysunku 3. dotyczących wysokości sprzedaży w poszczególnych sklepach
detalicznych w dwóch regionach kraju.
Rysunek 3.
W celu rozwiązania zadania należy:
o wprowadzić dane wejściowe do arkusza kalkulacyjnego – rysunek 3.,
o z menu „Narzędzia” wybrać opcję „Analiza danych...”  „Statystyka opisowa”,
o parametry w oknie dialogowym statystyki opisowej należy ustawić w sposób taki, jak
przedstawiono na rysunku 4.,
ZAKŁAD INFORMATYKI
Laboratorium 5a
Strona 4 z 13
Rysunek 4.
o zaakceptować ustawienia przyciskiem „OK”, co spowoduje wyliczenie wszystkich
statystyk opisowych i umieszczenie ich w tabeli rozpoczynającej się od komórki D1 –
rysunek 5.,
Rysunek 5.
o analiza i interpretacja uzyskanych wyników:
ZAKŁAD INFORMATYKI
Laboratorium 5a
Strona 5 z 13







średnia – region 1.: 3956, region 2.: 3696 – analiza średniej wykazuje, że
sklepy w regionie 1. w stosunku do regionu 2. generowały przychody ze
sprzedaży średnio o 260 j.p. większe,
błąd standardowy – region 1. 149,015, region 2.: 89,591 – analiza błędu
standardowego wykazuje niepewność związaną z estymacją średniej
w populacji, analizując przedstawione wyniki można stwierdzić, że średnia
wyliczona w wypadku regionu drugiego jest pewniejsza niż średnia obliczona
dla regionu pierwszego (gdy liczba analizowanych elementów rośnie, błąd
standardowy dąży do wartości 0),
mediana – region 1.: 3960, region 2.: 3639 – analiza mediany (wartości
środkowej) umożliwia określenie, że w regionie 1. połowa sklepów generuje
zysk większy od 3960, a połowa mniejszy od tej wartości, w regionie 2.
wartość mediany jest równa 3639,
tryb – region 1.: 4462, region 2.: 3813 – analiza pozycji tryb (determinanty)
umożliwia stwierdzenie, że w regionie pierwszym najczęściej pojawiająca się
wartość przychodów ze sprzedaży była równa 4462, w regionie drugim 3813,
odchylenie standardowe – region 1.: 537,2817, region 2.: 323,0248 – analiza
pozycji odchylenia standardowego wskazuje, że w przypadku regionu
pierwszego wartości sprzedaży rozrzucone są wokół wartości średniej
o 537,2817, w wypadku regionu 2. o 323,0248,
wariancja próbki – to kwadrat wartości odchylenia standardowego,
kurtoza – region 1.: -0,9523, region 2.: -0,0147 – analiza kurtozy
(współczynnika koncentracji, skupienia) pokazuje, że rozkład danych
w wypadku rynku 1. jest nieco bardziej spłaszczone (mają mniejszą
koncentrację) w stosunku do rozkład normalny, natomiast rozkład danych
dotyczących rynku 2. przypomina rozkład normalny – informacje
o wartościach współczynnika kurtozy przedstawiono w tabeli 2.
Tabela 2.
Kurtoza
<0
Nazwa rozkładu
platokurtyczny
≈(=)0
mezokurtyczny
>0
leptokurtyczny


Komentarz
większe spłaszczenie rozkładu danych (mniejsza koncentracja rozkładu
danych) w stosunku do spłaszczenia rozkładu normalnego
spłaszczenie rozkładu danych podobne do spłaszczenia rozkładu
normalnego (kurtoza rozkładu normalnego jest równa dokładnie 0)
większa koncentracja (mniejsze spłaszczenie) rozkładu danych w stosunku
do koncentracji danych dla rozkładu normalnego
skośność – region 1.: -0,1289, region 2.: 0,3898 – analiza współczynnika
skośności (asymetrii) informuje, że rozkład danych w przypadku regionu 1.
cechuje się asymetrią lewostronną, rozkład danych dla regionu 2.
prawostronną – informacje o współczynniku asymetrii przedstawiono w tabeli
3.
zakres – region 1.: 1763, region 2.: 1087 – analiza zakresu informuje, że
w wypadku danych pochodzących z regionu 1. różnica między najniższym,
a najwyższym podanym wynikiem sprzedaży jest większa niż w przypadku
danych pochodzących z regionu 2.,
ZAKŁAD INFORMATYKI
Laboratorium 5a
Strona 6 z 13
Tabela 3.
Skośność
<0
=0
>0
Komentarz
rozkład cechuje się asymetrycznością lewostronną
rozkład symetryczny
rozkład cechuje się asymetrycznością prawostronną

minimum – region 1.: 3061, region 2.: 3188 – interpretacja wskaźnika:
najniższa sprzedaż była równa 3061 i została osiągnięta w regionie 1.,
 maksimum – region 1.: 4824, region 2.: 4275 – najwyższa sprzedaż była równa
4824 i została osiągnięta w regionie 1.,
 suma – region 1.: 51428, region 2.: 48048 – łączna wartość sprzedaży
w regionie 1. była wyższa niż w regionie 2. i była równa 51428,
 licznik – region 1.: 13, region 2.: 13 – zarówno w pierwszym, jak i drugim
regionie funkcjonowało i sprzedawało produkty 13 placówek (sklepów
detalicznych),
 Największy(2) – region 1.: 4462, region 2.: 4239 – druga w kolejności
najwyższa sprzedaż produktów wynosząca 4462 została osiągnięta w regionie
1. (porównaj maksimum regionu 2. i drugą wartość najwyższą regionu 1.),
 Najmniejszy(2) – region 1.: 3238, region 2.: 3254 – analizując wyniki najniższej
sprzedaży produktów, druga w kolejności najniższa sprzedaż miała miejsce
w regionie 2. (por. minimum regionu 2.),
 Poziom ufności(90,0%) – region 1.: 265,5877, region 2.: 159,6768 – wynik
oznacza, że przychody ze sprzedaży na 90% będą zawierały się w przedziale
(średnia – poziom ufności, średnia + poziom ufności) czyli od 3690,4113 do
4221,5877 dla regionu 1. i od 3536,3232 do 3855,6767 dla regionu 2.
Analizując sposób rozwiązania zadania i interpretację rezultatów można stwierdzić, iż
narzędzie „Statystyka opisowa” dostępna w pakiecie MS Excel jest bardzo wygodnym
i elastycznym narzędziem do analizy danych.
Zadania do wykonania:
Z partii bawełny pobrano próbkę złożoną z 64 włókien, a następnie zmierzono długość tych
włókien (w mm). otrzymano następujące wyniki: 23, 8, 15, 35, 21, 20, 10, 4, 28, 12, 9, 7, 24,
25, 31, 26, 23, 17, 13, 33, 29, 27, 24, 22, 32, 16, 9, 29, 22, 20, 8, 16, 21, 25, 31, 29, 23, 15, 32,
22, 23, 19, 24, 15, 21, 20, 29, 27, 23, 19, 16, 18, 24, 31, 28, 21, 8, 17, 24, 13, 12, 18, 23, 25.
Na podstawie przedstawionych danych obliczyć i zinterpretować statystyki opisowe. Poziom
ufności przyjąć według uznania.
Z grupy pracowników pewnego zakładu wykonujących taką samą pracę wybrano w sposób
losowy 13 pracowników i dokonano badania pod względem wydajności pracy (w szt./h)
uzyskując następujące dane: 21, 12, 15, 9, 10, 17, 8, 16, 13, 12, 9, 18. Na tej podstawie
należy wyznaczyć 95%-ową realizację przedziału ufności. Dodatkowo wyznaczyć
i zinterpretować statystyki opisowe.
ZAKŁAD INFORMATYKI
Laboratorium 5a
Strona 7 z 13
Ad 2.
Przegląd wybranych narzędzi analitycznych dostępnych w dodatku „Analysis ToolPak”:
Narzędzia do analizy wariancji ANOVA i znajdowania korelacji między zestawami danych
zostaną przedstawione odpowiednio w punkcie 4. i 5.
o Wygładzanie wykładnicze – to narzędzie analityczne, które służy do przewidywania
wartości na podstawie prognozy dla poprzedniego okresu, skorygowanej o błąd, jaki
w niej wystąpił. Narzędzie wykorzystuje stałą wygładzania a, której wielkość określa
stopień reakcji prognoz na błędy istniejące w poprzedniej prognozie. Uwaga:
Rozsądne wartości współczynnika wygładzania zawierają się w przedziale od 0,2 do
0,3. Oznaczają one, że w bieżącej prognozie należy uwzględnić 20 lub 30-procentową
poprawkę na błąd, jaki wystąpił w poprzedniej prognozie. Większe wartości
współczynnika dają szybszą odpowiedź, ale mogą być przyczyną błędnych prognoz.
Mniejsze wartości współczynnika mogą powodować wydłużenie czasu obliczania
wartości prognozy. Interfejs graficzny przedstawiono na rysunku 6.
Rysunek 6.
Przykład
Pewna firma prowadzi sprzedaż oleju opałowego. Dane dotyczące kwartalnej sprzedaży
w tys. ton w latach 1999-2004 znajdują się w tabeli 4. Należy wyznaczyć przewidywaną
wielkość sprzedaży oleju opałowego w ostatnim kwartale 2004 roku oraz obliczyć błąd
bezwzględny i względny, przyjmując wartość rzeczywistą w czwartym kwartale 2004 r. na
poziomie 650 tys. ton. Sprawdzić prognozy dla kilku parametrów wygładzania wykładniczego
np. 0,1; 0,2; 0,25; 0,3; 0,5; 0,75.
Tabela 4.
Kwartały
I
II
III
IV
Lata
1999
500
350
250
400
2000
450
350
200
300
2001
350
200
150
400
2002
550
350
250
550
2003
550
400
350
600
2004
750
500
400
?
ZAKŁAD INFORMATYKI
Laboratorium 5a
Strona 8 z 13
W celu rozwiązania przedstawionego zadania należy:
 wprowadzić dane do arkusza kalkulacyjnego – rysunek 7.
Rysunek 7.

uruchomić narzędzie „Wygładzanie wykładnicze” i ustawić jego parametry
tak, jak przedstawiono to na rysunku 8.
Rysunek 8.
ZAKŁAD INFORMATYKI
Laboratorium 5a
Strona 9 z 13

po zaakceptowaniu parametrów, system przeanalizuje dane i stworzy
prognozę zjawiska na określoną liczbę okresów do przodu, dodatkowo
zaprezentowany zostanie wykres wartości rzeczywistych i prognozowanych –
rysunek 9.,
Rysunek 9.

wyniki prognoz powinny zostać wpisane do tabeli, która posłuży do obliczenia
błędów względnych i bezwzględnych poszczególnych prognoz – gotową tabelę
z wynikami prognoz przedstawiono na rysunku 10.
Rysunek 10.
Zadanie do wykonania:
Sprzedaż benzyny na pewnej stacji benzynowej w tys. litrów w kolejnych miesiącach 2003
roku kształtowała się w sposób taki, jak przedstawiono w tabeli 5.
Tabela 5.
Miesiąc
Sprzedaż
1
155
2
162
3
158
4
149
5
152
6
150
7
158
8
154
9
148
10
153
11
158
12
152
ZAKŁAD INFORMATYKI
Laboratorium 5a
Strona 10 z 13
Należy wyznaczyć prognozę sprzedaży benzyny na styczeń 2004 stosując metodę
wygładzania wykładniczego z parametrami a={0,05; 0,1; 0,2; 0,25; 0,3; 0,4; 0,5; 0,6; 0,75; 0,8;
0,9}. Dokonać analizy wyników poprzez obliczenie błędu względnego i bezwzględnego biorąc
pod uwagę fakt, iż rzeczywista wielkość sprzedaży w styczniu 2004 roku była równa 159 tys.
litrów.
o histogram – to narzędzie analityczne służące do obliczania indywidualnych
i skumulowanych częstotliwości dla danych, znajdujących się w zakresach komórek
oraz dla przedziałów danych. Narzędzie generuje dane dotyczące liczby wystąpień
danej wartości w zbiorze danych. Na przykład można wyznaczyć rozkład uzyskanych
ocen w grupie liczącej 20 studentów. Tabela histogramu zawiera granice przedziałów
oraz liczbę ocen między najniższą, a bieżącą granicą. Najczęściej występująca ocena
nazywana jest wartością modalną danych.
Przykład
Zadanie polega na stworzeniu histogramu zawierającego informację o częstości
występowania zamówień towarów w określonych przedziałach w pierwszym półroczu roku
2010. Dane źródłowe zostały już wprowadzone do arkusza kalkulacyjnego i są dostępne
w pliku histogram_dane.xls. W celu rozwiązania zadania należy:
 otworzyć ww. plik z danymi wejściowymi (w pliku zostały również
zdefiniowane przedziały, według których histogram ma zostać stworzony),
 uruchomić narzędzie „Histogram” z dodatku „Analiza danych”,
 ustawić parametry narzędzia w sposób taki, jak przedstawiono to na rysunku
11.
Rysunek 11.

po zaakceptowaniu parametrów system automatycznie zliczy wystąpienia
wyników w poszczególnych przedziałach i stworzy na tej podstawie histogram
– rysunek 12.
ZAKŁAD INFORMATYKI
Laboratorium 5a
Strona 11 z 13
Rysunek 12.

interpretując otrzymane wyniki, można stwierdzić, że klienci zamawiają
najczęściej towary w ilościach 60 j. oraz 100 j.
Wykonano 40 pomiarów liczby skrętów przędzy na odcinkach o długości 500mm i otrzymano
następujące wyniki:
405, 420, 411, 427, 479, 440, 378, 468, 437, 452, 421, 414, 402, 422, 462, 428, 431, 414, 437,
405, 390, 425, 425, 400, 432, 447, 385, 419, 400, 425, 458, 439, 360, 405, 369, 406, 431, 412,
387, 416.
Stworzyć histogram przyjmując liczbę klas (przedziałów) równą 8. Obliczyć statystyki opisowe
dla prezentowanych danych i dokonać ich interpretacji.
o średnia ruchoma – jest to narzędzie analityczne przewidujące wartości w okresie
prognozy na podstawie średniej wartości zmiennej dla określonej liczby poprzednich
okresów. Umiejętne wykorzystanie średniej ruchomej może spowodować ujawnienie
trendu, który przy zastosowaniu średniej arytmetycznej nie byłby widoczny ze
względu na nadawanie każdej wartości równej jeden. Średniej ruchomej używa się
najczęściej do przewidywania wysokości sprzedaży, kursów akcji i analizy innych
trendów.
Przykład
Na podstawie danych przedstawionych na rysunku 13. dokonać prognozowania sprzedaży
w rozpatrywanym okresie przyjmując interwał równy: 2, 3, 4 i 5. Ocenić trafność prognoz
biorąc pod uwagę przyjęty interwał – wykazać minimalny, maksymalny i średni błąd
standardowy, dodatkowo przyjmując sprzedaż 2010-10-20 jako wartość wzorcową obliczyć
błąd względny i bezwzględny prognozy dla tej daty. Do każdej prognozy wykonać wykres
pokazujący dane rzeczywiste i prognozowane. Sposób rozwiązania postawionego problemu:
 wprowadzenie danych wejściowych do arkusza kalkulacyjnego,
 uruchomienie narzędzia „Średnia ruchoma” z pakietu „Analysis ToolPak”,
 ustawienie parametrów początkowych w sposób taki, jak przedstawiono na
rysunku 14.,
 wyliczenie średniego, maksymalnego i minimalnego błędu standardowego
przy użyciu odpowiednich funkcji,
 wyliczenie wartości błędu bezwzględnego i względnego dla 2010-10-20,
 sformatowanie wykresu i arkusza danych w celu uzyskania odpowiedniej
czytelności danych i wyników,
ZAKŁAD INFORMATYKI
Laboratorium 5a
Strona 12 z 13

obliczenie prognoz sprzedaży, błędów, stworzenie wykresów dla interwałów
równych odpowiednio 3, 4 i 5 okresów.
Fragment arkusza z rozwiązanym zadaniem przedstawiono na rysunku 15.
Rysunek 13.
Rysunek 14.
ZAKŁAD INFORMATYKI
Laboratorium 5a
Strona 13 z 13
Rysunek 15.
Korzystając z danych przedstawionych na rysunku 7. wykonać prognozę sprzedaży oleju
opałowego z użyciem narzędzia „Średnia ruchoma” dla interwału równego 2, 3, 4 i 5
okresów. Analogicznie jak w przykładowym zadaniu wyliczyć dla każdego interwału średni,
minimalny i maksymalny błąd standardowy. Przyjmując dane rzeczywiste z ostatniego okresu
jako wartości wzorcowe wyliczyć błąd względny i bezwzględny w tym okresie.
Analogiczne zadanie wykonać dla danych przedstawionych w tabeli 5. (sprzedaż benzyny).

aiwd_-_laboratorium_05a

Transkrypt

Podobne dokumenty

Lista projektów oraz wynik oceny merytorycznej Działanie 1.3

MAN TGX 18.480 BLS Euro 6 1339

Regiony partnerskie Województwa Małopolskiego

aiwd_-_laboratorium_02

aiwd_-_laboratorium_05b

Ustawianie języka: Start - Panel Sterowania

Test na konkurs o tematyce ekologicznej p

Maj jest miesiącem gdzie większośd paostw obchodzi Dzieo Matki.

Możliwość utworzenia szlaku geoturystycznego w obrębie polskiej