Zajęcia nr 1

Transkrypt

Zajęcia nr 1
Laboratorium nr 1
CZĘŚĆ I : STATYSTYKA OPISOWA :
1. Wyznaczyć podstawowe statystyki (średnia, mediana, IQR, min, max) dla próby:
6,9,1,2,5,2,6,2,1,0,1,4,5,6,3,7,3,2,2,3,8,5,3,4,8,0,8,0,5,1,6,4,8,0,3,2
2.
3.
4.
5.
6.
7.
Jaka będzie moda dla zbioru: 3; 4; 5; 6; 7; 7; 7; 8; 8; 9 ?
Odp 7
A jaka dla zbioru ? 3; 4; 5; 6; 7; 7; 7; 8; 8; 8; 9 ?
Odp {7,8} albo 7.5
jaka będzie mediana dla 3; 4; 7; 2; 3; 7; 4; 2; 4; 7; 4 ?
Odp: 2; 2; 3; 3; 4; 4; 4; 4; 7; 7; 7
jaka będzie wartość średnia dla zbioru: 3; 4; 5; 7; 7; 8; 9; 9; 9
Odp 61/9 = 6.78
Jaki będzie rozstęp zbioru: 2; 3; 4; 6; 7; 7; 8; 9
Odp 9-2 = 7
Kwartyle: dla zbioru: 3; 4; 7; 2; 3; 7; 4; 2; 4; 7; 4 Najpierw sortujemy: 2; 2; 3; 3; 4; 4; 4; 4;7; 7; 7,
Mediana, q2 = 4, Q1 to wartość środkowa z danych: 2; 2; 3; 3; 4 a więc 3, Q3 to wartość srodkowa z
danych: 4; 4;7; 7; 7 a wiec 7, IRQ = q3-q1 = 7-3 = 4
8. Oblicz wariancję dla danych: 3; 4; 4; 5; 5; 5; 6; 6; 6; 7; 7; 8; 9
Będzie liczona ze wzoru:
Gdzie:
xi – to bieżący element,
to średnia wartość x, zaś n –to liczba obserwacji.
=( 3 4 4 5 5 5 6 6 6 7 7 8 9)/13= 5.8
Tabela pomocnicza wygląda tak:
Teraz wystarczy podstawić odpowiednie wartości do wzoru:
9. Odchylenie standardowe będzie liczone ze wzoru:
Czyli pierwiastek (14.74) = 3.84
Zadania do wykonania dla studentów:
Zadanie 1.
Zbadano profile klientów banku A pod względem liczby osób w rodzinie. Wyniki były następujące:
3,5,3,4,4,4,5,3,6,4,4,4,2,3,4,2,3,4,5,4.



Oblicz średnią , medianę i modę.
Oblicz q1,q3.
Narysuj odpowiedni wykres prezentujący rozkład wartości w zbiorze.
Zadanie 2.
W pewnej firmie przeprowadzono ankietę dotyczącą liczby telefonów zgłaszających awarię u klientów w
ciągu ostatnich 6 miesiecy. Uzyskane wyniki są następujące:
Liczba
awarii
Liczba
klientów
0
1
2
3
4
5
35
25
15
10
10
5
Czy prawdą jest, że:



Średnia liczba zgłoszonych awarii wynosiła 1.3 ?
W badanej próbie najczęściej zgłaszano 2 awarie ?
50 % badanej grupy zgłosiło co najwyżej 1 awarię ?
CZĘŚĆ II : GRAFICZNA REPREZENTACJA DANYCH :
1. Narysować i opisać elementy wykresu pudełkowego dla obserwacji: 8,5,17,18,9,4,17,16,12
2. Narysować histogram dla obserwacji (przyjąć 5 przedziałów): 8,5,17,18,9,4,17,16,12,14,15,53.
3. Jeśli spojrzymy na histogram poniżej dla atrybutu „klasa” to:
 Ile atrybut „klasa” ma wartości?
 Jaka jest liczność poszczególnych wartości atrybutu :”klasa” ?
4. Jeśli spojrzymy na wykres pudełkowy dla atrybutu „b” to:



Ile ma on wartości?
Co powiemy o wartościach w stosunku do wartości atrybutu „klasa”?
Czy atrybut „b” może być dobrym klasyfikatorem obiektów w systemie ? Odpowiedź uzasadnij.
CZĘŚĆ III : PREPROCESSING DANYCH – NIEKOMPLETNOŚĆ DANYCH
Analizujemy zbiór danych „cars” dostępny pod adresem: http://www.sgi.com/tech/mlc/db dotyczący 261
samochodów i ich parametrów. Wybrano do analizy 10 rekordów:
mpg cylinders
14
8
31.9 4
17
8
15
30.5 23
13
14
8
25.4 5
37.7 4
Uzupełnij braki w danych wartością średnią.
cubicinches
350
89
302
400
350
351
89
Hp
165
71
140
150
125
158
215
77
62
Zadanie 1.
A teraz spróbuj wykonać to samo, ale brakujące dane uzupełnij wartością dominującą w zbiorze.
Zadanie 2.
Zakładając, że zbiór do analizy wygląda następująco:
Uzupełnij braki w danych wartością średnią.
Zadanie 3.
A co jeśli to dane jakościowe są niekompletne ?
Wstaw odpowiednią wartość w brakującą komórkę.
Krok 1. Metoda wstawienia zamiast znaku „?” tekstu „brak”
Metoda znajdowania wartości najczęściej występującej i wypełniania nią brakujących danych.
Krok 2a. Zliczanie wystąpień danej wartości tekstowej „K” i „M”.
Krok 2b. wybór tej wartości, która występuje najczęściej.
Krok.2c. Formula logiczna do wypelniania braków wartością najczęściej występującą.
CZĘŚĆ IV : PREPROCESSING DANYCH – WYKRYWANIE ODCHYLEŃ METODAMI NUMERYCZNYMI
1. Zakładając, że liczba przepracowanych godzin przez pracowników na rzecz nowego projektu
wygląda następująco:
a) Znajdź odchylenia metodą wartości średniej i odchylenia standardowego.
b) Znajdź odchylenia metodą rozstępu międzykwartylowego.
2. Zebrano dane o wydatkach poniesionych na żywność przez kolejne 90 dni:
30, 171, 184, 201, 212, 250, 265, 270, 272, 289, 305, 306, 322, 322, 336, 346, 351, 370, 390, 404, 409, 411,
436, 437, 439, 441, 444, 448, 451, 453, 470, 480, 482, 487, 494, 495, 499, 503, 514, 521, 522, 527, 548,
550, 559, 560, 570, 572, 574, 578, 585, 592, 592, 607, 616, 618, 621, 629, 637, 638, 640, 656, 668, 707,
709, 719, 737, 739, 752, 758, 766, 792, 792, 794, 802, 818, 830, 832, 843, 858, 860, 869, 918, 925, 953,
991, 1000, 1005, 1068, 1441
Znajdź odchylenia jeśli występują.
CZĘŚĆ V : PREPROCESSING DANYCH – NORMALIZACJA DANYCH
Normalizacja prowadzi do przekształcania danych do formy uniwersalnej (takiego samego zakresu
wartości):


Metoda normalizacja Min-Max
Metoda normalizacji Z-score
Ad. 1. Sprawdza jak bardzo wartość pola jest większa od wartości minimalnej (min(x)) i skaluje tę różnicę
przez zakres:
x  min( x)
x  min( x)
x* 

a) Forma uproszczona:
zakres( x) max( x)  min( x)
b) Forma uniwersalna:
Gdzie:
New_min to nowa wartość minimalna, którą chcemy uzyskać
New_max – nowa wartość maksymalna.
Min – to dotychczasowa wartość minimalna
Max – dotychczasowa wartość maksymalna
Przykłady:
Zakładając, że mamy znormalizować następującą kolumnę (L). Wynik będzie następujący:
Jeśli jednak chcemy zmienić zakres nowej wartości dla kolumny L np. na zakres 1-10
Musimy skorzystać z wzoru uniwersalnego, i wówczas formula Excela będzie następująca:
Zadanie do wykonania dla studentów:
a) Przeprowadź dla podanych danych normalizację metodą Min-Max do zakresu od 1 do 5
b) Przeprowadź dla podanych danych normalizację metodą Min-Max do zakresu od 1 do 10
TEST KOŃCOWY UTRWALAJĄCY INFORMACJĘ Z WYKŁADU ORAZ LABORATORIUM NR 1.
Zadanie 1
Tętna spoczynkowe lekkoatletów wynoszą: 44;34;33;34;35;33;31;41;30;31;31;32;34;45;37;35
Wyznacz:
a)
b)
c)
d)
e)
f)
g)
wykres pudełkowy (narysuj go ręcznie z zaznaczeniem wszystkich elementów)
modę
medianę
średnią
wariancję
kwartyle
Odchylenie standardowe
Zadanie 2
Średnia temperatura w kolejnych miesiącach 1974 roku w Warszawie na Okęciu wynosiła:
-2,4; 4,2; 9,2; 22,6; 29,4; 31,6; 36,2; 26,8; 13,2; 6,8; 4,6
Przeprowadź dla podanych danych normalizację metodą Min-Max do zakresu od 1 do 8
Zadanie 3
Jeśli spojrzymy na wykres pudełkowy dla atrybutu „b” to:
 Ile ma on wartości?
 Co powiemy o wartościach w stosunku do wartości atrybutu „klasa”?
 Czy atrybut „b” może być dobrym klasyfikatorem obiektów w systemie ? Odpowiedź uzasadnij.
Zadanie 4
Jeśli spojrzymy na histogram dla atrybutu „klasa” to:
1. Ile atrybut „klasa” ma wartości?
2. Jaka jest liczność poszczególnych wartości atrybutu :”klasa” ?