Informatyka

Transkrypt

Informatyka
Informatyka
2007
Informatyka
Arkusze kalkulacyjne – cz. II.
1 Analiza zmiennych na poziomie przedziałowym i proporcji – miary
położenia
Analizując wartości zmiennych
dla skal przedziałowych i
proporcji można, podobnie jak
dla
skal
nominalnych
i
porządkowych określić miarę
położenia rozkładu pomiarów,
czyli zarejestrowanych wartości
zmiennej.
Jedną
z
najpopularniejszych miar tego
typu jest średnia arytmetyczna
(suma wszystkich pomiarów
podzielona przez ich ilość). Do
jej określenia można skorzystać
z funkcji ŚREDNIA(zakres). Dla
zmiennej
Długość
z
przykładowej macierzy danych,
zilustrowanej na Rys. 1 to 20,67:
=ŚREDNIA(E2:E41)
Można też określić miary
położenia stosowane dla skal
porządkowych
(mediana)
i
nominalnych
(kategoria
modalna). W tym ostatnim
wypadku wartości zmiennej
należy uprzednio pogrupować w
przedziały, obejmujące całą
przestrzeń zmienności. Ilość
przedziałów
ustala
się
arbitralnie, tak, aby możliwie
najdokładniej
oddać
charakterystykę
rozkładu Rysunek 1. Próbka 40 grotów.
danych.
1
Informatyka
2007
Grupowanie można zrealizować w arkuszu na wiele sposobów. Jednym z nich jest zastosowanie
różnicy funkcji LICZ.JEŻELI(zakres ; kryterium). Przykładowo, jeżeli cały zakres zmienności
długości grotów zebranych w tabeli zilustrowanej na Rys. 1 podzielimy na 10 przedziałów, to aby
policzyć częstość np. kategorii (przedziału) 4 (długości pomiędzy 21,72 a 28,96 cm) należy
stworzyć następującą formułę:
=LICZ.JEŻELI(E2:E41;"<=28,96")-LICZ.JEŻELI(E2:E41;"<=21,72")
Kryteria można umieścić w komórkach, zaś odwołania do wierszy w zakresie opatrzyć znakami "$",
co umozliwi poprawne powielanie tej formuły dla każdej kategorii w odpowiednio przygotowanej
tabeli (Rys. 2). W efekcie funkcja będzie miała postać:
=LICZ.JEŻELI(E$2:E$41;J5)-LICZ.JEŻELI(E$2:E$41;I5)
- przy założeniu, że w polu J5 znajdzie się wyrażenie "<=28,96", a w polu I5 odpowiednio
"<=21,72".
Po wykonaniu grupowania danych można
łatwo określić częstości poszczególnych
kategorii (numerycznie lub na wykresie
słupkowym, określanym w takiej sytuacji jako
histogram) i wybrać kategorię modalną. W
przypadku analizowanego rozkładu zmiennej
"Długość" każda z zastosowanych miar
położenia da inny rezultat: średnia = 20,67 cm,
mediana = 17,8, a kategoria modalna będzie
wyznaczana przez przedział długości między
7,24 a 14,48 cm. Sytuacja taka jest
charakterystyczna
dla
rozkładów
asymetrycznych (skośnych). Warto również Rysunek 2. Grupowanie - podział pomiarów zmiennej
Długość na kategorie metryczne.
zwrócić uwagę, że poszczególne miary
położenia są w różny sposób czułe na tzw.
wartości oddalone, czyli pojedyncze pomiary w istotny sposób odbiegające od przeciętnej. W
rozkładach normalnych, których charakterystyka na wykresie może być opisana za pomocą
krzywej Gaussa i które są typowe dla opisu większości zjawisk z zakresu nauk społecznych i
przyrodniczych, wszystkie trzy opisane miary położenia dają podobny wynik. Analiza rozkładu pod
względem położenia stanopwi wstęp do dalszych analiz statystycznych. Również sama w sobie
może dostarczać pewnych wniosków archeologicznych, np. w wypadku opisywanych grotów odnośnie intencjonalnej lub podepozycyjnej produkcji/selekcji grotów pod względem ich długości.
Grupowanie danych jest zabiegiem stosunkowo częstym, ponieważ w przypadku porównywania
zmiennych mierzonych za pomocą różnych skal pomiarówych zachodzi konieczność sprowadzenia
wszystkich pomiarów do najniższego wspólnego mianownika, czyli najniższej skali pomiarowej.
2
Informatyka
2007
2. Analiza zmiennych na poziomie przedziałowym i proporcji – miary
rozproszenia
Dla skal przedziałowych i proporcji stosuje się także miary rozproszenia (dyspersji), określające
stopień zmienności poszczególnych pomiarów w rozkładzie danych. Najprostszą miarą
rozproszenia jest tzw. rozstęp, czyli róznica między największą i najnmniejszą wartością w
rozkładzie. W arkuszu kalkulacyjnym wartość rozstępu można łatwo wyliczyć za pomocą różnicy
funkcji MAX(zakres) i MIN(zakres). Na przykład dla zmiennej Długość długość będzie to 62,2 cm:
=MAX(E2:E41)-MIN(E2:E41)
Rozstęp jest miarą dyspersji bardzo czułą na przypadkowe wartości oddalone. Z tego względu
zasadne jest sosowanie innych miar, przede wszystkim tzw. odchyleń, określających w jakim
zakresie (średnio) poszczególne pomiary odbiegają od przeciętnej dla danego rozkładu danych.
Ważnym parametrem, stosowanym jako punkt wyjścia w wielu zaawansowanych analizach
statystycznych jest odchylenie standardowe. Parametr ten można obliczyć za pomocą funkcji
ODCH.STANDARDOWE(zakres). Dla zmiennej długość będzie to 11,44 cm:
=ODCH.STANDARDOWE(E2:E41)
Wynik podawany jest w standardowych jednostkach zmiennej (tu – w cm). Aby móc porównywać
rozproszenie róznych zmiennych, stosuje się tzw. współczynnik zmienności (odchylenie
standardowe dzielone przez średnią), który pozwala określić stopień rozproszenia rozkładu danych
w przedziale od 0 (rozproszenie nieskończenie małe – rozkład skupiony) do 1 (maksymalne
rozproszenie). Wartości tego i innych współczynników można również podawać w wartościach
procentowych. Ocena współczynnika zmienności może być istotna w dalszych analizach, może
również prowadzić do pewnych bezpośrednich wniosków – np. odnośnie stopnia przestrzegania
standardów morfologicznych (proporcji) grotów w róznych kulturach.
Normalizacja jest z kolei zabiegiem umożliwiającym formalną ocenę stopnia, w jakim
poszczególne pomiary odbiegają od przeciętnej dla danego rozkładu danych. Ponieważ stopień ten
podawany jest w jednostkach odchylenia standardowego, można porównywać ze sobą wartości
osiągnięte dla róznych pomiarów, zmiennych i rozkładów. Dla rozkładów naturalnych 99%
pomiarów mieści się w zakresie od -3 do 3 odchyleń standardowych. Przykładowo, najdłuższy grot
(72,4 cm) leży w odległości 4,52 odchyleń standardowych od średniej, co potwierdza, iż jest to
wartość bardzo oddalona.
3
Informatyka
2007
3. Analiza dwóch zmiennych – korelacja
Analiza związków między zmiennymi umożliwia wyciąganie bardziej zaawansowanych wniosków
niż obserwacja pojedynczych zmiennych. Np. dla omawianego tu przykładu grotów, możliwe
byłoby sprawdzenie związku między kontekstem depozycji znaleziska (osada lub cmentarzysko), a
materiałem, z jakiego został wykonany. Proste zestawienie częstości wykazuje, że taki związek
istnieje, co może stanowić przesłankę do formułowania hipotez odnośnie np. obrządku
pogrzebowego. W rzeczywistości problem jest złożony, ponieważ formułowanie hipotez odnośnie
całej kultury w oparciu o próbkę pewnej ilości zabytków wymaga zastosowania formalnej
procedury, w której niezbędne jest zrozumienie zasad analizy prawdopodobieństwa, próbkowania i
metod statystycznego testowania hipotez. Jeszcze bardziej skomplikowany jest problem testowania
związków między więcej niż dwoma zmiennymi. Zagadnienia te wykraczają poza zakres tego
kursu, dlatego przedstawiono tu jedynie proste metody badania korealcji między dwiema
zmiennymi na poziomie przedziałowym i proporcji. Intuicyjną metodą badania związków między
takimi zmiennymi jest zastosowanie wykresu punktowego, w programie Calc określanego jako
"Wykres XY". Metoda ta jest w szczególności przydatna do oceny zagadnień związanych z
morfologią zabytków.
Aby wykonać taki wykres należy zaznaczyć dwa zakresy zmiennych, np. Długość i Szerokość.
Następnie, po wybraniu opcji wstawienia wykresu, wybrać "Wykres XY ". Efektem jest zbiór
punktów, symbolizujących poszczególne pomiary, w omawianym przykładzie będą to proporcje
poszczególnych grotów. Po wyrównaniu wielkości obu osi widać, iż punkty nie układają się w
stochastyczną chmurę, istnieje więc pewna korelacja. Można zatem założyć, że obie zmienne są ze
sobą związane, choć nie jest to pełna korelacja liniowa – wówczas wszystkie punkty znalazłyby się
na jednej półprostej.
Aby w sposób formalny określić korelację między dwiema zmiennymi przedziałowymi i proporcji
można skorzystać z tzw. współczynnika korealcji liniowej Pearsona. Miara ta zawiera się w
przedziale od -1(korelacja ujemna) do +1 (dodatnia), gdzie całkowity brak korelacji wyznaczany
jest przez 0. Funkcją arkusza wyznaczającą współczynnik korelacji liniowej jest
WSP.KORELACJI(zakres1 ; zakres2). Dla omawianego przykładu korelowania długości i
szerokości grotów byłoby to 0,58:
=WSP.KORELACJI(D2:D41;E2:E41)
W rzeczywistości korelację tego rodzaju korzystniej byłoby badać za pomocą współczynnika
korelacji rangowej Spearmana, który daje dokładniejsze wyniki w sytuacji, gdy jedna lub obie
zmienne nie mają rozkładów normalnych. Należy także zwrócić uwagę, że współczynnik Pearsona
wychwytuje wyłącznie korelację liniową. Bez względu na zastosowaną metodę, estymowanie
stopnia korelacji uzyskanego w badanej próbce dla całej populacji (czyli np. dla wszystkich grotów
badanej kultury) wymaga przeprowadzenia formalnej procedury – tzw. testu statystycznego, gdzie
kluczowym parametrem dla oceny wiarygodności estymacji jest wielkość próbki. Test umożliwia
przyjęcie lub odrzucenie hipotezy o korelacji na pewnym poziomie istotności, czyli, mówiąc w
uproszczeniu, prawdopodobieństwa, że wynik jest prawdziwy. Warto również wspomnieć, że do
określania korealcji dla zmiennych mierzonych na poziomie porządkowym stosuje się wspomniany
wyżej współczynnik korealcji rangowej Spearmana, dla zmiennych na poziomie nominalnym – tzw.
test chi-kwadrat. W programach Calc i MS Excel istnieją funkcje automatyzujące wspomniane
procedury statystyczne. Więcej informacji nt. podstaw statystyki można znaleźć w książce M.
Fletcher, G.R. Lock, 1995, Archeologia w liczbach, Podstawy statystyki dla archeologów, Poznań.
4
Informatyka
2007
4. Przewidywanie z użyciem regresji
W niektórych sytuacjach, gdy istnieje silna korelacja między zmiennymi ciągłymi (przedziałowymi
i proporcji), na podstawie jednej z nich można przewidywać wartości drugiej. W ten sposób można
np. na podstawie szerokości odtworzyć, z pewnym przybliżeniem, pierwotną długość 2 grotów,
których pomiaru nie udało się wykonać ze względu na stopień zniszczenia. Najprostsze
zastosowanie regresji to dodanie odpowiedniej opcji dla już istniejącego wykresu punktowego.
Wykres musi znajdować się w trybie edycji danych (dookoła wykresu powinna być widoczna szara
obwódka), który należy uaktywnić klikając na wykresie dwukrotnie lewym klawiszem myszy. Z
menu "Wstaw" należy wybrać opcję "Statystyki", a w nowym oknie zaznaczyć opcję "regresja
liniowa". Uwaga – jeśli korelacja między zmiennymi nie ma charakteru liniowego, a np.
wykładniczy, to należy wybrać inny typ regresji. Na podstawie linii (korelacja liniowa) lub krzywej
wykreślonej w zbiorze punktów można odtworzyć przewidywane wartości zmiennej. Zastosowanie
regresji umożliwia też prognozowanie pewnych wartości zmiennych, nawet, jeśli wykraczają one
poza zakres zmienności obserwowany w próbce. Daje to interesującą mozliwość stawiania hipotez
badawczych, które mogą być precyzyjnie weryfikowane przez późniejsze znaleziska.
W razie potrzeby szczegółowego wyliczenia estymacji opartej na regresji liniowej, należy
skorzystać z odpowiedniej funkcji: REGLINX(wartość zmiennej pobocznej, na podstawie której
planowane jest odtworzenie/estymacja zmiennej głównej; zakres zmiennych głównych, zakres
zmiennych pobocznych). Dla odtworzenia wartości długośći w polu D9 to 29,61:
=REGLINX(D9;E2:E41;D2:D41)
5