Analiza danych - Jakub Wróblewski
Transkrypt
Analiza danych - Jakub Wróblewski
Analiza danych Wstęp Jakub Wróblewski [email protected] http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU • • • • • • • Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów modelu Testowanie hipotez statystycznych Analiza dyskryminacyjna - przypadek liniowy Problemy decyzyjne i klasyfikatory, proces KDD Metody eksploracji danych i reprezentacji wiedzy: drzewa decyzyjne, reguły, sieci neuronowe • Grupowanie pojęciowe 1 LITERATURA Pozycje podstawowe: • Koronacki, J. Mielniczuk. Statystyka dla studentów kierunków technicznych i przyrodniczych. WNT, Warszawa 2001. • P. Cichosz. Systemy uczące się. WNT, Warszawa 2000. Pozycje dodatkowe: • A. Webb. Statistical Pattern Recognition. Wiley, 2002. • S. Osowski. Sieci neuronowe w ujęciu algorytmicznym. WNT, Warszawa 1997. • J. Jakubowski, R. Sztencel. Wstęp do teorii prawdopodobieństwa. SCRIPT, Warszawa 2001. ANALIZA DANYCH - RÓŻNE ASPEKTY Dane opisują pewne aspekty (numeryczne lub jakościowe) pewnego badanego przez nas zjawiska. Analiza danych prowadzona jest w celu znalezienia / zweryfikowania / dostrojenia modelu tego zjawiska. Znajomość modelu pozwala na: – opis zjawiska w sposób zrozumiały dla człowieka, – określenie pewnych cech zjawiska, – przewidywanie wartości nieznanych (np. przyszłych) związanych z danym zjawiskiem. 2 PRZYKŁADY Mamy dane w postaci rekordów w bazie danych CRM (opisujących naszą wiedzę o klientach hurtowni butów i ich zakupach). Analiza danych może mieć na celu m.in.: – zaprezentowanie raportu o liczbie klientów w różnych przedziałach obrotów, – sprawdzenie hipotezy, że miejsce zamieszkania klienta nie wpływa na tygodniową liczbę wizyt w hurtowni, – odnalezienie towarów, które są często kupowane jednocześnie, – przewidywanie, który klient zamierza zrezygnować z naszych usług. NARZĘDZIA ANALIZY DANYCH • Statystyka matematyczna – metody estymacji – testowanie hipotez • Odkrywanie wiedzy w bazach danych – techniki wstępnej obróbki danych – tworzenie nowych cech i ich selekcja • Eksploracja danych – techniki wykorzystywane w KDD – metody reprezentacji wiedzy (modelu danych) 3 RÓŻNE PODEJŚCIA Rachunek prawdopodobieństwa ja intuic k obie cze wiad i d oś nie Model probabilistyczny y wist y z c t rze wnioski W rachunku prawdopodobieństwa wychodzimy od gotowego modelu probabilistycznego. RÓŻNE PODEJŚCIA Statystyka ru x amet r a p acja estym dane k obie y wist y z c t rze Rodzina modeli (x) Model probabilistyczny obserwacja, pomiar wnioski W statystyce zakładamy, że model probabilistyczny należy do pewnej rodziny (np. sparametryzowanej). Analizujemy dane, by wybrać najlepszą wartość parametru (najwłaściwszy model). 4 RÓŻNE PODEJŚCIA Statystyka testo Model 1 otez e hip wani Model 3 Model probabilistyczny dane st y ywi z c e kt rz obie Model 2 obserwacja, pomiar wnioski Można też badać, czy nasza hipoteza odnośnie danych (np. tego, że dane pochodzą z pewnego rozkładu) jest słuszna. RÓŻNE PODEJŚCIA Eksploracja danych (klasyfikacja) delu a mo w o d bu dane k obie y wist y z c t rze Model danych obserwacja, pomiar wnioski (klasyfikator) W metodach eksploracji danych stosujemy znacznie łagodniejsze założenia. Kształt modelu jest w większym stopniu dopasowany do danych, przez co jest bardziej skomplikowany. 5 ZAŁOŻENIA Analiza danych przyjmuje pewne, jawne lub ukryte, założenia dotyczące danych. – Znana próbka jest reprezentatywnym podzbiorem całości. To zakładamy prawie zawsze. – Istnieje pewien rozkład prawdopodobieństwa (stały w czasie), z którego pochodzą próbki danych. To umożliwia stosowanie aparatu statystycznego i probabilistycznego; niektóre sytuacje zmienne w czasie (np. notowania giełdowe) też możemy modelować. – Dane mają pewien konkretny rozkład prawdopodobieństwa (np. normalny). To silne założenie, często stosowane w statystyce. Możemy szacować, na ile konkretne dane pasują do tego założenia, a także estymować parametry tego rozkładu. ZAŁOŻENIA Metody eksploracji danych działają bardziej „lokalnie”, konstruując model bez zakładania globalnego rozkładu prawdopodobieństwa (por. sieci neuronowe). Zamiast tego posługują się zwykle zasadą: – Jeżeli dane mogą być opisane (zamodelowane) na kilka różnych sposobów, to za najbliższy rzeczywistości (najbardziej pożądany) uznajemy model najprostszy. (Zasada minimalnego opisu.) Czy można całkowicie uniknąć założeń? 6 NO FREE LUNCH Mamy zbiór obiektów opisanych wektorami danych A (np.wektorami liczb) i zaklasyfikowanych do dwóch grup. Chcemy na podstawie tych danych zgadnąć, jaka zasada kryje się za klasyfikacją. Formalnie: chcemy znaleźć algorytm, który na podstawie opisu A przeprowadzi prawidłową klasyfikację nieoglądanych wcześniej obiektów. Twierdzenie: Jeżeli w opisanej sytuacji nie przyjmiemy żadnych założeń odnośnie zasad klasyfikacji, to dowolnie zaawansowany algorytm klasyfikujący będzie działał równie (nie)sprawnie, co klasyfikator czysto losowy. RACHUNEK PRAWDOP. A STATYSTYKA Probabilistyka - prawdopodobieństwo wartość oczekiwana rozkład dystrybuanta wariancja, mediana... Statystyka - częstość średnia z próbki histogram, szereg rozdzielczy histogram skumulowany estymatory wariancji,... (Warto znać te pojęcia) 7