Zaawansowane Metody i Techniki Analizy Danych Cel zajęć: Celem

Transkrypt

Zaawansowane Metody i Techniki Analizy Danych Cel zajęć: Celem
Zaawansowane Metody i Techniki Analizy Danych Cel zajęć: Celem zajęć jest zapoznanie się z nowoczesnymi technikami analizy danych na przykładzie konstrukcji klasyfikatora dla wybranego problemy z domeny oceny ryzyka kredytowego. Harmonogram spotkań: Zajęcia 1. Spotkanie organizacyjne, przekazanie studentom danych do konstrukcji klasyfikatorów. Zajęcia 2. Wstęp do środowiska Weka, struktura plików ARFF, wykorzystanie podstawowych filtrów, problem klasyfikacji binarnej, macierz konfuzji, czułość i specyficzność, wskaźnik pola pod krzywą ROC, wskaźnik GMean. Zajęcia 3 -­‐ 4. Podstawowe metody klasyfikacji. Algorytm Naiwnego Bayesa, Gaussowska Analiza Dyskryminacyjna (GDA), drzewa decyzyjne, reguły decyzyjne, sieci neuronowe. Zajęcia 5. Wykorzystanie Weki jako biblioteki programistycznej w języku JAVA, Wczytywanie zbioru danych, używanie filtrów, podstawowe operacje na zbiorach danych, zapis danych, uzupełnianie wartości klasy. Zajęcia 6. Wykorzystanie metod klasyfikacji dostępnych w pakiecie Weka z poziomu kodu JAVY. Klasyfikowanie niezaetykietowanych obserwacji. Konstrukcja prostych środowisk do testowania jakości metod klasyfikacyjnych. Walidacja krzyżowa. Zagadnienie Selekcji modelu. Zajęcia 7. Inne zagadnienia związane z klasyfikacją. Zagadnienia związane z niezbalansowaniem danych uczących. Problem selekcji cech. Zagadnienie związane z interpretowalnością modeli decyzyjnych. Zajęcia 8. Przygotowanie studentów do zawodów typu Kaggle. Testowe wykonanie zadania. Charakterystyka zawodów typu Kaggle. 1. Prowadzący na początku semestru dostarcza dane, które studenci mają wykorzystać do konstrukcji modelu decyzyjnego. 2. Począwszy od Zajęć 9 studenci będą dostawać niezaetykietowany zbiór danych w formacie ARFF. 3. Każdy student ma 45 minut na uzupełnienie brakującej etykiety klasy (dotyczącej decyzji kredytowej) dla każdego klienta z wykorzystaniem autorskiego modelu do klasyfikacji. Po upływie 45 minut każda z osób dostarcza zaetykietowany zbiór danych. 4. Prowadzący sprawdza zgodność nadanych etykiet z etykietami rzeczywistymi. Dla każdego zbioru danych prowadzący sprawdza jakość uzyskanej klasyfikacji wykorzystując kryterium GMean. 5. Prowadzący publikuje wyniki studentom w postaci listy rankingowej (wg rosnącej wartości GMean). 6. Proces testowania odbywa się następująco: Zajęcia 9 -­‐ testujemy na 10% danych. Zajęcia 10 -­‐ testujemy na 25% danych. Zajęcia 11 – testujemy na 50% danych. Zajęcia 12 – testujemy na 75% danych. Zajęcia 13 -­‐ 14 – Rozpoczęcie ostatecznych zawodów Kaggle na 100% danych testowych. Prowadzący udostępnia dnia 26.05.2015 plik z danymi testowymi. Studenci do dnia 02.06.2015 mają przekazać zaetykietowany zbiór danych prowadzącemu. Zajęcia 15 -­‐ Poprawa uzyskanych przez studenta oceny poprzez prezentację sprawozdania z pracy podczas konkursu wraz z uwzględnieniem stosownych zmian. Zasady oceny studenta Student otrzymuje ocenę na podstawie swojej pozycji rankingowej. WARUNKIEM OTRZYMANIA POZYTYWNEJ OCENY Z PRZEDMIOTU JEST UZYSKANIE WARTOŚCI WSKAŹNIKA GMEAN WYŻSZEJ NIŻ 0.3 PODCZAS OSTATECZNYCH ZAWODÓW. Student może podwyższyć ocenę poprzez przedłożenie sprawozdania z konkursu wraz ze stosownymi poprawkami dotyczącymi jego metody. Finalna ocena odpowiada pozycji rankingowej (TWORZONA JEST GLOBALNA LISTA RANKINGOWA DLA WSZYSTKICH GRUP PROWADZĄCEGO). Pozycja Ocena Rankingowa 0 – 10% 3.0 10 – 25% 3.5 25 – 50% 4.0 50 – 75% 4.5 75 – 90% 5.0 90 – 100% 5.5 UWAGA! Prowadzący zastrzega sobie prawo, w indywidualnych przypadkach (np. ta sama pozycja na liście rankingowej), do weryfikacji modelu studenta, za pomocą którego uzupełnił dane. Dodatkowo, osoba która CO NAJMNIJEJ RAZ W SWOJEJ GRUPIE podczas Zajęć 9 – 12: -­‐ uzyskała pierwszą pozycję rankingową otrzymuje ocenę bardzo dobrą. -­‐ uzyskała drugą pozycję rankingową dla otrzymuje ocenę dobry plus. -­‐ uzyskała trzecią pozycję rankingową dla otrzymuje ocenę dobry. WARUNKIEM OTRZYMANIA KAŻDEJ OCENY JEST WARTOŚĆ GMEAN WYŻSZA NIŻ 0.3 !!! Ostateczna ocena uzyskania z kursu stanowi NAJLEPSZĄ z otrzymanych ocen podczas całych zawodów POD WARUNKIEM, ŻE WARTOŚĆ WSKAŹNIKA DLA KTÓREGO OTRZYMANA ZOSTAŁA NAJLEPSZA OCENA NIE SPADNIE PODCZAS DALSZYCH ROZGRYWEK. PRZYKŁAD: Student A ulokował się na następujących pozycjach podczas zawodów: Zajęcia Pozycja rankingowa Wartość GMEAN 9 8 0.632 10 3 0.612 11 2 0.695 12 4 0.618 Student już na Zajęciach 10 uzyskał ocenę dobry (3 pozycja rankingowa). Zajęciach 11 uzyskał lepszą pozycję (2 pozycja rankingowa), ma więc ocenę dobry plus. Podczas ostatnich zajęć przed zawodami (Zajęcia 12) student uplasował się na pozycji 4, wartość kryterium jest niższa niż na Zajęciach 11 podczas których otrzymał dobry plus ale wyższa niż na zajęciach Zajęciach 10, na których otrzymał dobry. Student ma gwarantowaną ocenę dobry. Student może wziąć udział w ostatecznej rozgrywce zastawiając ocenę, bądź też wziąć ocenę bez udziału w ostatecznych zwodach. Tabela aktualnej oceny: Zajęcia GMEAN 9 brak 10 dobry 11 dobry + 12 dobry