Tytuł: ZAAWANSOWANE METODY ANALIZ
Transkrypt
Tytuł: ZAAWANSOWANE METODY ANALIZ
Tytuł: ZAAWANSOWANE METODY ANALIZ STATYSTYCZNYCH Autor: red. Ewa Frątczak Wstęp Zaawansowane metody analiz statystycznych przenoszą analizy statystyczne na kolejny wyższy poziom. Określenie tego wyższego poziomu pozostawiamy indywidualnie każdemu Czytelnikowi. Wśród wielu prezentowanych metod i modeli w tym podręczniku są przedstawione modele mieszane - przegląd ogólny ich teorii i przykłady aplikacji. Autor cytowanego podręcznika E. Demidenko mówi o modelach mieszanych następująco: Mixed model methodology brings statistics to the next level. Każdy z autorów poszczególnych rozdziałów (biogramy znajdują się w końcowej części podręcznika) ma za sobą doświadczenia praktyczne związane z uczestnictwem w projekcie/projektach, gdzie metody i wiedza teoretyczna były i są weryfikowane w praktyce; są to z reguły projekty w instytucjach bankowych, ubezpieczeniowych, telekomunikacyjnych, resortach państwowych - urzędach centralnych, ministerstwach. Żeby nie wymieniać wszystkich projektów, wspomnę o jednym z nich, z którym związani są statystycy i demografowie - mianowicie Narodowym Spisie Powszechnym 2011, który realizowany był odmiennie od dotychczasowych spisów i był oparty na nowych technologiach pozyskiwania informacji. W pozyskiwaniu tych informacji wykorzystano liczne dostępne rejestry, w których zagadnienie jakości danych (data quality) było niezwykle ważne. Podręcznik składa się z siedmiu rozdziałów prezentujących różne metody i techniki analityczne. Każdy z rozdziałów stanowi odrębną całość. Struktura każdego z rozdziałów pomyślana została tak, że najpierw przedstawiona jest część teoretyczna - opis metody, modeli, kolejno estymacja i weryfikacja, a po opisie teoretycznym przedstawiane są wybrane przykłady zastosowań. Cechą wspólną wszystkich rozdziałów jest to, że zamieszczone w książce przykłady empiryczne (analityczne) przedstawione są w Systemie SAS, który jest zdaniem autorów jedną z najlepszych platform analitycznych z doskonałą dokumentacją naukową i dobrze sprawdzonymi produktami. SAS jest liderem w branży oprogramowania i narzędzi analitycznych dla zaawansowanych analiz biznesowych, ponadto jest największym dostawcą na rynku business intelligence. Więcej na temat możliwości SAS Czytelnik znajdzie na stronach: http://www.sas.com/ oraz http://www.sas.com/offices/europe/poland/. Kolejne rozdziały podręcznika przedstawiają następujące zagadnienia: Rozdział I. Analiza zmiennych jakościowych Rozdział II. Analiza klas ukrytych Rozdział III. Modele mieszane Rozdział IV. Wybrane zagadnienia estymacji bayesowskiej Rozdział V. Data Mining Rozdział VI. Jakość danych Na końcu publikacji Czytelnik znajdzie streszczenie kolejnych rozdziałów w wersji polskiej i angielskiej oraz biogramy autorów poszczególnych rozdziałów. Spis treści PRZEDMOWA ROZDZIAŁ I. ANALIZA DANYCH JAKOŚCIOWYCH (Monika Książek) I. Teoria I.1. Wprowadzenie I.2. Jednowymiarowa analiza zmiennych jakościowych I.3. Analiza zależności zmiennych jakościowych I.3.1.Test równości proporcji I.3.2. Miary zależności I.3.3. Testy niezależności I.3.4. Testy i mierniki dla zmiennych porządkowych I.3.5. Analiza zależności dwóch zmiennych jakościowych w warstwach wyznaczanych przez inne zmienne jakościowe I.4. Modele log-liniowe I.5. Zmienne jakościowe jako zmienne objaśniające I.5.1. Kodowanie zmiennych jakościowych I.5.2. Problemy związane z obecnością zmiennych jakościowych w modelu I.5.3. Interakcje zmiennych jakościowych I.5.4. Korzyści ze zmiany skali pomiaru zmiennych I.6. Zmienne jakościowe jako zmienne objaśniane I.6.1. Uogólnione modele liniowe dla zmiennych jakościowych I.6.2. Interpretacja parametrów I.6.3. Badanie istotności statystycznej parametrów I.6.4. Ocena jakości dopasowania modelu II. Przykłady II.1. Analiza jednowymiarowa II.2. Analiza tabeli 2 × 2 II.3. Analiza tabeli 2 × 2 w podgrupach II.4. Model log-liniowy II.5. Kodowanie II.6. Binarna regresja logistyczna II.7. Wielomianowa i porządkowa regresja logistyczna II.8. Uwzględnianie wpływów nieliniowych II.9. Interakcje Bibliografia ROZDZIAŁ II. ANALIZA ZMIENNYCH UKRYTYCH (Iga Sikorska) I. Model klas ukrytych (LCA) I.1. Wprowadzenie I.2. Zapis modelu I.2.1. Założenia modelu klas ukrytych I.2.2. Parametry modelu klas ukrytych I.3. Estymacja modelu klas ukrytych I.3.1. Estymacja parametrów w SAS I.4. Weryfikacja modelu klas ukrytych I.4.1. Braki danych I.4.2. Ograniczenia nakładane na parametry I.4.3. Liczba klas ukrytych I.4.4. Interpretacja klas ukrytych I.4.5. Homogeniczność i rozróżnialność modeli klas ukrytych I.5. Zmienne grupujące w modelu klas ukrytych I.6. Zmienne kontrolne w modelu klas ukrytych I.6.1. Weryfikacja modelu ze zmiennymi kontrolnymi I.7. Procedury LCA i LTA I.8. Przykład modelu klas ukrytych II. Model stanów ukrytych (LTA) II.1. Wprowadzenie II.2. Zapis modelu II.3. Estymacja i weryfikacja modelu stanów ukrytych II.3.1. Braki danych II.3.2. Ograniczenia nakładane na parametry II.4. Zmienne grupujące w modelu stanów ukrytych II.5. Zmienne kontrolne w modelu stanów ukrytych II.6. Przykład modelu stanów ukrytych Bibliografia ROZDZIAŁ III. MODELE MIESZANE (Ewa Frątczak, Małgorzata Mianowska) I. Podstawy teoretyczne I.1. Liniowy model mieszany I.1.1. Wprowadzenie I.1.2. Zapis liniowego modelu mieszanego I.1.3. PROC GLM i PROC MIXED I.1.4. PROC HPMIXED I.1.5. Diagnostyka i strategie budowy modelu I.2. Uogólniony model mieszany I.2.1. Wprowadzenie I.2.2. Zapis uogólnionego liniowego modelu mieszanego I.2.3. Procedura GLIMMIX i metody estymacji I.3. Nieliniowy model mieszany I.3.1. Wprowadzenie I.3.2. Zapis nieliniowego modelu mieszanego I.3.3. Procedura NLMIXED i metoda estymacji I.4. Podsumowanie II. Przykłady estymacji modeli mieszanych Wprowadzenie II.1. Przykład 1 - model liniowy i liniowy model mieszany II.2. Przykład 2 - liniowy model mieszany z interakcją II.3. Przykład 3 - model hierarchiczny II.4. Przykład 4 - uogólniony liniowy model mieszany i model nieliniowy II.5. Przykład 5 - estymacja modelu mieszanego w Enterprise Guide Bibliografia Załącznik 1. Teoria liniowych modeli mieszanych 1. Wprowadzenie 2. Zapis macierzowy 3. Określenie postaci modeli mieszanych 3.1. Ogólna postać liniowego modelu mieszanego 3.2. Rozkłady warunkowe i brzegowe 3.3. Przykład: Krzywa wzrostu z symetryczną strukturą kowariancji 3.4. Przykład: Układ podzielonych poletek (Split-Plot Design) 4. Estymacja parametrów, predykcja efektów losowych 4.1. Estymacja beta i prognoza u: równania modelu mieszanego 4.2. Efekty losowe, grzbietowe oraz kurczenie 4.3. Wszystko o metodzie SWEEP 4.4. Największa wiarygodność i ograniczona największa wiarygodność dla parametrów kowariancji 5. Własności statystyczne 6. Wybór postaci modelu 6.1. Porównania modeli z wykorzystaniem testów ilorazu wiarygodności 6.2. Porównania modeli z wykorzystaniem kryteriów informacyjnych 7. Wnioskowanie i statystyki testujące 7.1. Wnioskowanie o parametrach kowariancji 7.2. Wnioskowanie o efektach stałych i losowych 8. Prace cytowane w załączniku ROZDZIAŁ IV. WYBRANE ZAGADNIENIA ESTYMACJI BAYESOWSKIEJ (Wioletta Grzenda) I. Elementy teorii statystyki bayesowskiej I.1. Metody bayesowskie I.1.1. Twierdzenie Bayesa I.1.2. Rozkłady a priori I.1.3. Wnioskowanie bayesowskie I.1.4. Uwagi ogólne dotyczące metod bayesowskich I.2. Metody Monte Carlo oparte na łańcuchach Markowa I.2.1. Wybrane własności łańcuchów Markowa I.2.2. Algorytm Metropolisa i algorytm Metropolisa-Hastingsa I.2.3. Próbnik Gibbsa I.2.4. Algorytm próbkowania adaptacyjnego z odrzucaniem I.2.5. Zagadnienia dotyczące wyboru realizacji łańcucha Markowa I.2.6. Ocena zbieżności łańcuchów Markowa I.2.7. Testy zbieżności łańcuchów Markowa II. Przykłady zastosowań II.1. Materiał empiryczny II.2. Model regresji Poissona w ujęciu bayesowskim II.3. Bayesowska estymacja uogólnionych modeli liniowych w systemie SAS II.4. Przykłady bayesowskiej estymacji modeli regresji Poissona II.4.1.Model Poissona z nieinformacyjnymi rozkładami normalnymi a priori II.4.2. Model Poissona z informacyjnym rozkładem normalnym a priori i nieinformacyjnymi rozkładami normalnymi a priori Bibliografia ROZDZIAŁ V. DATA MINING (Kamil Konikiewicz) 1. Wprowadzenie do aplikacji SAS Enterprise Miner 2. Opis danych 3. Podział danych 4. Eksploracja danych 5. Drzewa decyzyjne 5.1. Postać modelu 5.2. Budowa modelu 5.3. Dobór zmiennych i przygotowanie danych 5.4. Lasy losowe 6. Regresja logistyczna 6.1. Postać modelu 6.2. Przygotowanie danych 7. Sieci neuronowe MLP 7.1. Postać modelu 7.2. Uczenie sieci 8. Ocena i wybór modelu 8.1. Statystyki dopasowania 8.2. Przepróbkowanie 8.3. Scoring Bibliografia ROZDZIAŁ VI. WYBRANE ZAGADNIENIA JAKOŚCI DANYCH (Ewa FalkiewiczSzporer, Łukasz Leszewski) I. Podstawowe pojęcia I.1. Cechy dobrej jakości danych I.2. Źródła złej jakości danych I.3. Etapy tworzenia i transformacji informacji II. Metodologia zarządzania jakością danych III. Filary zarządzania jakością danych III.1. Tworzenie otoczenia sprzyjającego jakości danych III.2. Rozwiązania organizacyjne III.3. Zapewnienie standardów w organizacji III.4. Monitorowanie i mierzenie jakości danych III.5. Rola hurtowni danych III.6. Technologia i narzędzia IV. Etapy procesu czyszczenia danych IV.1. Profilowanie IV.2. Czyszczenie danych IV.3. Integracja danych IV.4. Wzbogacanie danych IV.5. Monitorowanie danych V. Narzędzia i techniki jakości danych V.1. DataFlux dfPower Studio V.2. DataFlux Integration Server V.3. SAS Data Integration Studio VI. Standaryzacja danych VI.1. Tworzenie schematów standaryzacyjnych VI.2. Definicje standaryzacyjne VII. Przykład zastosowania - implementacja procesów czyszczenia danych VII.1. Profilowanie VII.2. Standaryzacja VII.3. Integracja danych VIII. Podsumowanie Bibliografia STRESZCZENIA - ABSTRACTCS BIOGRAMY - BIOGRAMS