Tytuł: ZAAWANSOWANE METODY ANALIZ

Transkrypt

Tytuł: ZAAWANSOWANE METODY ANALIZ
Tytuł:
ZAAWANSOWANE METODY ANALIZ STATYSTYCZNYCH
Autor:
red. Ewa Frątczak
Wstęp
Zaawansowane metody analiz statystycznych przenoszą analizy statystyczne na kolejny
wyższy poziom. Określenie tego wyższego poziomu pozostawiamy indywidualnie każdemu
Czytelnikowi. Wśród wielu prezentowanych metod i modeli w tym podręczniku są
przedstawione modele mieszane - przegląd ogólny ich teorii i przykłady aplikacji. Autor
cytowanego podręcznika E. Demidenko mówi o modelach mieszanych następująco: Mixed
model methodology brings statistics to the next level.
Każdy z autorów poszczególnych rozdziałów (biogramy znajdują się w końcowej części
podręcznika) ma za sobą doświadczenia praktyczne związane z uczestnictwem w
projekcie/projektach, gdzie metody i wiedza teoretyczna były i są weryfikowane w praktyce;
są to z reguły projekty w instytucjach bankowych, ubezpieczeniowych, telekomunikacyjnych,
resortach państwowych - urzędach centralnych, ministerstwach. Żeby nie wymieniać
wszystkich projektów, wspomnę o jednym z nich, z którym związani są statystycy i
demografowie - mianowicie Narodowym Spisie Powszechnym 2011, który realizowany był
odmiennie od dotychczasowych spisów i był oparty na nowych technologiach pozyskiwania
informacji. W pozyskiwaniu tych informacji wykorzystano liczne dostępne rejestry, w
których zagadnienie jakości danych (data quality) było niezwykle ważne.
Podręcznik składa się z siedmiu rozdziałów prezentujących różne metody i techniki
analityczne. Każdy z rozdziałów stanowi odrębną całość. Struktura każdego z rozdziałów
pomyślana została tak, że najpierw przedstawiona jest część teoretyczna - opis metody,
modeli, kolejno estymacja i weryfikacja, a po opisie teoretycznym przedstawiane są wybrane
przykłady zastosowań. Cechą wspólną wszystkich rozdziałów jest to, że zamieszczone w
książce przykłady empiryczne (analityczne) przedstawione są w Systemie SAS, który jest
zdaniem autorów jedną z najlepszych platform analitycznych z doskonałą dokumentacją
naukową i dobrze sprawdzonymi produktami. SAS jest liderem w branży oprogramowania i
narzędzi analitycznych dla zaawansowanych analiz biznesowych, ponadto jest największym
dostawcą na rynku business intelligence. Więcej na temat możliwości SAS Czytelnik znajdzie
na stronach: http://www.sas.com/ oraz http://www.sas.com/offices/europe/poland/.
Kolejne rozdziały podręcznika przedstawiają następujące zagadnienia:
Rozdział I. Analiza zmiennych jakościowych
Rozdział II. Analiza klas ukrytych
Rozdział III. Modele mieszane
Rozdział IV. Wybrane zagadnienia estymacji bayesowskiej
Rozdział V. Data Mining
Rozdział VI. Jakość danych
Na końcu publikacji Czytelnik znajdzie streszczenie kolejnych rozdziałów w wersji polskiej i
angielskiej oraz biogramy autorów poszczególnych rozdziałów.
Spis treści
PRZEDMOWA
ROZDZIAŁ I. ANALIZA DANYCH JAKOŚCIOWYCH (Monika Książek)
I. Teoria
I.1. Wprowadzenie
I.2. Jednowymiarowa analiza zmiennych jakościowych
I.3. Analiza zależności zmiennych jakościowych
I.3.1.Test równości proporcji
I.3.2. Miary zależności
I.3.3. Testy niezależności
I.3.4. Testy i mierniki dla zmiennych porządkowych
I.3.5. Analiza zależności dwóch zmiennych jakościowych w warstwach wyznaczanych przez
inne zmienne jakościowe
I.4. Modele log-liniowe
I.5. Zmienne jakościowe jako zmienne objaśniające
I.5.1. Kodowanie zmiennych jakościowych
I.5.2. Problemy związane z obecnością zmiennych jakościowych w modelu
I.5.3. Interakcje zmiennych jakościowych
I.5.4. Korzyści ze zmiany skali pomiaru zmiennych
I.6. Zmienne jakościowe jako zmienne objaśniane
I.6.1. Uogólnione modele liniowe dla zmiennych jakościowych
I.6.2. Interpretacja parametrów
I.6.3. Badanie istotności statystycznej parametrów
I.6.4. Ocena jakości dopasowania modelu
II. Przykłady
II.1. Analiza jednowymiarowa
II.2. Analiza tabeli 2 × 2
II.3. Analiza tabeli 2 × 2 w podgrupach
II.4. Model log-liniowy
II.5. Kodowanie
II.6. Binarna regresja logistyczna
II.7. Wielomianowa i porządkowa regresja logistyczna
II.8. Uwzględnianie wpływów nieliniowych
II.9. Interakcje
Bibliografia
ROZDZIAŁ II. ANALIZA ZMIENNYCH UKRYTYCH (Iga Sikorska)
I. Model klas ukrytych (LCA)
I.1. Wprowadzenie
I.2. Zapis modelu
I.2.1. Założenia modelu klas ukrytych
I.2.2. Parametry modelu klas ukrytych
I.3. Estymacja modelu klas ukrytych
I.3.1. Estymacja parametrów w SAS
I.4. Weryfikacja modelu klas ukrytych
I.4.1. Braki danych
I.4.2. Ograniczenia nakładane na parametry
I.4.3. Liczba klas ukrytych
I.4.4. Interpretacja klas ukrytych
I.4.5. Homogeniczność i rozróżnialność modeli klas ukrytych
I.5. Zmienne grupujące w modelu klas ukrytych
I.6. Zmienne kontrolne w modelu klas ukrytych
I.6.1. Weryfikacja modelu ze zmiennymi kontrolnymi
I.7. Procedury LCA i LTA
I.8. Przykład modelu klas ukrytych
II. Model stanów ukrytych (LTA)
II.1. Wprowadzenie
II.2. Zapis modelu
II.3. Estymacja i weryfikacja modelu stanów ukrytych
II.3.1. Braki danych
II.3.2. Ograniczenia nakładane na parametry
II.4. Zmienne grupujące w modelu stanów ukrytych
II.5. Zmienne kontrolne w modelu stanów ukrytych
II.6. Przykład modelu stanów ukrytych
Bibliografia
ROZDZIAŁ III. MODELE MIESZANE (Ewa Frątczak, Małgorzata Mianowska)
I. Podstawy teoretyczne
I.1. Liniowy model mieszany
I.1.1. Wprowadzenie
I.1.2. Zapis liniowego modelu mieszanego
I.1.3. PROC GLM i PROC MIXED
I.1.4. PROC HPMIXED
I.1.5. Diagnostyka i strategie budowy modelu
I.2. Uogólniony model mieszany
I.2.1. Wprowadzenie
I.2.2. Zapis uogólnionego liniowego modelu mieszanego
I.2.3. Procedura GLIMMIX i metody estymacji
I.3. Nieliniowy model mieszany
I.3.1. Wprowadzenie
I.3.2. Zapis nieliniowego modelu mieszanego
I.3.3. Procedura NLMIXED i metoda estymacji
I.4. Podsumowanie
II. Przykłady estymacji modeli mieszanych
Wprowadzenie
II.1. Przykład 1 - model liniowy i liniowy model mieszany
II.2. Przykład 2 - liniowy model mieszany z interakcją
II.3. Przykład 3 - model hierarchiczny
II.4. Przykład 4 - uogólniony liniowy model mieszany i model nieliniowy
II.5. Przykład 5 - estymacja modelu mieszanego w Enterprise Guide
Bibliografia
Załącznik 1. Teoria liniowych modeli mieszanych
1. Wprowadzenie
2. Zapis macierzowy
3. Określenie postaci modeli mieszanych
3.1. Ogólna postać liniowego modelu mieszanego
3.2. Rozkłady warunkowe i brzegowe
3.3. Przykład: Krzywa wzrostu z symetryczną strukturą kowariancji
3.4. Przykład: Układ podzielonych poletek (Split-Plot Design)
4. Estymacja parametrów, predykcja efektów losowych
4.1. Estymacja beta i prognoza u: równania modelu mieszanego
4.2. Efekty losowe, grzbietowe oraz kurczenie
4.3. Wszystko o metodzie SWEEP
4.4. Największa wiarygodność i ograniczona największa wiarygodność dla parametrów
kowariancji
5. Własności statystyczne
6. Wybór postaci modelu
6.1. Porównania modeli z wykorzystaniem testów ilorazu wiarygodności
6.2. Porównania modeli z wykorzystaniem kryteriów informacyjnych
7. Wnioskowanie i statystyki testujące
7.1. Wnioskowanie o parametrach kowariancji
7.2. Wnioskowanie o efektach stałych i losowych
8. Prace cytowane w załączniku
ROZDZIAŁ IV. WYBRANE ZAGADNIENIA ESTYMACJI BAYESOWSKIEJ
(Wioletta Grzenda)
I. Elementy teorii statystyki bayesowskiej
I.1. Metody bayesowskie
I.1.1. Twierdzenie Bayesa
I.1.2. Rozkłady a priori
I.1.3. Wnioskowanie bayesowskie
I.1.4. Uwagi ogólne dotyczące metod bayesowskich
I.2. Metody Monte Carlo oparte na łańcuchach Markowa
I.2.1. Wybrane własności łańcuchów Markowa
I.2.2. Algorytm Metropolisa i algorytm Metropolisa-Hastingsa
I.2.3. Próbnik Gibbsa
I.2.4. Algorytm próbkowania adaptacyjnego z odrzucaniem
I.2.5. Zagadnienia dotyczące wyboru realizacji łańcucha Markowa
I.2.6. Ocena zbieżności łańcuchów Markowa
I.2.7. Testy zbieżności łańcuchów Markowa
II. Przykłady zastosowań
II.1. Materiał empiryczny
II.2. Model regresji Poissona w ujęciu bayesowskim
II.3. Bayesowska estymacja uogólnionych modeli liniowych w systemie SAS
II.4. Przykłady bayesowskiej estymacji modeli regresji Poissona
II.4.1.Model Poissona z nieinformacyjnymi rozkładami normalnymi a priori
II.4.2. Model Poissona z informacyjnym rozkładem normalnym a priori i nieinformacyjnymi
rozkładami normalnymi a priori
Bibliografia
ROZDZIAŁ V. DATA MINING (Kamil Konikiewicz)
1. Wprowadzenie do aplikacji SAS Enterprise Miner
2. Opis danych
3. Podział danych
4. Eksploracja danych
5. Drzewa decyzyjne
5.1. Postać modelu
5.2. Budowa modelu
5.3. Dobór zmiennych i przygotowanie danych
5.4. Lasy losowe
6. Regresja logistyczna
6.1. Postać modelu
6.2. Przygotowanie danych
7. Sieci neuronowe MLP
7.1. Postać modelu
7.2. Uczenie sieci
8. Ocena i wybór modelu
8.1. Statystyki dopasowania
8.2. Przepróbkowanie
8.3. Scoring
Bibliografia
ROZDZIAŁ VI. WYBRANE ZAGADNIENIA JAKOŚCI DANYCH (Ewa FalkiewiczSzporer, Łukasz Leszewski)
I. Podstawowe pojęcia
I.1. Cechy dobrej jakości danych
I.2. Źródła złej jakości danych
I.3. Etapy tworzenia i transformacji informacji
II. Metodologia zarządzania jakością danych
III. Filary zarządzania jakością danych
III.1. Tworzenie otoczenia sprzyjającego jakości danych
III.2. Rozwiązania organizacyjne
III.3. Zapewnienie standardów w organizacji
III.4. Monitorowanie i mierzenie jakości danych
III.5. Rola hurtowni danych
III.6. Technologia i narzędzia
IV. Etapy procesu czyszczenia danych
IV.1. Profilowanie
IV.2. Czyszczenie danych
IV.3. Integracja danych
IV.4. Wzbogacanie danych
IV.5. Monitorowanie danych
V. Narzędzia i techniki jakości danych
V.1. DataFlux dfPower Studio
V.2. DataFlux Integration Server
V.3. SAS Data Integration Studio
VI. Standaryzacja danych
VI.1. Tworzenie schematów standaryzacyjnych
VI.2. Definicje standaryzacyjne
VII. Przykład zastosowania - implementacja procesów czyszczenia danych
VII.1. Profilowanie
VII.2. Standaryzacja
VII.3. Integracja danych
VIII. Podsumowanie
Bibliografia
STRESZCZENIA - ABSTRACTCS
BIOGRAMY - BIOGRAMS