1. Hurtownia danych definicja oraz cechy: Jest to
Transkrypt
1. Hurtownia danych definicja oraz cechy: Jest to
1. Hurtownia danych definicja oraz cechy: Jest to dziedzinowo zorientowana baza danych organizacji, która potrafi połączyd informacje z wielu modeli danych wykorzystywanych w różnych aplikacjach pracujących na różnych platformach sprzętowych. Cechy hurtowni danych: Unifikowalnośd danych Inna charakterystyka danych Wsadowe modyfikacje danych Głównie odczyty Małe transakcje w małych oknach czasowych, innych brak Wolumeny danych ogromne i ogromne operacje na danych Podatnośd na optymalizację zapytao Przetwarzanie masowe – raportowanie za systemy transakcyjne. Podatnośd na audyt owalnośd prawidłowości danych. Cechy informacji przechowywanych w HD: Separacja – od systemów operacyjnych Integracja – zintegrowana informacja w bazie modelu danych organizacji Zorientowanie dziedzinowe – informacja jest ustrukturyzowana dziedzinowo (tematycznie) Znakowanie czasem – każda informacja posiada znacznik czasu Niezmiennośd – zmiany mogą byd dokonywane tylko globalnie tzn. wszyscy użytkownicy muszą widzied te same dane. Przystępnośd – łatwośd użytkowania dla użytkowników nie będących specjalistami komputerowymi Różne systemy pracują na różnych ziarnistościach, niektóre ubogacają opisy, inne zmniejszają ziarnistośd danych. Dlaczego stosujemy hurtownie danych? Spłaszczenie struktur organizacyjnych = więcej władzy na niższych szczeblach. Jak agregowad wtedy informacje w jednym miejscu i jak pokazad, dostarczyd je na biurko? 2. Architektura Hurtowni Danych. a) Najprostsza hurtownia – wirtualna hurtownia nie przechowuje informacji, a jedynie je wyciąga, dzięki dołączonym meta-danym. Pierwszy krop przed wprowadzeniem hurtowni to zadanie sobie pytania czy wirtualna potrafi ułatwid życie b) Prosta hurtownia – Jedno główne repozytorium z przedsionkiem ODS (lub bez jeśli zgadzamy się na wymazywanie niepotrzebnej historii). c) Rozproszona z centralnym głównym modelem (repozytorium) + Dzidzinowe Data Marty, gdzie korzysta się z perspektyw d) Federacyjna hurtownia danych: Bez centrali, Same główne repozytoria zorientowane dziedzinowo, dedykowane do zastosowao realizowanych przez grupy użytkowników. … 3. Modele danych wykorzystywane w Hurtowniach Danych, powiązanie z użytkownikami...jakieś poziomy abstrakcji. Perspektywa właściciela: • Model korporacyjny – koncepcyjny. Perspektywa projektanta • Transakcyjny Logiczny model danych • Analityczny Logiczny model danych Perspektywa wykonawcy • • • • Transakcyjne systemy źródłowe (FMD) ODS (FMD) HD (FMD) DM (FMD) Różne charakterystyki działania, żądao i wymagao systemu. 4. Rodzaje systemów Systemy operacyjne ( transakcyjne): Cechy: Powtarzalnośd Przewidywalnośd Skupienie na przeszłośd Pochodzenie z wewnątrz organizacji Zorientowane na zadania Ścisła kontrola poprawności informacji ustrukturyzowana forma Odbiorcy informacji: Menadżerowie pierwszych linii. Systemy taktyczne zarządcze średniego szczebla Cechy: Dane zagregowane z systemów operacyjnych Natura periodyczna Niekoniecznie przewidywalne rezultaty Elementy porównawcze (np. względem innych okresów) Forma podsumowao/zestawieo Źródła informacji zarówno wewnętrzne i zewnętrzne Zorientowana na planowanie i kontrolę Przykładowe systemy: Rachunkowości zarządczej, Controllingowe, Marketingowe (często real-time). Odbiorcy informacji: managerowie średniego szczebla. Systemy planowania strategicznego Cechy: Informacja przygotowywana ad-hoc na żądanie Natura informacji o charakterze predyktywnym Elementy symulacji Forma podsumowao zestawieo Informacje w dużej części ze źródeł zewnętrznych (trendy na rynku, dane dotyczące konkurencji/koniunktury Często nieustrukturyzowana forma danych wejściowych. Przykładowe systemy: EIS DSS systemy eksperckie Odbiorcy: Managerowie najwyższego szczebla. 5. Technicze i nietechniczne elementy studium wykonywalności. Techniczne: • Podejście do technicznej strony architektury • Wstępne wymagania pojemnościowe • Wymagania czasowe (uptime) • Wymagane pojedyncze komponenty architektury technicznej gromadzone w jednym miejscu. • Harmonogramowanie prac • Wydajnośd systemu VLDB • Konwencje nazw • Strategie czyszczenia danych • Etapu oraz używane narzędzia procesu ETL. • Kluczowe mierniki wydajnościowe • Wybór typu narzędzi dostępu do danych przez użytkowników koocowych • Modelowanie danych • Monitoring bazy danych Nietechniczne: • Wymagania biznesowe (funkcjonalne, grupy użytkowników) • Definicja obszarów danych. • Wymagania do meta-danych • Model danych wysokiego poziomu • Struktura organizacji • Plan implementacji • Analiza predykcji oraz ryzyka • Dokumentacja • Zagadnienia wspomagające zarządzanie 6. Poziomy procesów decyzyjnych w firmie Planowanie strategiczne – działania długookresowe określające politykę firmy w okresie 3-5 lat. Działania taktyczne – działania średnio okresowe określające działania oraz posunięcia firmy w okresie półrocznym do dwuletniego. Działania operacyjne – działania obejmujące codzienną aktywnośd organizacji. 7. Procesy zarządcze • Planowanie (stawianie celów firmy ) • Organizacja (rozwój struktur organizacyjnych) • Budżetowanie () • Monitorowanie (Nadzór operacji) • Kontrolowanie (Ewaluacja…) • Przywództwo (Monitorowanie i nadzór pracowniczy, zarządzanie grupami i zespołami) 8. Data mining –opis: eksploracja danych- proces poszukiwania nowych, nietrywialnych i użytecznych wzorców w zbiorach danych. Proces ten składa się z trzech zasadniczych etapów: wstępnej eksploracji, budowania modelu (z określaniem wzorców) oraz oceny i weryfikacji wdrożenia i stosowania modeli (ang. deployment) dla nowych danych, w celu uzyskania przewidywanych wartości lub klasyfikacji. Kategorie technik wykorzystywanych w systemach DM: Wyszukiwanie zależności What-if Klasyfikacja obiektów Generalizacja obiektów Metody statystyczne Kryteria wyboru systemu Data Mining: Jaka wielkośd przykładów i próbek wymagana jest do przetwarzania na raz, Jaka wielkośd przetwarzania wstępnego jest niezbędna, Czy system umożliwia użytkownikom modyfikacje. 9. Data mining – metodyki : a) Metodologia SEMMA ( od ang. Sampling, Exploration, Modification, Modeling, Assessment). Sampling –wybór zbiorów uczących - sampling danych, sampling modelu(nauczyd model). Trzeba znad dane i ich specyfikę. Exploration – razem z samplingiem 40% czasu . Poszukiwanie w danych nieprzewidzianych trendów, anomalii, w celu uzyskania zrozumienia problemów oraz idei stosowania dm. Modification – Modyfikowanie danych poprzez tworzenie, wyznaczanie i transformacje zmiennych wyznaczonych w fazie exploracji. Manipulacja danymi tak aby dodad do nich niezbędne informacje pozwalające pomagad np. grupowad, czy dodawanie nowych zmiennych do modelu. Modeling – modelowanie danych, czyli pozwalanie oprogramowaniu na automatyczne przeszukiwanie kombinacji danych, które godnie przewidują oczekiwane rezultaty. Tutaj stosuje się metody opisane poniżej Assessment – 40% czasu, czy dane wygenerowane, mają biznesowy sens. Analityk wykonujący i nadzorujący cały proces o tym decyduje. W tej metodologii istnieje sprzężenie zwrotne i tunning osiąganych wyników w pozostałych punktach. b) Jednym z modeli data mining jest CRISP (Cross-Industry Standard Process for data mining) zaproponowany w połowie lat dziewięddziesiątych przez europejskie konsorcjum przedsiębiorstw, jako powszechnie dostępny standard dla procesu data mining. Model ten postuluje następujący ciąg etapów projektu data mining (raczej nie budzą one większych kontrowersji): c) Innym podejściem jest metodyka Sześd Sigma (Six Sigma) . Jest to dobrze zorganizowana, bazująca na danych strategia unikania wad i problemów z jakością we wszystkich rodzajach produkcji i usług, zarządzaniu i innej działalności biznesowej. Metodyka Sześd Sigma staje się ostatnio coraz bardziej popularna (ze względu na wiele udany wdrożeo) w USA i na całym świecie. Zaleca ona następujące etapy (tzw. DMAIC): Definiowanie. Ta faza obejmuje określenie celu i zakresu projektu oraz identyfikację problemów, których rozwiązanie jest wymagane do osiągnięcia wyższego poziomu sigma. Pomiar. Celem tego etapu metodyki Sześć Sigma jest zebranie informacji o aktualnej sytuacji, uzyskanie wstępnych danych o wydajności procesów i identyfikacja problemów. Analiza. Celem etapu Analiza jest rozpoznanie przyczyn problemów z jakością i potwierdzenie ich wpływu za pomocą analizy danych. Udoskonalenie. Na tym etapie strategii Sześć Sigma wdrażane są rozwiązania problemów (przyczyn głównych) zidentyfikowanych na etapie Analizy. Kontrola. Celem tego etapu jest ocena i monitorowanie wyników poprzedniej fazy (Udoskonalenie). Wywodzą się one z tradycji doskonalenia jakości i sterowania procesami i szczególnie dobrze nadają się do zastosowania w produkcji i świadczeniu usług. 10. Data mining – metody drzewa decyzyjne - Na podstawie tabel decyzyjnych (zebranych wielu faktów w postaci różnych atrybutów i związanych z nimi decyzji) tworzących drzewo decyzyjne, które umożliwia nam podejmowanie w przyszłości decyzji w sposób automatyczny, a przy tym jest czytelne dla człowieka. grupowanie (analiza skupieo) - Jest metodą tzw. klasyfikacji bez nadzoru. Jest to metoda dokonująca grupowania elementów we względnie jednorodne klasy. Podstawą grupowania w większości algorytmów jest podobieostwo pomiędzy elementami – wyrażone przy pomocy funkcji (metryki) podobieostwa. szeregi czasowe - Szeregi czasowe są seriami obserwacji dokonanymi w równych odstępach czasu. Służą one do określenia na podstawie danych historycznych przyszłych wartości, ich prognozowania. reguły asocjacyjne - Odnajdywanie reguł asocjacyjnych służy analizie koszyka zakupów. Załóżmy , że mamy zbiór produktów k1, ... , kn. Przykładową regułą asocjacyjną, jaką otrzymamy może byd reguła: k7 =>k2,k5 co będzie oznaczało, że z faktu , że klienci kupili produkt k7 wynika, że kupili również k2 i k5. Reguły asocjacyjne są charakteryzowane przez 2 wartości wyrażone w procentach: wsparcie ( określa dla ilu procent wszystkich dokonanych transakcji zachodzi dana sytuacja, gdzie ta implikacja jest spełniona) pewnośd ( określa jaki jest procent spełnionych implikacji wśród wszystkich transakcji, dla których były prawdziwe warunki implikacji) sieci neuronowe - Na wejściu mamy pewne wejścia (zmienne niezależne), natomiast na wyjściu znajdują się zmienne zależne (prognozowane). Tak dobieramy współczynniki sieci neuronowej aby zminimalizowad błąd pomiędzy zapognozowanymi zmiennymi a rzeczywistymi wynikami jakie potem otrzymaliśmy. 11. Data Mart A data mart (DM) is the access layer of the data warehouse (DW) environment that is used to get data out to the users. The DM is a subset of the DW, usually oriented to a specific business line or team. • Easy access to frequently needed data • Creates collective view by a group of users • Improves end-user response time • Ease of creation • Lower cost than implementing a full Data warehouse • Potential users are more clearly defined than in a full Data warehouse No jest cachem HD ze względu na specyficzną grupę użytkowników. 12. ETL od extraction, transforamtion, loading. Organizacja danych w strukturze wielowymiarowej nie jest jedynym wyróżnikiem hurtowni danych. Ważnym elementem tych systemów są procedury ekstrakcji, czyszczenia, transformacji i ładowania danych do bazy (ang. Extract, Transformation, Load – ETL). Transformacja danych obejmuje przetwarzanie danych do postaci wymaganej w hurtowni danych. Transformacja ta obejmuje następujące procedury / czynności: integracja danych walidacja danych czyszczenie danych redukcja danych wzbogacanie de normalizacja stemplowanie znacznikiem czasowym Procedury ekstrakcji danych z systemów OLTP uruchamiane są w czasie minimalnego obciążenia tych systemów. Dane wyekstrahowane są następnie weryfikowane względem reguł i danych słownikowych przechowywanych w repozytorium metadanych, przekształcane do pożądanej w hurtowni postaci i następnie ładowane do bazy. Dzięki procedurom ETL dane w hurtowni charakteryzują się wysoką jakością, przewyższającą znacznie jakośd danych systemów OLTP. Procedury walidacji danych są niezbędne dla zapewnienia poprawności i spójności informacji przechowywanych w hurtowni danych. Powinny obejmowad takie elementy weryfikujące jak: Brakujące dane Niespójne dane Błędne dane Niepewne dane Dane spoza zakresu 13. Operational Data Store: ODS - jest to zintegrowana baza operacyjnych danych pochodzących z wielu różnych systemów i aplikacji biznesowych źródłowych. Zapewnia dostęp do przetrzymywanych danych w czasie rzeczywistym. Wspiera funkcje do realizacji celów raportów operacyjnych. Może byd użyty jako tymczasowy obszar gromadzenia danych dla hurtowni danych lub data martu. Integruje dane używane w raportach operacyjnych oraz pozwala na zasilanie systemów DSS (Decision support systems). Odkąd mamy doczynienia z danymi pochodzącymi z różnych źródeł, integracja ODS pozwala na oczyszczanie, rozwiązywanie nadmiarowości oraz walidacje reguł biznesowych. Pozwala przechowywad dane o największym poziomie szczegółowości, aktualizowane częściej niż odbywa się to w hurtowni oraz przechowuje bardzo małą ilośd historii (krótkie okno czasowe), lub wcale. Dane są wysoce znormalizowane w celu uniknięcia nadmiarowości. Musi podoład i jest zaprojektowany aby zmierzyd się z nieustannymi aktualizacjami. Wysoce użyteczny gdy istnieje potrzeba wykonywania raportów, które wymagają małej latencji danych ( 5min do 24 godzin). 14. Korporacyjny model danych definicja i zastosowanie. Podstawą do wdrożenia efektywnego, elastycznego i wysokiej jakości rozwiązania BI, jest przeprowadzenie Analizy Potrzeb Informacyjnych w firmie, w wyniku której zostanie stworzony Korporacyjny Model Danych. Celem stworzenie Korporacyjnego Modelu Danych jest wypracowanie wspólnego i spójnego dla wszystkich komórek sformalizowanego języka opisu danych. Dzięki temu zostaną osiągnięte następujące korzyści: • • • • Mniejsze koszty utrzymania i rozwoju Hurtowni Danych. Hurtownia danych będzie zawierad struktury danych, które zaspokoją większośd potrzeb informacyjnych w firmie Rozwiązania BI będzie elastyczne, tzn. dodawanie nowych obszarów informacyjnych nie będzie wymagało zmiany architektury i nie naruszy spójności danych Niezależnośd od źródeł danych Możliwośd etapowego wdrażania BI, przy zachowaniu spójności koncepcyjnej. Mniejsze inwestycje na początku w budowę Hurtowni Danych, szybciej pierwsze rezultaty przy ograniczonym zakresie informacji. Korporacyjny Model Danych zawiera: • Struktury Danych w raz z opisem, w postaci diagramów • Źródła danych • Reguły biznesowe – relacje między danymi, definicja miar, definicja hierarchi. • Klasyfikacje i słowniki – tj. lista produktów, kategoryzację zdarzeo biznesowych Korporacyjny model danych powinien posiadad właścicieli danych. Projekt hurtowni zakłada co jest potrzebne, cykl życia danych oraz reguły walidacji modelu 15. Implementacje OLAP: a) ROLAP (Relational). Cechy: zbudowane w relacyjnej bazie danych, wielka objętośd danych(TB), złożone struktury danych, problemy z wydajnością, łatwa modyfikacja danych, potrzeba stworzenia kopii bazy do celów analitycznych, niedoskonałośd SQL, stosowane dla centralnych hurtowni Opis Typowym sposobem przechowywania kostek danych jest schemat gwiazdy, płatka śniegu, konstelacji faktów Agregacja danych odbywa się w hurtowni danych lub na bieżąco. Architektura ta cechuje się wykonaniem operacji transformowanych na zapytanie SQL, dostępem do danych sumarycznych jak i do danych szczegółowych, szerokim zakresem realizacji zapytao wyspecyfikowanych jak i ad hoc. Najistotniejszym zastrzeżeniem do architektury ROLAP jest niska wydajnośd zapytao i długi czas oczekiwania na odpowiedź. Jednak wydajnośd nie jest jedynym kryterium oceny efektywności architektury OLAP. System DSS ma bowiem głównie zapewnid podejmowanie racjonalnych decyzji. Użytkownicy wykorzystujący zapytania ad hoc zgadzają się na niską wydajnośd w zamian za możliwośd zadawania jednostkowych, nieoczekiwanych zapytao do danych szczegółowych w ogromnym zbiorze danych. b) MOLAP(Multidimensional) Cechy: zoptymalizowane struktury danych – duża wydajnośd analizy wielowymiarowej, specjalne serwery wielowymiarowe, mniejsze objętości danych(GB), naturalna reprezentacja struktur wielowymiarowych, modyfikacje danych kosztowne, stosowane często dla składnic danych (nie radzą sobie z tb danych) Opis architektura ta opiera się na wielowymiarowych tablicach zawierających dane zagregowane (wg różnych hierarchii i wymiarów - w postaci kostki) gotowe do zaawansowanych analiz tak by użytkownik mógł otrzymad wymagany widok danych c) HOLAP(HYBRID) Cechy: współdziałające bazy: relacyjna i wielowymiarowa, włącznie rozwiązao molap do relacyjnego dbms Opis: relacyjna baza danych jako źródło danych; najczęściej przetwarzane informacje w wielowarstwowej bazie, minusy są dziedziczone z obu rozwiązao, wydajnośd większa od ROLAP lecz nie dorównuje MOLAP, HOLAP jest przyśpieszaczem ROLAP. 16. Relacyjna implementacja modelu (ROLAP): Schematy logiczne: schemat gwiazdy schemat płatka śniegu konstelacja faktów Schemat gwiazdy: centralna tabela faktów wymiary zdenormalizowane tabela faktów połączona z tabelami wymiarów poprzez klucze obce uproszczony schemat płatka śniegu Charakterystyka: prosta struktura duża efektywnośd zapytao ze względu na niewielką liczbę złączeo duży czas ładowania danych do tabel wymiarów ze względu na denormalizację struktura dominująca w hurtowniach danych Schemat płatka śniegu: centralna tabela faktów wymiary znormalizowane Charakterystyka: spadek wydajności zapytao w porównaniu ze schematem gwiazdy ze względu na większą ilośd złączeo (wymiary znormalizowane, składające się z kilku tabel, np. sklepy ->miejscowosci -> regiony) struktura łatwiejsza w modyfikacji krótszy czas ładowania danych do tabel wymiarów mniej popularna niż gwiazda – efektywnośd zapytao jest ważniejsza niż szybkośd ładowania danych Konstelacja faktów: Różne tabele faktów mogą odwoływad się do różnych poziomów danego wymiaru FAKT_1------- MIESIAC -------- ROK ----------- FAKT_2 Tabela faktów: przeważnie kolumny numeryczne (można np agregowad) wieloatrybutowy klucz główny z kluczy obcych do tabel wymiarów zwykle zawiera 90% danych umieszczonych w schemacie szybki przyrost danych Tabele wymiarów: 17. zawierają dane statyczne (informacje o klientach, produktach etc) zawierają atrybuty opisowe (ciągi znaków)