przykłady wielkości podsumowanie
Transkrypt
przykłady wielkości podsumowanie
Modele danych - wykład V Paweł Skrobanek, C-3 pok. 323 [email protected] oprac. Wrocław 2006 Zagadnienia 1. 2. 3. 4. 5. Wprowadzenie MOLAP – modele danych ROLAP – modele danych Podsumowanie Zadanie fajne WPROWADZENIE Wprowadzenie PODSTAWOWE MODELE REPREZENTACJI I PRZECHOWYWANIA DANYCH ROLAP (ang. Relational OLAP) • rozszerzony relacyjny model danych, • przekształcenie operacji wielowymiarowych na standardowe relacyjne (często wspomagane narzędziami) MOLAP (ang. Multidimensional OLAP) • wykorzystanie wielowymiarowych baz danych (MDB) – tablice wielowymiarowe zamiast klasycznych, Wprowadzenie AGREGACJA - wstępne wyliczenie pewnych miar (podsumowanie), np.: Dla bazy OLTP Dla bazy OLAP • nie przechowujemy miesięcznych operacji z danym kontrahentem, gdyż można je wyliczyć z Faktur VAT • wyliczmy raz i przechowujemy sumę operacji z danym kontrahentem (skoro takie dane są używane np. w 80% analiz) Wprowadzenie PODZIAŁ NA PARTYCJE - zapis tabeli w częściach np. na różnych dyskach w celu zmniejszenia ilości danych lub zrównoleglenia operacji Wprowadzenie Oracle – przykłady: 2) Zrównoleglenie operacji na tabeli: CREATE TABLE SPRZEDAZ (…) PARALLEL (DEGREE 6); - maksymalnie 6 procesów serwera do obsługi tej tabeli 3) Utworzenie tabeli z podziałem na partycje (części): CREATE Klienci ( …, Kraj char(2), …) PARTITION BY RANGE (Kraj) (PARTITION p1 VALUES LESS THAN (‘C’) TABLESPACE Data01; PARTITION p2 VALUES LESS THAN (‘K’) TABLESPACE Data02; … PARTITION p6 VALUES LESS THAN MAXVALUE TABLESPACE Data06; Utworzenie indeksu dla tego podziału: CREATE INDEX indeks_kliencji_kraj ON Klienci (kraj) LOCAL; Wprowadzenie Rodzaje danych analitycznych FAKTY (wielkości analizowane) • dane ilościowe opisujące zaistniałe zdarzenia (fakty), np. wartość sprzedaży, ilość towaru, zysk WYMIARY (wielkości klasyfikujące) • dane cechy, atrybuty faktów, tzw. „dane klasyfikujące” np. czas, miejsce, pracownik, klient, • dane klasyfikujące mogą być układane w hierarchie Wprowadzenie ŚCIEŻKI PODSUMOWAŃ - definiują poziomy ogólności wymiarów (hierarchie) Przykłady: • gałąź przemysłu → kategoria → towar → opakowanie • kraj → region → miasto → sklep • rok → kwartał miesiąc tydzień dzień UWAGA: Hierarchie nie muszą być jednoznaczne, np. towar może należeć do dwóch kategorii. Wprowadzenie Hurtownie tematyczne (ang. data marts) - zbiory danych (zwykle perspektywy zmaterializowane) w których agregacje i podziały definiujemy pod kątem konkretnej grupy użytkowników podejmujących decyzje (np. pod kątem działu firmy) ROLAP (ang. Relational OLAP) - modele danych ROLAP 1. Technika implementacji – w postaci tabel. 2. Schemat: a) gwiazda – jedna tabela faktów w środku oraz tabele wymiarów po bokach (po jednej dla każdego wymiaru), b) płatek śniegu – powstaje po zastosowaniu normalizacji do tabeli wymiarów schematu gwiazdy c) inne odmiany – np. z wielokrotną tabelą faktów ROLAP Schemat gwiazdy – przykład. ROLAP Fragment schematu płatka śniegu – przykład. ROLAP Schematu „wielogwiaździsty” – 2 tabele faktów. ROLAP Schemat z dwoma tabelami faktów. ROLAP Schemat z dwoma tabelami faktów. ROLAP Tabelami faktów jako „tabela asocjacyjna” (przypisanie towaru do grupy). MOLAP (ang. Multidimensional OLAP) - modele danych ROLAP 1. Fakty – jako punkty wielowymiarowej przestrzeni. Przechowywanie w tzw. tablicach wielowymiarowych 2. Schemat w postaci wielowymiarowej kostki. 3. Reprezentacja szczegółowości (hierarchii) - za pomocą podkostek (ang. subcube). Reprezentacja „punktu” (pojedynczego elementu kostki przy pomocy innej kostki wielowymiarowej). 4. Arkusz (ang. spreadsheet) – tworzą dwa wymiary (pozostałe mają ustaloną wartość). 5. Komórka – miara z wszystkimi ustalonymi wymiarami. ROLAP Przykład kostki danych (ang. data cube). ROLAP Przykład tablicy wielowymiarowej (działanie operatora CUBE). ROLAP 4. Analiza materiałów ksero. PODSUMOWANIE PODSUMOWANIE Podsumowanie: schematy ROLAP/MOLAP dopasowane do sposobu wykorzystania danych (wyraźnie pokazane fakty i wymiary), uproszczony sposób nawigacji po danych (zapytania analityczny), zastosowanie hierarchii umożliwia uzyskanie wyników na różnym poziomie szczegółowości (tzw. drążenie danych, operacje roll-up/ drill-down) PODSUMOWANIE Podsumowanie: wada: nadmiarowość danych, duże rozmiary oraz to co jest związane z brakiem normalizacji – problem dołączania, aktualizacji, usuwania, wspomaganie zapytań analitycznych oraz modelowania ROLAP/MOLAP przez narzędzia hurtowni danych, źle dobrana struktura (schemat) danych może wpływać na znaczne pogorszenie wydajności - analiza materiałów konferencyjnych ZADANIE FAJNE Jakie będą dla danych z laboratorium: - ścieżki podsumowań - model ROLAP - model MOLAP