Historia BI Systemy, obecnie nazywane Business Intelligence

Transkrypt

Historia BI Systemy, obecnie nazywane Business Intelligence
Historia BI
Systemy, obecnie nazywane Business Intelligence, wyewoluowały z rozwiązań klasy DSS,
EIS, czy MIS. Pojęcia te są ze sobą mocno związane i trudno zaznaczyć jasne granice
pomiędzy nimi. Najstarszym z pojęć jest DSS, czyli Decision Support Systems (Systemy
Wspomagania Decyzji, SWD). Pojęcie to ma swoje początki w badaniach z przełomu lat 50tych i 60-tych ubiegłego stulecia, zostało zdefiniowane na początku lat 70-tych, a największą
popularność zdobyło w latach 80-tych. Jak sama nazwa wskazuje, odnosi się ono systemów
informatycznych wspierających podejmowanie decyzji. Na przestrzeni czasu DSS przyjęło
nazywać się systemy, które pozwalały wykorzystywać dane, informacje i wiedzę do
rozwiązywania słabo ustrukturalizowanych problemów decyzyjnych.
Efektem wykorzystania DSS poprzez wysoko wyspecjalizowanych analityków były
parametryzowane analizy i raporty, które udostępniano wyższej kadrze kierowniczej, czy
członkom zarządów poprzez tzw. systemy informowania kierownictwa EIS (Executive
Information Systems), które największą popularność osiągnęły zaczynając od połowy do
końca lat 80-tych. Mianem MIS, czyli Management Information Systems, przyjęło się
nazywać szeroką grupę systemów, z DSS i EIS włącznie, które służą do wsparcia zarządzania
poprzez analizę danych.
Lata 90-te to początki kompleksowych rozwiązań analitycznych, opartych o Hurtownie
Danych i zintegrowane modele korporacyjne, przetwarzanie analityczne w czasie
rzeczywistym (OLAP) wraz z aplikacjami służącymi do dostępu do tych danych i ich analizy,
zwane Business Intelligence. Sam termin Business Intelligence (w rozumieniu zgodnym z
dzisiejszym) został po raz pierwszy użyty przez Howarda Dresnera, późniejszego analityka
Gartnera, w roku 1989, jednak do powszechnego użytku wszedł on dopiero pod koniec lat 90tych.
Business Intelligence (analityka biznesowa) jest pojęciem bardzo szerokim. Najbardziej
ogólnie można przedstawić je jako proces przekształcania danych w informacje, a informacji
w wiedzę, która może być wykorzystana do zwiększenia konkurencyjności przedsiębiorstwa.
Efektywne eksploatowanie narzędzi BI jest mocno uzależnione od utworzenia hurtowni
danych, które pozwala na ujednolicenie i powiązanie danych zgromadzonych z różnorodnych
systemów informatycznych przedsiębiorstwa. Utworzenie hurtowni danych zwalnia systemy
transakcyjne od tworzenia raportów i umożliwia równoczesne korzystanie z różnych
systemów BI.
Koncepcja jest następująca: system BI generuje standardowe raporty lub wylicza kluczowe
wskaźniki efektywności działania przedsiębiorstwa (Key Performance Indicators - KPI) na
podstawie których stawia się hipotezy, po czym weryfikuje się je poprzez wykonywanie
szczegółowych "przekrojów" danych. Do tego służą różnego rodzaju narzędzia analityczne
(np. OLAP, data mining).
Jedna z definicji mówi, że BI to zbiór praktyk, metodyk, narzędzi i technologii
informatycznych, służących zbieraniu i integrowaniu danych w celu dostarczania informacji i
wiedzy właściwym osobom, we właściwym miejscu oraz we właściwym czasie.
Business Intelligence może być postrzegane, jako przekształcanie danych w informacje, a
informacji w wiedzę w celu optymalizacji działania procesów biznesowych i całej
organizacji. Dość dobrze sens BI oddaje jeden z popularnych sloganów marketingowych,
mówiących że BI to „dostarczanie właściwej informacji, właściwym osobom we właściwym
czasie”
Nie można również, a często tak się dzieje, utożsamiać BI jedynie z narzędziami
informatycznymi. BI to przede wszystkim kultura organizacyjna nastawiona na świadome
podejmowanie decyzji na podstawie faktów.
BI stanowi narzędzie menedżerów i specjalistów zajmujących się analizami i strategią.
Techniki prezentacyjne dobierane są odpowiednio do potrzeb użytkownika. Aby uniknąć
konieczności przeglądania gąszczu liczb, wizualizacja stanu aktualnego realizowana jest w
postaci obrazkowej. Najczęściej spotykane odmiany systemów zaliczanych do BI to:




systemy informowania kierownictwa (Executive Information Systems (EIS))
systemy wspomagania decyzji (Decision Support Systems (DSS))
systemy informacyjne zarządzania (Management Information Systems (MIS))
systemy informacji geograficznej (Geographic Information Systems (GIS))
Niebezpieczeństwa stosowania BI:
Oczekiwanie od systemu BI prostych, jednoznacznych odpowiedzi, a nawet wskazania
"jedynie słusznego rozwiązania" – jest to praktycznie niemożliwe do zrealizowania.
Tendencyjna prezentacja danych, niezamierzona – wynika z ignorancji użytkowników w
zakresie rygorów statystyki.
Dla kogo przeznaczona jest technologia BI?
Każda firma przekracza kiedyś próg, w którym intuicja przestaje wystarczać, aby
podejmować optymalne decyzje biznesowe. Rosnąca ilość danych w systemach operacyjnych
sprawia, że klasyczne raportowanie nie zdaje egzaminu. Pojawiają się problemy z
wydajnością oraz stopniem skomplikowania wymagań analitycznych. Niejednokrotnie
odpowiedniej informacji nie udaje się zdobyć na czas. Potrzeba właściwej informacji dla
właściwych osób we właściwym czasie jest kluczowym czynnikiem, który skłania firmy do
inwestycji w BI.
Typowa architektura rozwiązania BI
Sercem rozwiązań BI są Hurtownie Danych, czyli bazy danych zorientowane na wydajną
obsługę zaawansowanych zapytań analitycznych. Dane ładowane są do Hurtowni z
różnorodnych systemów źródłowych (jak np. ERP, czy CRM) za pomocą procesów ETL
(Extract, Transform, Load), które czyszczą i integrują dane w jeden spójny model, który
stanowi tzw. jedną wersję prawdy dla organizacji. Jest to zrozumiały biznesowo tzw. model
wielowymiarowy, który zawiera dane o wysokiej jakości (Data Quality).
Z Hurtowni dane z reguły pobierane są do silników zorientowanych na wydajne
przetwarzanie wielowymiarowych zapytań analitycznych (OLAP, On-Line Analytical
Processing), które pozwalają na szybką analizę w różnych wymiarach i na różnych poziomach
abstrakcji (np. zestawienia roczne, kwartalne, czy miesięczne).
Dostęp do danych zapewniają przyjazne użytkownikom biznesowym narzędzia raportujące i
analityczne, które prezentują informacje w postaci powiązanych ze sobą, przejrzystych i
interaktywnych raportów i analiz, np. tzw. kokpitów menadżerskich (Dashboards).
Dodatkowo istnieją aplikacje zajmujące się dostarczaniem raportów do użytkowników,
monitorowaniem stanu i zgłaszaniem sytuacji alarmowych.
Niejednokrotnie z Hurtowni Danych korzystają inne zaawansowane systemy planowania i
budżetowania, czy te przeznaczone do wdrażania Balanced Scorecard (BSC), czy Activity
Based Costing (ABC). Hurtownie Danych są również popularnym źródłem danych dla
systemów zorientowanych na odkrywanie wiedzy w danych poprzez ich eksplorację (Data
Mining). Najpopularniejsze rozwiązania klasy Business Intelligence, w postaci
zintegrowanych platform internetowych, zapewniają użytkownikom biznesowym dostęp do
raportów, analiz i usług poprzez przeglądarkę internetową w spójnym środowisku
analitycznym.
Źródła danych
Historycznie, głównymi źródłami, z których zasilano Hurtownie Danych, były transakcyjne,
operacyjne systemy działające w przedsiębiorstwach, czyli m. in. MRP/MRPII, ERP, czy
CRM. Obecnie źródłem danych dla systemów BI może być dosłownie wszystko, co w formie
elektronicznej przechowuje dane.
Są to już nie tylko standardowe systemy, ale również dane np. z sieci www na temat ruchu
wygenerowanego przez klientów w odpowiedzi na daną kampanię mailingową.
Przestały to być także jedynie wewnętrzne źródła danych i niejednokrotnie do hurtowni
trafiają dane zewnętrzne z systemów należących do partnerów (integracja B2B), czy nawet
klientów, albo dane benchmarkingowe na temat rynku.
Coraz częściej mamy też do czynienia nie tylko z danymi w pełni ustrukturalizowanymi, jak
np. te z systemów ERP, ale również z tymi częściowo ustrukturalizowanymi (semi-structured
data) jak wiadomości e-mail, czy tymi bez ścisłej struktury (unstructured data) jak dokumenty
tekstowe. Obecnie niczym nadzwyczajnym w ramach BI nie są już także dane dźwiękowe,
video, czy grafiki (np. skany dokumentów).
W ramach systemów BI pojawiają się również dane lokalizacyjne. Powiązanie analiz klasy
GIS z danymi z Hurtowni Danych w ramach spójnych środowisk analitycznych nazywane jest
Location Intelligence.
Integracja danych
Zanim dane z systemów źródłowych trafią do Hurtowni Danych, muszą zostać oczyszczone i
przetransformowane do docelowego modelu. Jest to jedna z najbardziej pracochłonnych
części projektów klasy BI/DW (Business Intelligence & Data Warehouse). Szacuje się, że
projektowanie i implementacja tzw. procesów ETL (Extract, Transform, Load) pochłania ok.
70% zasobów w projekcie.
Pierwszym etapem tworzenia warstwy integracji jest tzw. profilowanie danych, którego celem
jest lepsze poznanie nie tylko struktury, ale przede wszystkim charakterystyki danych, czyli
ich zawartości, jakości oraz budowy złożonych struktur. Na tym etapie tworzone i
analizowane są podstawowe statystyki danych, identyfikowane są m. in. dane brakujące, czy
wartości znacząco odstające od pozostałych, jak również wewnętrzne niespójności.
Przykładowymi niespójnościami może być różna reprezentacja tych samych danych, przez co
„Aleja Solidarności” może być reprezentowana również jako „Al. Solidarności”,
„Solidarności”, czy „ul. Solidarności”. Innym przykładem może być ten sam klient,
figurujący w dwóch różnych systemach pod różnymi nazwiskami (np. ze względu na zmianę
stanu cywilnego), czy ta sama data zapisana w kilku różnych formatach.
Wiedza na temat struktury i charakterystyki danych w systemach źródłowych, w połączeniu z
projektem docelowego wielowymiarowego modelu danych (wynikającego głównie z
wymagań biznesowych) pozawala na zdefiniowane właściwych procesów integracji danych,
podczas których zostaną one oczyszczone (tzw. Data Cleansing), jak również zostanie
zapewniona ich jakość (Data Quality) oraz zostaną one przetransformowane do docelowego
modelu. Za pobieranie danych z systemów źródłowych, ich transformację oraz ładowanie do
Hurtowni Danych odpowiadają procesy ETL. Odmianą procesów ETL są procesy EL-T, w
których transformacja danych następuje już po załadowaniu do Hurtowni Danych, przed ich
wykorzystaniem.
W procesie integracji danych bardzo pomocne są systemy klasy Master Data Management
(MDM). Zawierają one najważniejsze dla organizacji dane referencyjne (tzw. Master Data),
które charakteryzuje wysoka jakość i wiarygodność oraz aktualność. Pozwala to zaoszczędzić
wiele pracy związanej z czyszczeniem danych, która na potrzeby tych systemów została
wykonana już wcześniej.
Analityczne źródła danych
Jednym z najważniejszych komponentów rozwiązań klasy BI są Hurtownie Danych. Według
definicji Billa Inmona z 1990 roku, Hurtowania Danych jest:
tematycznie uporządkowanym (subject oriented),
zintegrowanym (integrated),
zależnym od wymiaru czasowego (time variant),
nieulotnym (non-vloatile)
zbiorem danych, wspierającym procesy podejmowania decyzji. Oznacza to, że Hurtownia
Danych zawiera informacje uporządkowane względem konkretnych obszarów tematycznych.
Zbierane są one z wielu różnych systemów źródłowych i łączone w spójny, wielowymiarowy
model, zorientowany na biznesowe zapytania analityczne. Wszelkie dane (tzw. fakty) w
hurtowni określone są względem wymiaru czasowego. Żadne dane (z reguły) nie są również
ani nadpisywane, ani usuwane z hurtowni.
Mini Hurtownie Danych, które są ograniczone do wybranego zakresu tematycznego (np.
departamentu marketingu) nazywane są Data Marts. W poprawnej architekturze BI Data
Marty (termin jest często spolszczany) powinny być ładowane bezpośrednio z korporacyjnej
Hurtowni Danych w celu zapewnienie tzw. jednej wersji prawdy i uniknięcia niespójnych
definicji, czy różnych danych na ten sam temat.
Jedną z głównych zalet Business Intelligence jest integracja danych do wspomnianego
wcześniej, spójnego modelu wielowymiarowego. Jest to model z jednej strony
odzwierciedlający logiczne, biznesowe struktury danych (przez co lepiej jest rozumiany przez
osoby biznesowe, nie techniczne), z drugiej zoptymalizowany pod kątem przetwarzania
skomplikowanych zapytań analitycznych. Kluczowym elementem modelu
wielowymiarowego są tzw. fakty, czyli zdarzenia charakteryzujące dany proces biznesowy.
Przykładowym faktem dla procesu sprzedaży w hipermarkecie może być zeskanowanie przy
kasie kodu kreskowego produktu. Taki fakt (z reguły będący typową transakcją w systemie
OLTP) dzieje się w pewnym kontekście biznesowym i charakteryzowany jest przez tzw.
wymiary. Wymiarami dla faktu sprzedaży mogą być np. czas, w którym dzieje się dana
sprzedaż, produkt jaki jest sprzedawany, klient kupujący produkt, lokalizacja punktu
sprzedaży, itp. Fakty są z reguły charakteryzowane ilościowo poprzez tzw. miary.
Przykładowe miary to cena katalogowa produktu, przyznany upust, czy zapłacony podatek.
Dane z modelu wielowymiarowego są niejednokrotnie ładowane do tzw. kostek OLAP (On-
Line Analytical Processing), które pozwalają na efektywną analizę danych,
przechowywanych wraz z uprzednio przeliczonymi agregatami w pamięci RAM.
W ramach dygresji i pewnej ciekawostki można dodać, że obecnie w systemach BI
analizowane są dane na coraz niższym poziomie agregacji. Dawniej BI pozwalało na analizę
danych zbiorczych. Później, wraz ze wzrostem możliwości RDBMS oraz sprzętu, w
Hurtowniach Danych pojawiały się coraz bardziej granularne dane, aż do poziomu transakcji.
Obecnie, dzięki technologiom takim jak RFID, jesteśmy w stanie analizować tzw. subtransakcje, czyli zdarzenia które doprowadziły do finalnej transakcji, jak np. zdjęcie z półki i
obejrzenie przez klienta kilku produktów, aż do wyboru tego właściwego, który został
zakupiony. Kolejnym poziomem analizy (i nie jest to wymysł akademicki, a praktyka w
niektórych działach marketingu w USA!) analizowane są tzw. light-touch data fragments,
czyli dane o zdarzeniach jeszcze przed sub-transakcjami. Przykładem mogą być tutaj dane z
sieci komórkowej, dzięki którym możemy się dowiedzieć, że dany klient mijał nasz sklep
siedmiokrotnie, zanim do niego wszedł po raz pierwszy, obejrzał kilka produktów z półki, a
następnie zakupił ten wybrany.
Na schemacie architektury BI, w ramach analitycznych źródeł danych, wymienione zostały
jeszcze dwa opcjonalne elementy architektury. Są to Data Staging Area (DSA) oraz
Operational Data Store (ODS). Tzw. staging to przeważnie kopia danych z systemów
źródłowych, utworzona w celu minimalizacji ich obciążenia podczas odczytu danych, jak
również miejsce w którym dane są czyszczone i przetwarzane na potrzeby procesów ETL.
Jest to swoista „kuchnia” Hurtowni Danych, gdzie dane są przygotowywane do prezentacji.
ODS zawiera za to dane operacyjne, częściowo już przetworzone, zintegrowane, a czasem
również częściowo zagregowane. Służy on m. in. do zbierania danych z systemów
źródłowych, podczas gdy te mają niespójne okna czasowe dostępności (np. w przypadku
korporacji globalnych), zanim trafią one do Hurtowni Danych. Innym zastosowaniem ODS
jest raportowanie operacyjne, które nie może zostać wykonane bezpośrednio na systemie
źródłowym oraz nie ma sensu wykonywanie go na Hurtowni Danych. Przykładem jest tutaj
np. generacja zestawień billingowych w telekomach. ODS oraz DSA (chociaż nie jest to
zalecane) mogą być też wykorzystywane jako źródła danych dla narzędzi do eksploracji
danych.