Historia BI Systemy, obecnie nazywane Business Intelligence
Transkrypt
Historia BI Systemy, obecnie nazywane Business Intelligence
Historia BI Systemy, obecnie nazywane Business Intelligence, wyewoluowały z rozwiązań klasy DSS, EIS, czy MIS. Pojęcia te są ze sobą mocno związane i trudno zaznaczyć jasne granice pomiędzy nimi. Najstarszym z pojęć jest DSS, czyli Decision Support Systems (Systemy Wspomagania Decyzji, SWD). Pojęcie to ma swoje początki w badaniach z przełomu lat 50tych i 60-tych ubiegłego stulecia, zostało zdefiniowane na początku lat 70-tych, a największą popularność zdobyło w latach 80-tych. Jak sama nazwa wskazuje, odnosi się ono systemów informatycznych wspierających podejmowanie decyzji. Na przestrzeni czasu DSS przyjęło nazywać się systemy, które pozwalały wykorzystywać dane, informacje i wiedzę do rozwiązywania słabo ustrukturalizowanych problemów decyzyjnych. Efektem wykorzystania DSS poprzez wysoko wyspecjalizowanych analityków były parametryzowane analizy i raporty, które udostępniano wyższej kadrze kierowniczej, czy członkom zarządów poprzez tzw. systemy informowania kierownictwa EIS (Executive Information Systems), które największą popularność osiągnęły zaczynając od połowy do końca lat 80-tych. Mianem MIS, czyli Management Information Systems, przyjęło się nazywać szeroką grupę systemów, z DSS i EIS włącznie, które służą do wsparcia zarządzania poprzez analizę danych. Lata 90-te to początki kompleksowych rozwiązań analitycznych, opartych o Hurtownie Danych i zintegrowane modele korporacyjne, przetwarzanie analityczne w czasie rzeczywistym (OLAP) wraz z aplikacjami służącymi do dostępu do tych danych i ich analizy, zwane Business Intelligence. Sam termin Business Intelligence (w rozumieniu zgodnym z dzisiejszym) został po raz pierwszy użyty przez Howarda Dresnera, późniejszego analityka Gartnera, w roku 1989, jednak do powszechnego użytku wszedł on dopiero pod koniec lat 90tych. Business Intelligence (analityka biznesowa) jest pojęciem bardzo szerokim. Najbardziej ogólnie można przedstawić je jako proces przekształcania danych w informacje, a informacji w wiedzę, która może być wykorzystana do zwiększenia konkurencyjności przedsiębiorstwa. Efektywne eksploatowanie narzędzi BI jest mocno uzależnione od utworzenia hurtowni danych, które pozwala na ujednolicenie i powiązanie danych zgromadzonych z różnorodnych systemów informatycznych przedsiębiorstwa. Utworzenie hurtowni danych zwalnia systemy transakcyjne od tworzenia raportów i umożliwia równoczesne korzystanie z różnych systemów BI. Koncepcja jest następująca: system BI generuje standardowe raporty lub wylicza kluczowe wskaźniki efektywności działania przedsiębiorstwa (Key Performance Indicators - KPI) na podstawie których stawia się hipotezy, po czym weryfikuje się je poprzez wykonywanie szczegółowych "przekrojów" danych. Do tego służą różnego rodzaju narzędzia analityczne (np. OLAP, data mining). Jedna z definicji mówi, że BI to zbiór praktyk, metodyk, narzędzi i technologii informatycznych, służących zbieraniu i integrowaniu danych w celu dostarczania informacji i wiedzy właściwym osobom, we właściwym miejscu oraz we właściwym czasie. Business Intelligence może być postrzegane, jako przekształcanie danych w informacje, a informacji w wiedzę w celu optymalizacji działania procesów biznesowych i całej organizacji. Dość dobrze sens BI oddaje jeden z popularnych sloganów marketingowych, mówiących że BI to „dostarczanie właściwej informacji, właściwym osobom we właściwym czasie” Nie można również, a często tak się dzieje, utożsamiać BI jedynie z narzędziami informatycznymi. BI to przede wszystkim kultura organizacyjna nastawiona na świadome podejmowanie decyzji na podstawie faktów. BI stanowi narzędzie menedżerów i specjalistów zajmujących się analizami i strategią. Techniki prezentacyjne dobierane są odpowiednio do potrzeb użytkownika. Aby uniknąć konieczności przeglądania gąszczu liczb, wizualizacja stanu aktualnego realizowana jest w postaci obrazkowej. Najczęściej spotykane odmiany systemów zaliczanych do BI to: systemy informowania kierownictwa (Executive Information Systems (EIS)) systemy wspomagania decyzji (Decision Support Systems (DSS)) systemy informacyjne zarządzania (Management Information Systems (MIS)) systemy informacji geograficznej (Geographic Information Systems (GIS)) Niebezpieczeństwa stosowania BI: Oczekiwanie od systemu BI prostych, jednoznacznych odpowiedzi, a nawet wskazania "jedynie słusznego rozwiązania" – jest to praktycznie niemożliwe do zrealizowania. Tendencyjna prezentacja danych, niezamierzona – wynika z ignorancji użytkowników w zakresie rygorów statystyki. Dla kogo przeznaczona jest technologia BI? Każda firma przekracza kiedyś próg, w którym intuicja przestaje wystarczać, aby podejmować optymalne decyzje biznesowe. Rosnąca ilość danych w systemach operacyjnych sprawia, że klasyczne raportowanie nie zdaje egzaminu. Pojawiają się problemy z wydajnością oraz stopniem skomplikowania wymagań analitycznych. Niejednokrotnie odpowiedniej informacji nie udaje się zdobyć na czas. Potrzeba właściwej informacji dla właściwych osób we właściwym czasie jest kluczowym czynnikiem, który skłania firmy do inwestycji w BI. Typowa architektura rozwiązania BI Sercem rozwiązań BI są Hurtownie Danych, czyli bazy danych zorientowane na wydajną obsługę zaawansowanych zapytań analitycznych. Dane ładowane są do Hurtowni z różnorodnych systemów źródłowych (jak np. ERP, czy CRM) za pomocą procesów ETL (Extract, Transform, Load), które czyszczą i integrują dane w jeden spójny model, który stanowi tzw. jedną wersję prawdy dla organizacji. Jest to zrozumiały biznesowo tzw. model wielowymiarowy, który zawiera dane o wysokiej jakości (Data Quality). Z Hurtowni dane z reguły pobierane są do silników zorientowanych na wydajne przetwarzanie wielowymiarowych zapytań analitycznych (OLAP, On-Line Analytical Processing), które pozwalają na szybką analizę w różnych wymiarach i na różnych poziomach abstrakcji (np. zestawienia roczne, kwartalne, czy miesięczne). Dostęp do danych zapewniają przyjazne użytkownikom biznesowym narzędzia raportujące i analityczne, które prezentują informacje w postaci powiązanych ze sobą, przejrzystych i interaktywnych raportów i analiz, np. tzw. kokpitów menadżerskich (Dashboards). Dodatkowo istnieją aplikacje zajmujące się dostarczaniem raportów do użytkowników, monitorowaniem stanu i zgłaszaniem sytuacji alarmowych. Niejednokrotnie z Hurtowni Danych korzystają inne zaawansowane systemy planowania i budżetowania, czy te przeznaczone do wdrażania Balanced Scorecard (BSC), czy Activity Based Costing (ABC). Hurtownie Danych są również popularnym źródłem danych dla systemów zorientowanych na odkrywanie wiedzy w danych poprzez ich eksplorację (Data Mining). Najpopularniejsze rozwiązania klasy Business Intelligence, w postaci zintegrowanych platform internetowych, zapewniają użytkownikom biznesowym dostęp do raportów, analiz i usług poprzez przeglądarkę internetową w spójnym środowisku analitycznym. Źródła danych Historycznie, głównymi źródłami, z których zasilano Hurtownie Danych, były transakcyjne, operacyjne systemy działające w przedsiębiorstwach, czyli m. in. MRP/MRPII, ERP, czy CRM. Obecnie źródłem danych dla systemów BI może być dosłownie wszystko, co w formie elektronicznej przechowuje dane. Są to już nie tylko standardowe systemy, ale również dane np. z sieci www na temat ruchu wygenerowanego przez klientów w odpowiedzi na daną kampanię mailingową. Przestały to być także jedynie wewnętrzne źródła danych i niejednokrotnie do hurtowni trafiają dane zewnętrzne z systemów należących do partnerów (integracja B2B), czy nawet klientów, albo dane benchmarkingowe na temat rynku. Coraz częściej mamy też do czynienia nie tylko z danymi w pełni ustrukturalizowanymi, jak np. te z systemów ERP, ale również z tymi częściowo ustrukturalizowanymi (semi-structured data) jak wiadomości e-mail, czy tymi bez ścisłej struktury (unstructured data) jak dokumenty tekstowe. Obecnie niczym nadzwyczajnym w ramach BI nie są już także dane dźwiękowe, video, czy grafiki (np. skany dokumentów). W ramach systemów BI pojawiają się również dane lokalizacyjne. Powiązanie analiz klasy GIS z danymi z Hurtowni Danych w ramach spójnych środowisk analitycznych nazywane jest Location Intelligence. Integracja danych Zanim dane z systemów źródłowych trafią do Hurtowni Danych, muszą zostać oczyszczone i przetransformowane do docelowego modelu. Jest to jedna z najbardziej pracochłonnych części projektów klasy BI/DW (Business Intelligence & Data Warehouse). Szacuje się, że projektowanie i implementacja tzw. procesów ETL (Extract, Transform, Load) pochłania ok. 70% zasobów w projekcie. Pierwszym etapem tworzenia warstwy integracji jest tzw. profilowanie danych, którego celem jest lepsze poznanie nie tylko struktury, ale przede wszystkim charakterystyki danych, czyli ich zawartości, jakości oraz budowy złożonych struktur. Na tym etapie tworzone i analizowane są podstawowe statystyki danych, identyfikowane są m. in. dane brakujące, czy wartości znacząco odstające od pozostałych, jak również wewnętrzne niespójności. Przykładowymi niespójnościami może być różna reprezentacja tych samych danych, przez co „Aleja Solidarności” może być reprezentowana również jako „Al. Solidarności”, „Solidarności”, czy „ul. Solidarności”. Innym przykładem może być ten sam klient, figurujący w dwóch różnych systemach pod różnymi nazwiskami (np. ze względu na zmianę stanu cywilnego), czy ta sama data zapisana w kilku różnych formatach. Wiedza na temat struktury i charakterystyki danych w systemach źródłowych, w połączeniu z projektem docelowego wielowymiarowego modelu danych (wynikającego głównie z wymagań biznesowych) pozawala na zdefiniowane właściwych procesów integracji danych, podczas których zostaną one oczyszczone (tzw. Data Cleansing), jak również zostanie zapewniona ich jakość (Data Quality) oraz zostaną one przetransformowane do docelowego modelu. Za pobieranie danych z systemów źródłowych, ich transformację oraz ładowanie do Hurtowni Danych odpowiadają procesy ETL. Odmianą procesów ETL są procesy EL-T, w których transformacja danych następuje już po załadowaniu do Hurtowni Danych, przed ich wykorzystaniem. W procesie integracji danych bardzo pomocne są systemy klasy Master Data Management (MDM). Zawierają one najważniejsze dla organizacji dane referencyjne (tzw. Master Data), które charakteryzuje wysoka jakość i wiarygodność oraz aktualność. Pozwala to zaoszczędzić wiele pracy związanej z czyszczeniem danych, która na potrzeby tych systemów została wykonana już wcześniej. Analityczne źródła danych Jednym z najważniejszych komponentów rozwiązań klasy BI są Hurtownie Danych. Według definicji Billa Inmona z 1990 roku, Hurtowania Danych jest: tematycznie uporządkowanym (subject oriented), zintegrowanym (integrated), zależnym od wymiaru czasowego (time variant), nieulotnym (non-vloatile) zbiorem danych, wspierającym procesy podejmowania decyzji. Oznacza to, że Hurtownia Danych zawiera informacje uporządkowane względem konkretnych obszarów tematycznych. Zbierane są one z wielu różnych systemów źródłowych i łączone w spójny, wielowymiarowy model, zorientowany na biznesowe zapytania analityczne. Wszelkie dane (tzw. fakty) w hurtowni określone są względem wymiaru czasowego. Żadne dane (z reguły) nie są również ani nadpisywane, ani usuwane z hurtowni. Mini Hurtownie Danych, które są ograniczone do wybranego zakresu tematycznego (np. departamentu marketingu) nazywane są Data Marts. W poprawnej architekturze BI Data Marty (termin jest często spolszczany) powinny być ładowane bezpośrednio z korporacyjnej Hurtowni Danych w celu zapewnienie tzw. jednej wersji prawdy i uniknięcia niespójnych definicji, czy różnych danych na ten sam temat. Jedną z głównych zalet Business Intelligence jest integracja danych do wspomnianego wcześniej, spójnego modelu wielowymiarowego. Jest to model z jednej strony odzwierciedlający logiczne, biznesowe struktury danych (przez co lepiej jest rozumiany przez osoby biznesowe, nie techniczne), z drugiej zoptymalizowany pod kątem przetwarzania skomplikowanych zapytań analitycznych. Kluczowym elementem modelu wielowymiarowego są tzw. fakty, czyli zdarzenia charakteryzujące dany proces biznesowy. Przykładowym faktem dla procesu sprzedaży w hipermarkecie może być zeskanowanie przy kasie kodu kreskowego produktu. Taki fakt (z reguły będący typową transakcją w systemie OLTP) dzieje się w pewnym kontekście biznesowym i charakteryzowany jest przez tzw. wymiary. Wymiarami dla faktu sprzedaży mogą być np. czas, w którym dzieje się dana sprzedaż, produkt jaki jest sprzedawany, klient kupujący produkt, lokalizacja punktu sprzedaży, itp. Fakty są z reguły charakteryzowane ilościowo poprzez tzw. miary. Przykładowe miary to cena katalogowa produktu, przyznany upust, czy zapłacony podatek. Dane z modelu wielowymiarowego są niejednokrotnie ładowane do tzw. kostek OLAP (On- Line Analytical Processing), które pozwalają na efektywną analizę danych, przechowywanych wraz z uprzednio przeliczonymi agregatami w pamięci RAM. W ramach dygresji i pewnej ciekawostki można dodać, że obecnie w systemach BI analizowane są dane na coraz niższym poziomie agregacji. Dawniej BI pozwalało na analizę danych zbiorczych. Później, wraz ze wzrostem możliwości RDBMS oraz sprzętu, w Hurtowniach Danych pojawiały się coraz bardziej granularne dane, aż do poziomu transakcji. Obecnie, dzięki technologiom takim jak RFID, jesteśmy w stanie analizować tzw. subtransakcje, czyli zdarzenia które doprowadziły do finalnej transakcji, jak np. zdjęcie z półki i obejrzenie przez klienta kilku produktów, aż do wyboru tego właściwego, który został zakupiony. Kolejnym poziomem analizy (i nie jest to wymysł akademicki, a praktyka w niektórych działach marketingu w USA!) analizowane są tzw. light-touch data fragments, czyli dane o zdarzeniach jeszcze przed sub-transakcjami. Przykładem mogą być tutaj dane z sieci komórkowej, dzięki którym możemy się dowiedzieć, że dany klient mijał nasz sklep siedmiokrotnie, zanim do niego wszedł po raz pierwszy, obejrzał kilka produktów z półki, a następnie zakupił ten wybrany. Na schemacie architektury BI, w ramach analitycznych źródeł danych, wymienione zostały jeszcze dwa opcjonalne elementy architektury. Są to Data Staging Area (DSA) oraz Operational Data Store (ODS). Tzw. staging to przeważnie kopia danych z systemów źródłowych, utworzona w celu minimalizacji ich obciążenia podczas odczytu danych, jak również miejsce w którym dane są czyszczone i przetwarzane na potrzeby procesów ETL. Jest to swoista „kuchnia” Hurtowni Danych, gdzie dane są przygotowywane do prezentacji. ODS zawiera za to dane operacyjne, częściowo już przetworzone, zintegrowane, a czasem również częściowo zagregowane. Służy on m. in. do zbierania danych z systemów źródłowych, podczas gdy te mają niespójne okna czasowe dostępności (np. w przypadku korporacji globalnych), zanim trafią one do Hurtowni Danych. Innym zastosowaniem ODS jest raportowanie operacyjne, które nie może zostać wykonane bezpośrednio na systemie źródłowym oraz nie ma sensu wykonywanie go na Hurtowni Danych. Przykładem jest tutaj np. generacja zestawień billingowych w telekomach. ODS oraz DSA (chociaż nie jest to zalecane) mogą być też wykorzystywane jako źródła danych dla narzędzi do eksploracji danych.