Jak dopasować hurtownię do zmiennych w czasie potrzeb
Transkrypt
Jak dopasować hurtownię do zmiennych w czasie potrzeb
JAK DOPASOWAĆ HURTOWNIĘ DANYCH DO ZMIENNYCH W CZASIE POTRZEB INFORMACYJNYCH FIRMY? Bożena Śmiałkowska Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Wydział Informatyki Kluczowym zadaniem systemów informacyjnych zarządzania oraz wspomagania decyzji jest dostęp we właściwym czasie do wiarogodnej, zintegrowanej i często uwarunkowanej historycznie informacji. Jedną z klas takich systemów są hurtownie (magazyny) danych (ang. Data Warehouse). Za Inmonem [1], hurtownia (magazyn) danych jest „…tematycznie zorientowaną, spójną, chronologiczną i niezmienną kolekcję danych, stanowiącą podstawę procesów podejmowania decyzji…”. Dzięki wbudowanym mechanizmom w tych systemach możliwy jest nie tylko dostęp do zintegrowanych danych z różnych obszarów, dziedzin i działów działalności firmy, ale również przetwarzanie analityczne (ang. On-line Analytical Processing - OLAP), eksploracja danych (ang. Data Mining), tzw. drążenie danych (ang. Data Drilling), odkrywanie (pozyskiwanie) wiedzy (ang. Knowledge Discovery) z danych oraz gromadzenie tej wiedzy, w formie nowych źródeł danych. Na firmę mają wpływ zmienne w czasie procesy biznesowe zachodzące w firmie i jej otoczeniu rynkowym. Mogą zmienić się jej kooperatorzy, profile zapotrzebowania związanego z funkcjonowaniem firmy. Zmienia się prawo. Także firma podlega zmianom organizacyjnym czy procesowym oraz doskonaleniu. Zmiany te mogą mieć również wpływ na strategię firmy, metody zarządzania i podejmowania decyzji. Powstają dzięki temu nowe potrzeby informacyjne w firmie, których obraz powinien być odwzorowany w hurtowni danych. Oznacza to, że hurtownia danych powinna być zasilana nowymi źródłami danych. Dodatkowo należy zauważyć, że dane zgromadzone w hurtowni danych dotyczą przeszłości (historii funkcjonowania firmy), a podejmowane decyzje wspomagane dostępem do danych zgromadzonych w hurtowni dotyczą przyszłości i teraźniejszości. Im ta przyszłość jest dalsza od teraźniejszości i przeszłości tym użyteczność danych zgromadzonych w hurtowni, w procesie podejmowania decyzji, może i zwykle jest mniejsza. Ostatecznie może się zdarzyć sytuacja, w której zgromadzone w hurtowni dane będą mało użyteczne lub bezużyteczne, choć w przeszłości były wysoce użyteczne. Oznacza to, że użyteczność danych zgromadzonych w hurtowni jest zmienna w czasie i że hurtownia powinna dane bezużyteczne agregować, archiwizować w odpowiednim czasie utraty ich użyteczności. W firmie powstają również nowe źródła danych, które mogłyby wspierać procesy podejmowania decyzji gdyby je tylko przeniesiono do hurtowni danych. Omówione przesłanki dowodzą, że hurtownia danych budowana w firmie powinna dopasowywać się do jej potrzeb informacyjnych zmiennych w czasie. Powstaje jednak pytanie, kiedy takie dopasowanie jest możliwe i jak je zrealizować. Dopasowanie hurtowni danych do zmiennych potrzeb informacyjnych na etapie jej projektowania jest możliwe tylko w ograniczonym zakresie wynikającym z jakości metod jej projektowania. W praktyce na etapie projektowania hurtowni danych wiele uwagi poświęca się etapowi modelowania struktur logicznych danych i metod przenoszenia danych (zasilania) hurtowni. Uznaje się ten etap za najbardziej zasadniczy, gdy tymczasem powinny one ulegać zmianie w czasie. Gdy ma to miejsce, to po etapie wstępnego (kolejnego) projektu faktów i wymiarów hurtowni zwykle następuje powrót do etapów analizy przypadków użycia lub analizy metod planowania strategii firmy. Taka iteracja w tworzeniu hurtowni danych jest konieczna. Z analizy istniejących metod projektowania hurtowni wynika, że jedynie aktywna metoda projektowania [4] hurtowni ukierunkowana jest na iteracyjne dopasowanie hurtowni do zmiennych potrzeb informacyjnych firmy. Wadą tej metody jest jednak brak możliwości zautomatyzowania oceny chwil i zakresu zmian, w których takie dopasowanie hurtowni do potrzeb firmy należy zrealizować. Z definicji hurtowni danych wynika, że jej zadaniem jest wspomaganie decyzji również tych związanych z biznes planem – strategią firmy. By wspomagać te procesy należy w hurtowni przechowywać dane niezbędne do oceny strategii firmy. Jeśli budując hurtownię danych nie uwzględnimy tych danych, to hurtownia nie spełni postawionych przed nią zadań. Ta uwaga powinna być podstawą projektowania hurtowni danych nawet w przypadku najlepszych metod projektowania jej struktury. Etapem dopasowania hurtowni danych do zmiennych potrzeb informacyjnych firmy powinien być również etap jej eksploatacji, w którym to głównie powstają nowe nieprzewidywalne w okresie projektowania hurtowni, potrzeby informacyjne firmy. Są tu możliwe następujące kierunki działań: bieżący pomiar jakości zgromadzonych w hurtowni danych, wdrożenie hurtowni danych z wielowersyjnym modelem danych, bieżący pomiar możliwości i potrzeb firmy w jej biznesowym otoczeniu, a na tej podstawie ocena dopasowania firmy do jej otoczenia oraz dopasowania hurtowni do firmy. Jedną z koncepcji pomiaru jakości danych zgromadzonych w hurtowni jest koncepcja DWQ (ang. Data Warehouse Quality). Zaprezentowano ją w literaturze [2]. Jej podstawą są bieżące pomiary i kontrola wskaźników jakości danych, definiowanych w hurtowni. W zależności od potrzeb, takimi wskaźnikami mogą być np. użyteczność, spójność, niezawodność czy świeżość danych. Gdy jakość danych wg zdefiniowanych kryteriów jest niewystarczająca, należy w hurtowni danych zmodyfikować model danych i metody jej zasilania. Zwykle niezbędna jest w tym celu modyfikacja metod obsługi hurtowni danych, zależnie od wprowadzanych zmian. Zaprezentowana ogólna koncepcja pomiaru jakości danych jest jednak jeszcze mało sformalizowana i stosowana praktycznie. Dodatkowo wymaga użytkowania hurtowni z różnymi schematami logicznymi danych przechowywanych w różnych okresach eksploatacji hurtowni i nie stanowi całościowego rozwiązania problemu dopasowania hurtowni do zmiennych potrzeb informacyjnych firmy. Zmianę organizacji danych w hurtowni umożliwia wdrożenie tzw. wielowersyjnej hurtowni danych [3][6]. Wówczas hurtownia przechowuje wiele wersji struktur danych i umożliwia jednoczesną realizację funkcji hurtowni na tych wersjach. Wielowersyjność hurtowni danych ułatwia również wprowadzanie do niej nowych źródeł danych, gdy tylko zaistnieje taka potrzeba. Wersje w hurtowni wielowersyjnej mogą być wersjami alternatywnymi lub wersjami rzeczywistymi. Rzeczywiste wersje hurtowni danych reprezentują kolejne, w sensie następstwa czasowego, struktury danych, adekwatne do odpowiednich chwil na osi czasu zaś wersje alternatywne mogą być tworzone dla potrzeb analizy wariantowej (przewidywanie trendów, symulacja wirtualnych scenariuszy). Dodatkowo wersje alternatywne mogą być w hurtowni wersjami zmaterializowanymi lub wirtualnymi. Zwykle wersje wirtualne umożliwiają w takich hurtowniach tworzenie scenariuszy biznesowych. Scenariusze biznesowe są formą wspomagania procesów decyzyjnych. Główną zaletą wielowersyjnych rozwiązań jest ich funkcjonalność i zgodność z rzeczywistym modelem upływem czasu. Wielowersyjne hurtownie danych dają jej użytkownikom możliwość pracy z wieloma wersjami modelu danych jednocześnie. Należy jednak zauważyć, że pomimo tej zalety, wiarogodność symulacji za pomocą alternatywnych wersji hurtowni danych nie zawsze jest wysoka i że nie zawsze wytworzone w oparciu o wielowersyjne hurtownie danych scenariusze biznesowe będą zgodne z przyszłą rzeczywistością. Wynika to z tego, że podejmowanie decyzji, zarządzanie dotyczy przyszłości, a hurtownia danych pozwala analizować przeszłość. Im ta przeszłość jest bardziej odległa od teraźniejszości, tym mniej użyteczne mogą być dane przechowywane w „starej” hurtowni, tym mniej można się na nich opierać. Dane zgromadzone w odległej przeszłości mogą być nawet bezwartościowe dla przyszłych decyzje i zarządzanie firmą, mogą stanowić szum informacyjny. Powstają tu dodatkowo problemy z określeniem czasu, w którym dana zgromadzone w hurtowni przestają być użyteczne w procesie podejmowania decyzji, na ile są ona ważne (użyteczne), jak długo będą użyteczne? Tych zagadnień nie rozwiązują wielowersyjne hurtownie danych. Są one ukierunkowane na obsługę wersji, a nie na pomiar i ocenę użyteczności przechowywanych w hurtowni wersji danych. Należy jednak zauważyć, że wielowersyjność hurtowni danych jest warunkiem koniecznym, ale niewystarczającym (dostatecznym) z punktu widzenia nie tylko zmienności w czasie strategii firmy, źródeł zasilania hurtowni, funkcjonowania firmy czy zmian w relacjach firmy z jej biznesowym otoczeniem. Jednym ze sposobów sformułowania takich warunków jest metoda oparta na inżynierii systemów działania, która dostarcza narzędzi oceny dopasowania systemów działania w tzw. bliskim ich otoczeniu, w dowolnym okresie czasu. Wówczas podstawą identyfikacji dopasowania hurtowni danych do zmiennych w czasie potrzeb informacyjnych przedsiębiorstwa na etapie eksploatacji hurtowni może być bieżący pomiar wskaźników dopasowania hurtowni do firmy. Dodatkowo bieżący pomiar dopasowania firmy do jej biznesowego otoczenia może być podstawą oceny stopnia realizacji strategii firmy. Jeśli w jakiejś chwili eksploatacji hurtowni wskaźniki takiego dopasowania (hurtowni do firmy i firmy do jej otoczenia) są nieodpowiednie, to powinna nastąpić zmiana modelu danych w hurtowni. Dokładniej metodę tę zaprezentowano w literaturze [5]. Dodatkowym sposobem na lepsze dopasowanie hurtowni danych do zmiennych potrzeb informacyjnych firmy jest również dobór sposobu komunikacji użytkownika z systemem hurtowni danych. Ten kierunek działań jest wsparty badaniami realizowanymi w obszarze prac nad tzw. językami zapytań, głównie w odniesieniu do baz danych i nie wynika z istoty systemu hurtowni danych. Reasumując, należy zauważyć, że dopasowanie hurtowni danych do zmiennych potrzeb informacyjnych firmy to proces złożony i permanentny w czasie. Powinien on być realizowany nie tylko podczas projektowania i wdrażania hurtowni danych, ale również w okresie jej eksploatacji, poprzez bieżącą ocenę stopnia dopasowania hurtowni do firmy i firmy do otoczenia oraz ocenę jakości danych zgromadzonych w hurtowni danych. Dane pomiarowe i oceny powinny być na bieżąco gromadzone w dodatkowej warstwie metadanych hurtowni. Dostęp administracyjny do tej warstwy pozwoli na dopasowywanie hurtowni do potrzeb zmiennych potrzeb firmy w kolejnych okresach osi czasu. Jednakże, ze względu na zmienność struktur danych przechowywanych w hurtowni niezbędnym sposobem implementacji hurtowni jest wielowersyjne środowisko i system zarządzania taką hurtownią danych z dodatkową warstwą metadanych. Literatura: [1] Inmon, W. H.: Building the Data Warehouse, Second Edition, Wiley & Sons, New York, 1996 [2] Jarke M., Lenzerini M., Vassiliou Y., Vassiliadis P.: Hurtownie danych. Podstawy organizacji i funkcjonowania. Wydawnictwo szkolne i pedagogiczne, Warszawa, 2003 [3] Morzy T., Wrembel R.: Modeling a Multiversion Data Warehouse: A Formal Approach. Konferencja ICEIS, 2003 [4] Śmiałkowska B.: Metoda projektowania hurtowni danych dla potrzeb adaptacyjnego wspomagania zarządzania strategią firmy. Wydawnictwo Katedry Informatyki w Zarządzaniu, Akademii Rolniczo-Technicznej, Bydgoszcz, 2003 [5] Śmiałkowska B.: Metoda dopasowania hurtowni danych do zmiennych potrzeb informacyjnych przedsiębiorstwa. Wydawnictwo uczelniane Zachodniopomorskiego Uniwersytetu Technologicznego w Szczecinie, Szczecin 2009, s.89÷93. [6] Wrembel R.: Management of schema and data evaluation in multiversion data warehouse. Wydawnictwo Politechniki Poznańskiej, Seria: Rozprawy, Nr 411, Poznań, 2007.