Big Data
Transkrypt
Big Data
Big Data w przetwarzaniu i analizie danych Wybrane doświadczenia projektowe Wst˛ep Big Data w procesie ETL Big Data to rozproszony ekosystem przetwarzania danych. Technologie Big Data znajduja˛ zastosowanie w składowaniu danych (jako repozytorium danych), przetwarzaniu dużych zbiorów danych, analizie danych (ang. machine learning) oraz przetwarzaniu strumieniowemu w czasie rzeczywistym. W zakresie składowania danych, klaster Big Data sprawdza si˛e jako alternatywa dla relacyjnej bazy danych. Dojrzałe komponenty Big Data, jak HBase, Hive czy Spark pozwalaja˛ na przetwarzanie i składowanie dużych zbiorów danych, zapewniajac ˛ jednocześnie wysoki poziom wydajności pracy z danymi. Jeśli proces ładowania danych opiera si˛e plikach, logach, itp, zaś logika przetwarzania danych umożliwia dekompozycje procesu, to w procesie ETL możliwe jest zastosowanie technologii Big Data. Podejście to zostało zastosowane w poniższym projekcie: Big Data jako repozytorium danych Hurtownia danych dla operatora telekomunikacyjnego: Celem projektu była budowa ekosystemu, pozwalajacego ˛ na efektywne, biznesowe wykorzystanie posiadanych informacji o klientach. W szczególności, da˛żono do uzyskania zdolności do eksperymentowania: szybkiej weryfikacji potencjału biznesowego w różnych projektach i modelach biznesowych. Osiagni˛ ˛ eto nast˛epujace ˛ rezultaty: • Repozytorium danych, w innowacyjnej architekturze Data Lake W architekturze hurtowni danych możliwe (i coraz bardziej powszechne) jest zastosowanie infrastruktury Big Data jako elementu hurtowni danych. Przykładowo, system oparty o Hive z powodzeniem realizować może zadania zwiazane ˛ ze składowaniem danych, zarówno w warstwie stage, danych detalicznych czy agregatów. Zwłaszcza to ostatnie zastosowanie stało si˛e łatwiejsze po wprowadzeniu Hive w wersji 2.0, która jest wydajniejsza w realizacji zapytań analitycznych (agregatów). Wcześniejsze wersje platformy, nie dawały takich możliwości, co wymuszało wykorzystanie innych technologi do składowania danych analitycznych (przykładowo, do tego celu sprawdzaja˛ si˛e kolumnowe bazy danych, jak HBase lub Cassandra). Migracja repozytorium danych z Oracle do Hive/HBase Celem projektu było obniżenie kosztów składowania danych o ruchu sieciowym klientów (IP) operatora telekomunikacyjnego. Osiagni˛ ˛ eto nast˛epujace ˛ rezultaty: • Opracowano repozytorium danych w technologii Big Data, pozwalajace ˛ na składowanie danych o ruchu IP • Dzi˛eki zastosowaniu architektury wielowarstwowej, zrealizowana migracja nie wywarła wpływa na funkcjonowanie innych systemów informatycznych • Migracja z komercyjnej bazy danych na opracowana˛ platform˛e Big Data pozwoliła na osiag˛ ni˛ecie istotnej i mierzalnej korzyści finansowej Zastosowane technologie: HDFS, Hive, HBase, Pig, Kibana • Standardy analizy danych oraz procesy organizacyjne, zwiazane ˛ z prowadzeniem eksperymentów w oparciu o dane • Proces ETL, zwiazany ˛ z ładowaniem danych o połaczeniach ˛ telefonicznych(CDR) został w całości oparty na infrastrukturze Big Data Zastosowane technologie: HDFS, Hive, Pig, Oozie, Zookeeper Big Data w analizie strumienia danych Przetwarzanie strumieniowe, połaczone ˛ z zastosowaniem technik statystycznej analizy danych, pozwala na realizacj˛e scenariuszy biznesowych typu real time. W scenariuszu tym czas od momentu identyfikacji potrzeby klienta(opisanej zdarzeniami wykrytymi w strumieniu) do momentu spełnienia potrzeby klienta, mierzony jest w kliku minutach, a nawet sekundach. W zakresie przetwarzania danych w czasie rzeczywistym, konsultanci Sorigo realizowali nast˛epujace ˛ projekty komercyjne i badawczo-rozwojowe: • Przetwarzanie danych lokalizacyjnych klientów operatora telekomunikacyjnego: identyfikacja lokalizacji, przypisywanie atrybutów do lokalizacji(dom, praca, szkoła, sport, itp.). Dodatkowo, zbudowany został model predykcyjny, pozwalajacy ˛ na oszacowanie prawdopodobieństwa położenia klienta za ok 20 min. • Identyfikacja nadużyć(anomalii) w połaczeniach ˛ telefonicznych. Strumień wykonywanych(wychodzacych) ˛ połacze ˛ ń telefonicznych był monitorowany za pomoca˛ listy numerów telefonów, podejrzanych o dokonywanie wyłudzeń. W momencie wykonania połaczenia ˛ telefonicznego na nr telefonu, pochodzacy ˛ z blacklist, generowany był alarm. Big Data – monetyzacja danych Monetyzacja danych to forma generowania przychodów z dost˛epnych w organizacji danych. Monteyzacja danych może mieć charakter wewn˛etrzny(ang. internal monetization) lub zewn˛etrzny(ang. external monetization). Monetyzacja wewn˛etrzna obejmuje działania prowadzace ˛ do wykorzystania potencjału posiadanych danych, poprzez lepsze dopasowanie oferty dla klientów, czy trafniejsze przewidywanie ich zachowań. Monetyzacja zewn˛etrzna dotyczy współpracy pomi˛edzy przedsi˛ebiorstwami w celu uzyskania efektu synergii z posiadanych danych. Przykładowo, może ona obejmować świadczenie usług podmiotom trzecim w oparciu o uzyskane dane. Rys. 2: Anomalie w strumieniu danych • Analiza wpisów serwisu Tweeter w czasie rzeczywistym pod katem ˛ segmentowania wysyłanej treści. W oparciu o generowana˛ treść, użytkownicy serwisu poddawani byli segmentacji. Zastosowane technologie: Spark, Kafka, Redis, Cassandra, Flink, SparkML, R, Samoa Technologie Konsultanci Sorigo maja˛ doświadczenie z wieloma technologiami Big Data, poniższy diagram zawiera zestawienie naszych kompetencji. • • • • Hive HBase Redis Cassandra Rys. 1: Wizualizacja danych w czasie rzeczywistym Liczne projekty zwiazane ˛ z monetyzacja˛ danych w telekomunikacji Celem projektu było opracowanie i zweryfikowanie modelu biznesowego, pozwalajacego ˛ na czerpanie korzyści z danych. Ponieważ każda potrzeba informacyjna jest inna, chodziło o wypracowanie standardów technologicznych i biznesowych pracy z różnymi klasami danych(batch i real time). Osiagni˛ ˛ eto nast˛epujace ˛ rezultaty: • • • • • Opracowano platform˛e pozwalajac ˛ a˛ na nasłuch protokołów telekomunikacyjnych i analizowanie ich zawartości. Platforma powstała w oparciu o innowacyjna˛ architektur˛e lambda. Zookeper Ambari Ranger Knox Database platforms Machine learning Governance Real time data analysis • • • • SparkML R FlinkML SparkR • • • • Storm Spark Filnk Kafka • Opracowano reguły biznesowe, pozwalajace ˛ na identyfikacj˛e określonych zdarzeń • Projekt umożliwił opracowanie nowych modeli współpracy z partnerami w zakresie monetyzacji danych Zastosowane technologie: Spark, Kafka, Redis, Storm, Flink, Hive, R, Knox, Ranger, Kibana Rys. 3: Kompetencje konsultantów Sorigo w domenie big data Ponadto, mamy doświadczenie w projektowaniu architektury Big Data, przystosowanej do realizacji konkretnych potrzeb. Mamy praktyczne doświadczenia w realizacji projektów doradczych, zwiazanych ˛ z architektura˛ lambda oraz Data Lake. Copyright © 2017 Sorigo. All rights reserved.