Big Data

Transkrypt

Big Data
Big Data w przetwarzaniu i analizie danych
Wybrane doświadczenia projektowe
Wst˛ep
Big Data w procesie ETL
Big Data to rozproszony ekosystem przetwarzania danych. Technologie Big Data znajduja˛ zastosowanie w składowaniu danych (jako repozytorium danych), przetwarzaniu dużych zbiorów
danych, analizie danych (ang. machine learning) oraz przetwarzaniu strumieniowemu w czasie
rzeczywistym.
W zakresie składowania danych, klaster Big Data sprawdza si˛e jako alternatywa dla relacyjnej bazy danych. Dojrzałe komponenty Big Data, jak HBase, Hive czy Spark pozwalaja˛ na
przetwarzanie i składowanie dużych zbiorów danych, zapewniajac
˛ jednocześnie wysoki poziom
wydajności pracy z danymi.
Jeśli proces ładowania danych opiera si˛e plikach, logach, itp, zaś logika przetwarzania danych
umożliwia dekompozycje procesu, to w procesie ETL możliwe jest zastosowanie technologii Big
Data. Podejście to zostało zastosowane w poniższym projekcie:
Big Data jako repozytorium danych
Hurtownia danych dla operatora telekomunikacyjnego:
Celem projektu była budowa ekosystemu, pozwalajacego
˛
na efektywne, biznesowe wykorzystanie posiadanych informacji o klientach. W szczególności, da˛żono do uzyskania zdolności do
eksperymentowania: szybkiej weryfikacji potencjału biznesowego w różnych projektach i modelach biznesowych.
Osiagni˛
˛ eto nast˛epujace
˛ rezultaty:
• Repozytorium danych, w innowacyjnej architekturze Data Lake
W architekturze hurtowni danych możliwe (i coraz bardziej powszechne) jest zastosowanie infrastruktury Big Data jako elementu hurtowni danych. Przykładowo, system oparty o Hive z
powodzeniem realizować może zadania zwiazane
˛
ze składowaniem danych, zarówno w warstwie
stage, danych detalicznych czy agregatów. Zwłaszcza to ostatnie zastosowanie stało si˛e łatwiejsze
po wprowadzeniu Hive w wersji 2.0, która jest wydajniejsza w realizacji zapytań analitycznych
(agregatów). Wcześniejsze wersje platformy, nie dawały takich możliwości, co wymuszało wykorzystanie innych technologi do składowania danych analitycznych (przykładowo, do tego celu
sprawdzaja˛ si˛e kolumnowe bazy danych, jak HBase lub Cassandra).
Migracja repozytorium danych z Oracle do Hive/HBase Celem projektu było obniżenie
kosztów składowania danych o ruchu sieciowym klientów (IP) operatora telekomunikacyjnego.
Osiagni˛
˛ eto nast˛epujace
˛ rezultaty:
• Opracowano repozytorium danych w technologii Big Data, pozwalajace
˛ na składowanie
danych o ruchu IP
• Dzi˛eki zastosowaniu architektury wielowarstwowej, zrealizowana migracja nie wywarła
wpływa na funkcjonowanie innych systemów informatycznych
• Migracja z komercyjnej bazy danych na opracowana˛ platform˛e Big Data pozwoliła na osiag˛
ni˛ecie istotnej i mierzalnej korzyści finansowej
Zastosowane technologie: HDFS, Hive, HBase, Pig, Kibana
• Standardy analizy danych oraz procesy organizacyjne, zwiazane
˛
z prowadzeniem eksperymentów w oparciu o dane
• Proces ETL, zwiazany
˛
z ładowaniem danych o połaczeniach
˛
telefonicznych(CDR) został w
całości oparty na infrastrukturze Big Data
Zastosowane technologie: HDFS, Hive, Pig, Oozie, Zookeeper
Big Data w analizie strumienia danych
Przetwarzanie strumieniowe, połaczone
˛
z zastosowaniem technik statystycznej analizy danych,
pozwala na realizacj˛e scenariuszy biznesowych typu real time. W scenariuszu tym czas od momentu identyfikacji potrzeby klienta(opisanej zdarzeniami wykrytymi w strumieniu) do momentu
spełnienia potrzeby klienta, mierzony jest w kliku minutach, a nawet sekundach. W zakresie
przetwarzania danych w czasie rzeczywistym, konsultanci Sorigo realizowali nast˛epujace
˛ projekty
komercyjne i badawczo-rozwojowe:
• Przetwarzanie danych lokalizacyjnych klientów operatora telekomunikacyjnego: identyfikacja
lokalizacji, przypisywanie atrybutów do lokalizacji(dom, praca, szkoła, sport, itp.). Dodatkowo,
zbudowany został model predykcyjny, pozwalajacy
˛ na oszacowanie prawdopodobieństwa
położenia klienta za ok 20 min.
• Identyfikacja nadużyć(anomalii) w połaczeniach
˛
telefonicznych.
Strumień wykonywanych(wychodzacych)
˛
połacze
˛ ń telefonicznych był monitorowany za pomoca˛ listy numerów
telefonów, podejrzanych o dokonywanie wyłudzeń. W momencie wykonania połaczenia
˛
telefonicznego na nr telefonu, pochodzacy
˛ z blacklist, generowany był alarm.
Big Data – monetyzacja danych
Monetyzacja danych to forma generowania przychodów z dost˛epnych w organizacji danych.
Monteyzacja danych może mieć charakter wewn˛etrzny(ang.
internal monetization) lub
zewn˛etrzny(ang.
external monetization).
Monetyzacja wewn˛etrzna obejmuje działania
prowadzace
˛ do wykorzystania potencjału posiadanych danych, poprzez lepsze dopasowanie
oferty dla klientów, czy trafniejsze przewidywanie ich zachowań. Monetyzacja zewn˛etrzna dotyczy współpracy pomi˛edzy przedsi˛ebiorstwami w celu uzyskania efektu synergii z posiadanych
danych. Przykładowo, może ona obejmować świadczenie usług podmiotom trzecim w oparciu
o uzyskane dane.
Rys. 2: Anomalie w strumieniu danych
• Analiza wpisów serwisu Tweeter w czasie rzeczywistym pod katem
˛
segmentowania wysyłanej
treści. W oparciu o generowana˛ treść, użytkownicy serwisu poddawani byli segmentacji.
Zastosowane technologie: Spark, Kafka, Redis, Cassandra, Flink, SparkML, R, Samoa
Technologie
Konsultanci Sorigo maja˛ doświadczenie z wieloma technologiami Big Data, poniższy diagram
zawiera zestawienie naszych kompetencji.
•
•
•
•
Hive
HBase
Redis
Cassandra
Rys. 1: Wizualizacja danych w czasie rzeczywistym
Liczne projekty zwiazane
˛
z monetyzacja˛ danych w telekomunikacji
Celem projektu było opracowanie i zweryfikowanie modelu biznesowego, pozwalajacego
˛
na czerpanie korzyści z danych. Ponieważ każda potrzeba informacyjna jest inna, chodziło o wypracowanie standardów technologicznych i biznesowych pracy z różnymi klasami danych(batch i
real time).
Osiagni˛
˛ eto nast˛epujace
˛ rezultaty:
•
•
•
•
• Opracowano platform˛e pozwalajac
˛ a˛ na nasłuch protokołów telekomunikacyjnych i analizowanie ich zawartości. Platforma powstała w oparciu o innowacyjna˛ architektur˛e lambda.
Zookeper
Ambari
Ranger
Knox
Database
platforms
Machine
learning
Governance
Real time
data
analysis
•
•
•
•
SparkML
R
FlinkML
SparkR
•
•
•
•
Storm
Spark
Filnk
Kafka
• Opracowano reguły biznesowe, pozwalajace
˛ na identyfikacj˛e określonych zdarzeń
• Projekt umożliwił opracowanie nowych modeli współpracy z partnerami w zakresie monetyzacji danych
Zastosowane technologie: Spark, Kafka, Redis, Storm, Flink, Hive, R, Knox, Ranger, Kibana
Rys. 3: Kompetencje konsultantów Sorigo w domenie big data
Ponadto, mamy doświadczenie w projektowaniu architektury Big Data, przystosowanej do realizacji konkretnych potrzeb. Mamy praktyczne doświadczenia w realizacji projektów doradczych,
zwiazanych
˛
z architektura˛ lambda oraz Data Lake.
Copyright © 2017 Sorigo. All rights reserved.

Podobne dokumenty