Projektowanie rozwiązań Big Data z wykorzystaniem

Transkrypt

Projektowanie rozwiązań Big Data z wykorzystaniem
Kod szkolenia:
Tytuł szkolenia:
Dni:
HADOOP
Projektowanie rozwiązań Big Data z wykorzystaniem Apache
Hadoop & Family
5
Opis:
Adresaci szkolenia:
Szkolenie jest adresowane do programistów, architektów oraz administratorów aplikacji,
którzy chcą tworzyć lub utrzymywać systemy, w których wolumen przetwarzanych danych ma
najwyższy priorytet i przekracza możliwości tradycyjnych architektur i systemów takich jak
relacyjne bazy danych czy nawet hurtownie danych. Szkolenie jest także kierowane do osób,
które chcą uzupełnić swoją wiedzę o pojęcia związane z Big Data, MapReduce, NoSQL oraz
ich realizacją z wykorzystaniem oprogramowania Apache Hadoop & Family.
Cel szkolenia:
Uczestnicy szkolenia zdobędą przekrojową wiedzę dotyczącą takich pojęć jak algorytm
MapReduce, poznają założenia Big Data, BigTable, rozproszone systemy plikowe DFS, bazy
danych typu NoSQL. Dzięki temu będą mogli wybrać właściwy zestaw narzędzi i technik dla
swoich projektów. Szkolenie, poza ogólnym wprowadzeniem do pojęć teoretycznych, skupia
się na stosie produktowym wybudowanym wokół Apache Hadoop.
Mocne strony szkolenia:
Program obejmuje zarówno ogólne wprowadzenie w tematykę Big Data jak i całościowe
przedstawienie stosu produktowego wokół Apache Hadoop. Szkolenie jest unikalne, gdyż
tematyka poruszana w jego trakcie nie jest wyczerpująco ujęta w dostępnej literaturze, a
wiedza na ten temat jest mocno rozproszona. Program jest ciągle uaktualniany ze względu na
szybki rozwój rozwiązań, których dotyczy szkolenie.
Wymagania:
Od uczestników wymagana jest podstawowa znajomość baz danych, podstawowa
umiejętność programowania w języku Java.
Parametry szkolenia:
5*8 godzin (5*7 netto) wykładów i warsztatów, z wyraźną przewagą warsztatów. W trakcie
warsztatów, oprócz prostych ćwiczeń, uczestnicy rozwiązują problemy przetwarzania danych
implementując własne algorytmy z wykorzystaniem paradygmatu MapReduce, modelują
struktury danych bazy NoSQL, wykonują podstawowe czynności administracyjne. Wielkość
grupy: maks. 8-10 osób
Program szkolenia:
1. Wstęp
I. Czym jest Big Data, BigTable, BigQuery, MapReduce
II. Paradygmat MapReduce w szczegółach
III. MapReduce a inne paradygmaty przetwarzania rozproszonego np.: MPI, PVM
etc.
IV. Przegląd Apache Hadoop & Family
2. Apache Hadoop
I. Architektura
II. Hadoop 1.0 vs 2.0
III. Hadoop Shell Commands
IV. Apache Hadoop Distributed File System (HDFS)
i. Architektura, NameNodes, DataNodes
ii. Federacja I klastrowanie
iii. Uprawnienia i atrybuty plików
iv. Snapshoty
v. WebHDFS, HttpFS, FUSE
vi. Porównanie do innych rozproszonych systemów plików
V. Apache Hadoop NextGen MapReduce (YARN, MRv2)
i. Architektura
ResourceManager
Scheduler
ApplicationsManager
JobTracker i TaskTracker
ii. YARN shell
iii. Hadoop/YARN API
iv. YARN REST API
v. MapReduce 1.0 vs MapReduce 2.0, kompatybilność API
vi. Przykłady z omówieniem
VI. Administracja Apache Hadoop i składowymi
i. Instalacja i podstawowa konfiguracja
ii. Demony, piki konfiguracyjne, pliki logów
iii. Hadoop On Demand, Hadoop Cluster Setup
iv. Administracja HDFS
Uprawnienia systemu plików
Quota
v. Administracja MaReduce
Zarządzanie jobami
Scheduling
vi. Równoważenie klastra
vii. Monitorowanie
viii. Narzędzia administracyjne
3. Apache PIG
I. Wstęp
i. Architektura
ii. Tryby pracy
iii. Podstawy PigLatin
iv. Hadoop/YARN API a PigLatin
II. PigLatin w szczegółach
i. Słowa kluczowe
ii. Typy danych
iii. Operatory
iv. Funkcje wbudowane i funkcje użytkownika
III. Funkcje wbudowane
i. Funkcje proste (eval functions)
ii. Funkcje do ładowania/zapisu danych
iii. Funkcje matematyczne
iv. Funkcje do operowania na łańcuchach znakowych
v. Funkcje do operowania na dacie i czasie
vi. Pozostałe
IV. Funkcje użytkownika (UDF)
i. Funkcje UDF pisane w Java
ii. Funkcje UDF pisane w JavaScript
iii. Funkcje UDF pisane w innych językach: Python/Jython/Groovy
iv. Piggybank
V. Wydajność
i. Combiner
ii. Multi-Query Execution
iii. Reguły optymalizacji wykorzystywane przez Pig
iv. Dobre praktyki
VI. Testowanie i diagnostyka
i. Operatory diagnostyczne
ii. Dane statystyczne
iii. Testy jednostkowe z wykorzystaniem PigUnit
4. Apache HBase
I. Wstęp
i. Wprowadzenie do baz danych NoSQL
ii. Przyczyna powstania baz chmurowych
iii. Spójność, Dostępność, Odporność na partycjonowanie
iv. Twierdzenie CAP
v. Co różni bazy NoSQL od baz relacyjnych
vi. Podstawowe parametry baz NoSQL
vii. Klasyfikacja i przegląd baz NoSQL (Cassandra, Hbase, Mongo, Riak,
CouchDB, Tokyo Cabinet, Voldemort, etc.)
viii. Unikalne cechy HBase
II. Architektura HBase
i. Tabele katalogowe
ii. Master Servers
iii. Regiony i Region Servers
III. Model danych
i. Model koncepcyjny a fizyczny
ii. Przestrzeń nazw
iii. Tabela
iv. Wiersz
v. Kolumna
vi. Wersja
vii. Cela
IV. Wykorzystanie HBase
i. HBase API
ii. Z poziomu platformy Apache Hadoop i zadań MapReduce
iii. Za pomocą API zewnętrznych - REST API, Apache Thrift etc.
V. Wydajność
i. Optymalizacja odczytów
ii. Optymalizacja zapisów
iii. Optymalizacja parametrów JVM, sieci, systemu operacyjnego, systemu
plików
iv. Dobre praktyki
VI. Diagnostyka
i. Logi
ii. Narzędzia
VII. Bezpieczeństwo
i. Uwierzytelnianie i autoryzacja dostępu
ii. Bezpieczeństwo i szyfrowanie danych
VIII. Administracja bazą danych HBase
i. Instalacja i podstawowa konfiguracja
ii. Najczęstsze czynności administracyjne (operations manual)
iii. Aktualizacja do wyższych wersji
iv. Migracja, backupowanie i snapshoty danych
v. Dodawanie/usuwanie węzłów do repliki/klastra oraz resynchronizacja
vi. Panele administracyjne i monitorujące, narzędzia wspomagające
IX. Apache HBase w porównaniu do innych baz danych Apache NoSQL
i. Apache Accumulo
ii. Apache Cassandra
5. Apache Hive
I. Czym jest Hive
II. Architektura
III. Unikalne cechy Hive
IV. HiveCLI
V. HiveQL
VI. PigLatin vs HiveQL
VII. Tabele w Hive
VIII. Administracja Hive
i. Instalacja i podstawowa konfiguracja
6.
7.
8.
9.
10.
Powered by TCPDF (www.tcpdf.org)
Hive Metastore
HCatalog
WebHCat
ii. Najczęstsze czynności administracyjne (operations manual)
iii. Aktualizacja do wyższych wersji
iv. Panele administracyjne i monitorujące, narzędzia wspomagające
Apache Avro
I. Apache Avro IDL
II. Typy danych
III. Serializacja i deserializacja
IV. Avro RPC
Apache Mahout
I. Czym jest uczenie maszynowe, eksploracja danych, data mining
II. Możliwości Mahout
i. Algorytmy klasyfikacji
ii. Algorytmy grupowania
iii. Algorytmy ewolucyjne i genetyczne
iv. Redukcja wymiarów
v. Pozostałe
III. Instalacja i podstawowa konfiguracja
IV. Zastosowanie Apache Mahout w powiązaniu z Apache Hadoop
V. Przykłady z omówieniem
Tworzenie aplikacji przetwarzania danych
I. Apache Oozie
i. Akcje MapReduce
ii. Akcje Pgi
iii. Akcje Hive
iv. Akcje Subworkflow
II. Cascading
Zarządzanie i monitoring infrastrukturą Apache Hadoop & Family
I. Apache ZooKeeper
II. Apache Flume
III. Apache Ambari
Pozostałe
I. Apache Storm
II. Apache Spark
III. Cascalog

Podobne dokumenty