Szkolenie Cloudera Cloudera Data Analyst Training: Using Pig

Transkrypt

Szkolenie Cloudera Cloudera Data Analyst Training: Using Pig
Szkolenie Cloudera
Cloudera Data Analyst Training: Using Pig, Hive,
and Impala with Hadoop
SIĘGNIJ PO PROFESJONALNĄ WIEDZĘ
Cel szkolenia
Cloudera Data Analyst Training to praktyczny kurs, który polecany jest każdemu, kto chce
zarządzać, konstruować i kierować kwerendy w czasie rzeczywistym dla złożonych zbiorów
danych za pomocą SQL i języków skryptowych dostępnych w Hadoop. Szkolenie
przedstawia, w jaki sposób Apache Pig, Apache Hive i Cloudera Impala pozwalają na
transformację danych i ich analizę za pomocą filtrów, łączeń i funkcji zdefiniowanych przez
użytkownika.Dzięki zawartej teorii, interakcji z prowadzącym, ćwiczeniom praktycznym,
uczestnicy będą poznawać cały ekosystem Hadoop i w szczególności nauczą się:
- Podstaw Apache Hadoop i operacji na danych takich jak: ETL (ekstrakcji (extract),
transformacji (transform), ładowania (load)), przejmowania i ich przetwarzania za pomocą
narzędzi Hadoop
- Łączenia wielu zestawów danych i analizy różnych danych z Pig
- Organizowania danych w tabelach, wykonywanie przekształceń i uproszczenie złożonych
zapytań z Hive
- Wykonywania w czasie rzeczywistym interaktywnych analiz ogromnych zbiorów danych
przechowywanych w HDFS lub HBase za pomocą SQL z Impala
- Jak wybrać najlepsze narzędzie dla danego zadania
Cena szkolenia
5500 PLN netto
+VAT zgodnie z obowiązującą
stawką w dniu wystawienia
faktury
Najbliższe terminy
2014-10-06, Kraków
Zarezerwuj online
Zapytaj o szczegóły:
tel. 12 29 84 777
[email protected]
Czas trwania
3 dni
Konspekt
1. Podstawy Hadoop
- Motywacja dla wdrożenia Hadoop
- Omówienie Hadoop
- HDFS
- MapReduce
- Ekosystem Hadoop
- Omówienie scenariuszy ćwiczeń
- Ćwiczenia praktyczne: Wciągnięcie i przetwarzanie danych za pomocą narzędzi Hadoop
2. Wprowadzenie do Pig
- Co to jest Pig"
- Możliwości Pig
- Przykłady uzycia Pig
- Interakcja Pig
3. Podstawowa analiza danych z Pig
- Składnia Pig Latin Syntax
- Wczytywanie danych
- Proste typy danych
- Definicje pól
- Wyjście danych
- Oglądanie schematu
- Filtrowanie i sortowanie danych
- Najczęściej używane funkcje
- Ćwiczenia praktyczne: Korzystanie z Pig przy operacjach ETL
4. Przetwarzania złożonych danych z Pig
- Formaty przechowywania
- Złożone/zagnieżdżone typy danych
- Grupowanie
- Funkcje wbudowane dla złożonych danych
- Iteracja zgrupowanych danych
- Ćwiczenia praktyczne: Analizowanie danych z kampanii reklamowej z Pig
5. Działania na wielu zastawach (multi-dataset) danych z Pig
- Techniki łączenia zbiorów danych
- Łączenie zbiorów danych w Pig
Compendium - Centrum Edukacyjne Sp. z o.o. | ul. Tatarska 5 | 30-103 Kraków | tel. (+48 12) 29 28 500
Sąd Rejonowy dla Krakowa-Śródmieścia w Krakowie XI Wydział Gospodarczy Krajowego Rejestru Sądowego
KRS 0000039600, Kapitał zakładowy 450 000,00 zł, NIP: 676-21-71-482, Regon: 357260753
www.compendium.pl | [email protected] | (c) Copyright Compendium
Strona 1 z 3
Szkolenie Cloudera
Cloudera Data Analyst Training: Using Pig, Hive,
and Impala with Hadoop
SIĘGNIJ PO PROFESJONALNĄ WIEDZĘ
- Zestawy działań
- Dzielenie zestawów danych
- Ćwiczenia praktyczne: Analizowanie różnych zestawów danych z Pig
6. Rozszerzanie Pig
- Dodawanie elastyczność za pomocą parametrów
- Makra I importy
- UDFs
- Contributed Functions
- Korzystanie z innych języków, aby przetwarzać dane z Pig
- Dostęp do Pig z poziomu innych języków
- Ćwiczenia praktyczne: Rozszerzenie Pig o Streaming i UDFs
7. Rozwiązywanie problemów i optymalizacja Pig
- Rozwiązywanie problemów z Pig
- Logowanie
- Korzystanie z Hadoop Web UI
- Opcjonalne Demo: Rozwiązanie problemu Failed Job z Web UI
- Przykładowe próbki danych i debugowanie
- Wydajność
- Omówienie Execution Plan
- Porady dotyczące poprawy wydajności wykonywanych zadań w Pig
8. Wprowadzenie do Hive
- Co to jest Hive"
- Hive Schema i przechowywanie danych
- Porównanie Hive do tradycyjnych baz danych
- Hive vs Pig
- Przykłady uzycia Hive
- Współpraca z Hive
9. Relacyjna analiza danych z Hive
- Baza danych Hive i tabele
- Podstawowa składnia HiveQL
- Typy danych
- Łączenie zbiorów danych
- Typowe i wbudowane funkcje
- Ćwiczenia praktyczne: Działające zapytania Hive na danych detalicznych
10. Zarządzanie danymi w Hive
- Formaty danych w Hive
- Tworzenie baz danych i tabel zarządzany w Hive
- Wprowadzenie danych do Hive
- Zmiany baz danych i tabel
- Samozarządzające tabele
- Upraszczanie zapytań z podglądem
- Zapisywanie wyników kwerendy
- Zabezpieczanie dostępu do danych
- Ćwiczenia praktyczne: Zarządzanie danymi z Hive
11. Przetwarzanie tekstu z Hive
- O przetwarzaniu tekstu
- Ważne funkcje łańcuchowe
- Korzystanie z wyrażeń regularnych w Hive
- Analiza sentymentu (Sentiment Analysis) i N-Grams
- Ćwiczenia praktyczne: Dokładna analiza danych z analizą sentymentu
12. Optymalizacja Hive
- Zrozumienie wydajności zapytań
- Kontrola planu wykonywanych zadań
- Partycjonowanie
- Bucketing
- Indeksowanie danych
13. Rozszerzanie Hive
- SerDes
- Transformacje danych z niestandardowymi skryptami
Compendium - Centrum Edukacyjne Sp. z o.o. | ul. Tatarska 5 | 30-103 Kraków | tel. (+48 12) 29 28 500
Sąd Rejonowy dla Krakowa-Śródmieścia w Krakowie XI Wydział Gospodarczy Krajowego Rejestru Sądowego
KRS 0000039600, Kapitał zakładowy 450 000,00 zł, NIP: 676-21-71-482, Regon: 357260753
www.compendium.pl | [email protected] | (c) Copyright Compendium
Strona 2 z 3
Szkolenie Cloudera
Cloudera Data Analyst Training: Using Pig, Hive,
and Impala with Hadoop
SIĘGNIJ PO PROFESJONALNĄ WIEDZĘ
- Funkcje definiowane przez użytkownika
- Parametryzowane kwerendy
- Ćwiczenia praktyczne: Transformacja danych z Hive
14. Wprowadzenie do Impala
- Co to jest Impala"
- W czym Impala różni się od relacyjnych baz danych
- W czym Impala różni się od Hive i Pig
- Korzystanie z Impala Shell
- Ograniczenia i przyszłe kierunki rozwoju
15. Analiza danych z Impala
- Składnia podstawowa
- Typy danych
- Filtrowanie, sortowanie i ograniczanie wyników
- Łączenie i grupowanie danych
- Poprawa wydajności Impala
- Ćwiczenia praktyczne: Interaktywna analiza danych z Impala
16. Interoperacyjność i przepływy pracy
- Wybór najlepszego narzędzia do pracy
- Wskazówki dla osiągnięcia lepszej interoperacyjności
- Integracja bazy danych i narzędzi
- Cykliczne zarządzanie przepływem pracy
17. Wnioski
- Najważniejsze punkty
- Następne kroki
Wymagania
Kurs ten jest sugerowany dla wszystkich analityków danych, analityków biznesowych,
programistów i administratorów, którzy mają doświadczenie z SQL lub/i językami
skryptowymi.
Przed tym szkoleniem nie jest wymagana wiedza na temat Apache Hadoop.
Certyfikaty
Uczestnicy szkolenia otrzymują certyfikat ukończenia szkolenia wystawiony imiennie oraz na
firmę sygnowany przez firmę Cloudera.
Lokalizacje
Kraków - ul. Tatarska 5, II piętro, godz. 9:00 - 16:00
Warszawa - ul. Bielska 17, godz. 9:00 - 16:00
Prowadzący
Autoryzowany wykładowca firmy Cloudera.
Cena szkolenia
5500 PLN netto
Do ceny należy doliczyć 23% VAT
Compendium - Centrum Edukacyjne Sp. z o.o. | ul. Tatarska 5 | 30-103 Kraków | tel. (+48 12) 29 28 500
Sąd Rejonowy dla Krakowa-Śródmieścia w Krakowie XI Wydział Gospodarczy Krajowego Rejestru Sądowego
KRS 0000039600, Kapitał zakładowy 450 000,00 zł, NIP: 676-21-71-482, Regon: 357260753
www.compendium.pl | [email protected] | (c) Copyright Compendium
Strona 3 z 3