GRID - globalny system przetwarzania danych

Transkrypt

GRID - globalny system przetwarzania danych
GRID - globalny system
przetwarzania danych






Dlaczego GRID?
Jak jest zbudowany, zorganizowany i jak działa
Międzynarodowe i krajowe inicjatywy gridowe
Zastosowania
Trudne do pogodzenia sprzeczności interesów
GRID dla energetyki?
Wojciech Wiślicki, IPJ, 25/9/2010
Dlaczego GRID?
Produkcja i zapis
informacji
Możliwości CPU
Więcej informacji będziemy
reprodukowali i silniej ją
zredukujemy przed zapisem
Dlaczego GRID?
Prawa Moore'a
dla nośników danych
i bandwidth 100/(10 lat)‫‏‬
Ale najszybciej tanieje
bandwidth
Wniosek: wzrasta ruch
w sieci
Dlaczego GRID?
Złożoność problemów
Złożoność urządzeń
i grup ludzkich
Czym jest grid?




Grid jest rodzajem rozproszonego computingu,
tzn. do zadania używamy zasobów
zlokalizowanych w różnych miejscach i
połączonych siecią
Grid organizuje przetwarzanie danych, zarówno
zasoby, jak użytkowników, lecz nie zarządza
nimi centralnie. Zasoby należą do różnych
właścicieli
Używane są tzw. open standards
Zapewnia Quality of service
Pierwszy historycznie przykład
GRIDu: SETI @ home


Każdy komputer podłączony do Internetu może
zainstalować oprogramowanie do analizy
danych z radioteleskopu San Mateo CA
Niebo podzielone jest na małe obszary i każdy
komputer dostaje kawałek do przeanalizowania
w czasie, gdy jest nieobciążony (zasada
screen-savera)‫‏‬
Pierwszy historycznie przykład
GRIDu: SETI @ home, c.d.

Poszukuje się w widmie częstości struktur
niepodobnych do znanych wzorców
Pierwszy historycznie przykład
GRIDu: SETI @ home, c.d.


Obecnie SETI @ home ma 5.5 mln uczestników
SETI @ home nie jest jednak prawdziwie
rozwiniętym gridem (brak prawdziwych serwisów
i QoS)‫‏‬
Pierwszy historycznie przykład
GRIDu: SETI @ home, c.d.
Dotychczas (ok. 10 lat) nie znaleziono ET
Architektura gridu (opartego na
systemie gLite)‫‏‬






Model przetwarzania danych
Łączność: sieć GEANT i sieciowa koordynacja
operacyjna ruchu
Organizacja w dużej skali: struktury globalne,
federacje, społeczności użytkowników
Struktura węzła gridowego
Dostęp do zasobów i usługi gridowe
Aplikacje
Wielowarstwowy (multi-tier) model
przetwarzania danych: LHC w CERN
Najniższy poziom przetwarzania
w gridzie WLCG: Tier-3




Poziom ten nie jest udostępniany w gridzie
Służy lokalnym grupom do celów
deweloperskich
Może być też mocną lokalną farmą do analizy
na wysokim poziomie, np. do zrównoleglonej
analizy PROOF'em
Tier-3 może mieć minimalną funkcjonalność
gridową (np. tylko user interface i gridowy
transfer danych)‫‏‬
Łączność: sieć GEANT wraz z EGEE
Network Operations Centre
Organizacja GRIDU z lotu ptaka
Pl: NREN=PIONIER, RGI=PlGrid
Podstawowe elementy struktuaralne:
węzły gridowe
Podstawowe usługi gridowe (system
gLite)‫‏‬
Katalogi zbiorów i metadanych
Workflow management
Monitoring
Accounting
Zarządzanie rozproszonymi zbiorami danych
Zarządzanie wirtualnymi organizacjami
użytkowników
Wsparcie dla użytkowników

Dostęp do gridu
Trzeba skutecznie
rozpoznać użytkownika
i dać mu bezpieczny
dostęp do zasobów
obliczeniowych
Dostęp do gridu, c.d.



Grid Security Infrastructure, oparta na
certyfikatach dla użytkowników, wystawianych
przez narodowe Certificate Authorities
Certyfikaty użytkowników w formacie X.509,
umożliwiające autentykację (sprawdzenie
tożsamości) użytkownika
Autoryzacja na zasoby udzielana w ramach
wirtualnych organizacji przez serwisy Virtual
Organization Membership Service (VOMS)‫‏‬
Trochę statystyki: Enabling Grids
for E-science







54 kraje, 267 węzłów sieciowych
114 000 CPU dostępnych 24/7
20 PB pamięci dyskowej + tape MS
200 wirtualnych organizacji
16 000 użytkowników
150 000 zadań/dzień
15 obszarów tematycznych aplikacji
Infrastruktura obliczeniowa



Serwisy produkcyjne (PS), używane w bieżącej
pracy operacyjnej, np. Worldwide LHC
Computing Grid
Serwisy pre-produkcyjne (PPS), używane do
testowania nowych narzędzi i usług gridowych
przed ich wdrożeniem do produkcji
Infrastruktura szkoleniowa (portal szkoleniowy
GILDA), umożliwiająca przeprowadzanie
kursów gridowych bez wpuszczania
użytkowników na infrastrukturę produkcyjną
Wsparcie dla użytkowników
Monitoring gridu: GIIS w
Academia Sinica
Klaster warszawski
w domenie polgrid.pl
Monitoring gridu: GIIS w
Academia Sinica, c.d.
Klaster warszawski
w domenie polgrid.pl
Aplikacje



Dwa największe gridy typu general purpose, to
EGEE (EC) i OSG (USA)‫‏‬
Ich największymi użytkownikami są
eksperymenty nowej generacji w fizyce
wysokich energii, głównie przy Large Hadron
Collider w CERNie
Istnieją też duże aplikacje biomedyczne,
geologiczne, meteorologiczne, chemiczne, z
fizyki plazmy .., uprawiane zarówno na EGEE,
OSG, jak i na gridach dziedzinowych
Narodowa inicjatywa gridowa PlGrid


Od 2009 organizacja gridów WLCG i EGEE
oparta jest o narodowe projekty gridowe
Pl-Grid, konsorcjum finansowane przez MNiSW
w ramach Programu Operacyjnego
Innowacyjna Gospodarka
Finansowany w ramach umowy
POIG.02.03.00-00-007/08-00 2009-11

Pl-Grid, partnerzy

ACK Cyfronet

ICM UW

PCSS PAN

CI TASK

WCSS
Pl-Grid, partnerzy
Oparty na tym samym szkielecie sieciowym co
EGEE
Pl-Grid, struktura
Pl-Grid, struktura warstwy
sprzętowej i narzędziowej




Równoległe działanie dwóch infrastruktur w
warstwie narzędziowej i operacyjnej - gLite i
Unicore
Wykorzystanie dorobku narzędziowego i
serwisowego projektów gridowych z FP 5,6,7
Struktura serwisów wzorowana na EGEE
Sprzęt obliczeniowy i sieciowy częściowo
odziedziczony po EGEE/WLCG, uzupełniony o
duże zakupy w ramach pl-grid
Pl-Grid, zadania i koordynatorzy






Z1- Zarządzanie Projektem – ACK CYFRONET
AGH (Kraków)
Z2 - Infrastruktura sprzętowa – CI TASK
(Gdańsk)‫‏‬
Z3 - Centrum Operacyjne – ACK CYFRONET
AGH (Kraków)‫‏‬
Z4 - Rozwój oprogramowania e-infrastruktury i
narzędzi użytkownika – PCSS (Poznań)‫‏‬
Z5 - Szkolenia i wsparcie użytkowników – ICM
UW (Warszawa)‫‏‬
Z6 - Bezpieczeństwo infrastruktury – WCSS
(Wrocław).
Pl-Grid, struktura organizacyjna
Pl-Grid, zadania merytoryczne








Wsparcie dla EGEE i DEISA
Wspieranie nowych inicjatyw i systemów
gridowych
Przydział zasobów do celów naukowobadawczych i R&D
Stworzenie i wsparcie infrastruktury
produkcyjnej
Zarządzanie zasobami
Wsparcie sieciowe
Wsparcie aplikacji
Własne R&D
Pl-Grid, dostępność usług

Service Availability Monitoring (SAM)‫‏‬
Pl-Grid, dostępność infrastruktur
informatycznych


Monitoring GSTAT oparty na narzędziu EGEE
Program instalacji zasobów do 2011 obejmuje
215 Tflops i 2500 TB, zlokalizowanych w 5
ośrodkach
Pl-Grid, wsparcie dla
użytkowników
Obsługa zapytań w ramach helpdesk, opartego
na systemach rd-tracker (wcześniej 1or0)‫‏‬
https://helpdesk.plgrid.pl
Specjalistyczna pomoc w przypadku problemów
operacyjnych i badawczo-rozwojowych
Dostęp poprzez certyfikaty użytkowników
Pl-Grid, narzędzia dla
użytkowników







Bazaar
G-Eclipse
Grid Commander
Grid Space
Migrating Desktop
QosCosGrid
Vine
Pl-Grid, narzędzia zarządzania





FiVO – konfiguracja VO
Acarm
Gemini2
StorMon
X2R
Pl-Grid, szkolenia



Szkolenia dla użytkowników zaawansowanych
ze świata nauki i przemysłu w formie kursów
hands-on
Szkolenia wprowadzające dla nowych
użytkowników
Różne formy szkoleń:


Regularne kursy tradycyjne, o różnych poziomach
szczegółowości i zaawansowania
Zdalne kursy przy użyciu platformy Blackboard
Pl-Grid, oprogramowanie
specjalistyczne



Freeware z różnych dziedzin, wypracowywany
stopniowo przez społeczności naukowe
Oprogramowanie licencyjne potrzebne
użytkownikom
Reprezentowane dziedziny: fizyka wysokich
energii, fizyka molekularna, fizyka płynów,
geofizyka, chemia kwantowa, biologia
obliczeniowa, ogólne metody numeryczne i
symulacyjne
Trudne do pogodzenia
sprzeczności interesów
Kto jest właścicielem i kto zarządza zasobami
obliczeniowymi?
Różne podmioty porozumiewają się, nikt nie
zrzeka się praw do swoich części
Jeden właściciel i administrator
Kto finansuje infrastrukturę i serwisy?
Provider(zy): wolny dostęp dla użytkowników
Użytkownicy: dostęp płatny
Trudne do pogodzenia
sprzeczności interesów, c.d.
Bezpieczeństwo serwisów i rzetelność infrastruktury
Podstawowe bezpieczeństwo w ramach Grid
Security Infrastructure, bez odpowiedzialności
finansowo-prawnej provider'ów
Wysokie wymagania niezawodności (>99.99%) i
predefiniowane bezpieczeństwo danych, z
określoną odpowiedzialnością finansowo-prawną
Dwa modele przetwarzania:
GRID vs. CLOUD
GRID
Współdzielone zasoby należące do wielu
właścicieli, znajdujące się w różnych miejscach,
połączone, brak zarządzania centralnego.
Przykłady: EGEE (EU+), OSG (USA)‫‏‬
CLOUD
Zasoby rozproszone, lecz zarządzane i posiadane
przez jednego właściciela. Użytkownik płaci za
usługi (dostęp, cykle, pamięć..)‫‏‬
Przykłady: Amazon Elastic Compute Cloud, Google
App Engine
GRID vs CLOUD




Provider: nauka
Technologia open
source
Użytkownik wpływa
na infrastrukturę i
dostosowuje do
specyficznych zadań
Złożony – do
używania wymagana
wstępna wiedza




Provider: komercja
Technologia
proprietary
Użytkownik dzierżawi
dostęp do
zdefiniowanej
infrastruktury
Prosty w użyciu od
„poziomu zero”
GRID vs CLOUD, c.d.




Niepewna jakość
usług
Możliwość tworzenia
własnych,
specyficznych
serwisów
Bezpieczeństwo
danych: repliki w
różnych miejscach
Łatwe współdzielenie
danych




Komercyjnie
gwarantowana jakość
Brak wysokospecjalizowanych
serwisów
aplikacyjnych
Bezpieczeństwo
danych: specjalna
usługa
Współdzielenie po
wykupie dostępu
Pro domo sua: przetwarzanie
rozproszone dla energetyki
Zadania computingu wspierającego energetykę w
Polsce:
 Konfiguracja i eksploatacja siłowni jądrowych
 Dystrybucja energii
 Monitoring zagrożeń radiacyjnych i
chemicznych oraz wspomaganie decyzyjne
 Bezpieczeństwo energetyczne
Przetwarzanie rozproszone dla
energetyki, c.d.
Koncepcja computingu na potrzeby
długofalowego programu rozwoju energetyki w
Polsce:
 Centrum Informatyczne w Świerku jako główny
węzeł wsparcia informatycznego
 Planowana częściowa integracja z Pl-grid
 Architektura CIŚ uwzględniająca specyfikę
zadań (kiedy GRID, a kiedy CLOUD?)‫‏‬
 Specjalne wymagania bezpieczeństwa a
rekonfigurowalność klastra
Monitoring zagrożeń
radiologicznych
Monitoring zagrożeń
chemicznych
Monitoring zagrożeń
radiologicznych i chem., c.d.



Charakter serwisu wymaga całkowitego
bezpieczeństwa danych i gwarantowanej
jakości (wysoki poziom Service Level
Agreement)‫‏‬
Potrzebne zasoby „na życzenie” (on demand) z
możliwością szybkiej alokacji
Bezpieczniejszym rozwiązaniem jest CLOUD,
aniżeli GRID
LEAD: huragany tropikalne w USA
Models and Algorithms Driving Sensors
The CS challenge: Build
cyberinfrastructure services that provide
adaptability, scalability, availability,
useability, and real-time response.
Product
Generation
Display,
Dissemination
Zadania off-line, wymagające
bezpieczeństwa baz danych, lecz
nie obliczeń


Transport materii i promieniowania, obliczenia
reaktorowe oraz optymalizacja eksploatacji
siłowni jądrowych
Optymalizacja dystrybucji energii w sieciach,
projektowanie sieci przesyłu energii i surowców
(zadania typu routingu na grafach i
optymalizacji dyskretnej; bardzo wymagające
obliczeniowo)‫‏‬
Zadania doskonałe dla GRIDu
Sieć szkieletowa w CIŚ
Uwagi końcowe




Architekturę gridu dominują usługi serwisowe
(Service-oriented architecture)‫‏‬
Infrastruktura staje się niewidoczna dla
użytkownika
Przetwarzanie rozproszone jest dominowane
przez dwa trendy: grid i cloud
Wsparcie informatyczne dla energetyki
prawdopodobnie wymaga mariażu obu

Podobne dokumenty

Infrastruktura PL-Grid wsparciem dla naukowców

Infrastruktura PL-Grid wsparciem dla naukowców Modelowanie mikrostruktury materiału w oparciu o metody Monte Carlo Modelowanie i optymalizacja statystycznie podobnych reprezentatywnych

Bardziej szczegółowo