CERN i komputery
Transkrypt
CERN i komputery
CERN i komputery dr hab hab. Szymon S mon Gadomski Uniwersytet Genewski i IFJ PAN w Krakowie S. Gadomski, "CERN i komputery", 22.05.2007 1 Komputery w CERN - WWW i GRID 1 Historia WWW (wynalazek CERN) 1. – na czym polegał wkład CERNu – dlaczego CERN odegrał decydującą rolę 2. Komputery dla współczesnej fizyki – GRID (i nie tylko) – – – – – wymagania eksperymentów LHC selekcja danych w czasie rzeczywistym „online” problem ilości danych do dalszej analizy GRID – idea, idea stan rozwoju na czym polega analiza danych 3 Polonica 3. – GRID w Polsce i Polscy programiści w CERNie 4. Podsumowanie odsu o a e S. Gadomski, "CERN i komputery", 22.05.2007 2 Internet przed wynalezieniem WWW • • • • 1959, ARPANET, 1959 ARPANET University of California California, Los Angeles 1978 – 1981, pierwsze sieci międzynarodowe i międzykontynentalne (np. dla poczty) 1983 sieć dla nauki (National Science Foundation, USA) już obecny protokół wymiany informacji (TCP/IP) koniec lat 80-tych – internet szeroko używany przez fizyków cząstek – podłączone większe laboratoria (CERN, DESY) i niektóre uniwersytety i t t – z Krakowa przez telefon międzynarodowy do CERN, każda minuta cenna S. Gadomski, "CERN i komputery", 22.05.2007 3 Internet przed wynalezieniem WWW (2) • Możliwości internetu w końcu lat 80-tych 80 tych Poczta elektroniczna (pine) Przesyłanie danych (ftp) kontakt z użytkownikiem czysto tekstowy S. Gadomski, "CERN i komputery", 22.05.2007 4 Wynalazek WWW • 1989, CERN, początki WWW – – najbardziej aktywe centrum internetu w Europie duża rotacja personelu (nadal) • Tim Berners-Lee Berners Lee proponuje “data data management system” - połączenie istniejącego standardu opisu informacji (hypertext) i internetu - dla potrzeb CERNu i eksperymentów • Robert R b tC Caillau, ill plan l projektu j kt S. Gadomski, "CERN i komputery", 22.05.2007 5 Wynalazek y WWW ((2)) 1989 – 1991, pierwsze p prototypy w CERN Pierwszy ``server’’ WWW Szkic architektury Tim Berners Berners-Lee Lee 1989 S. Gadomski, "CERN i komputery", 22.05.2007 6 Rozwój WWW 1991 – WWW dostępne ęp p publicznie p poza CERN 1993 – deklaracja CERN o darmowym dostępie do technologii WWW 1993 – pierwsza znana przeglądarka graficzna (Mosaic) University of Illinois USA Illinois, USA, początki graficznych stron internetowych 1995 – przemysł (np. Microsoft) proponuje internet dla szerokiej publiczności 2005 – index i d 19 19.2 2 miliardów ili dó stron t iinterenetowych t t h (Yahoo) (Y h ) 2007 – prawdopodobnie około 30 miliardów stron Niespotykana wcześniej łatwość dostępu do informacji. NP. strona publiczna CERN Fenomen społeczny definiujący nasze czasy narodził się w CERNie CERNie. Potrzeba łatwej, globalnej i nieformalnej wymiany informacji, typowa dla fizyki cząstek, dała tak znaczący (i nieoczekiwany) efekt. S. Gadomski, "CERN i komputery", 22.05.2007 7 Internet obecnie S. Gadomski, "CERN i komputery", 22.05.2007 8 Komputery dla współczesnej fizyki GRID i nie tylko y S. Gadomski, "CERN i komputery", 22.05.2007 9 Komputery dla współczesnej fizyki Przy zderzeniach protonów na LHC interesujące nas nieznane jeszcze procesy będą rzadkie. Częs stość reakc cji – wymagania Dlaczego? S. Gadomski, "CERN i komputery", 22.05.2007 10 Produkcja bozonu Higgsa w zderzeniach protonów e+ q q Z0 W p μ+ e- H Z0 W q q p μ- Istotna jest energia składników oddziałujących protonów. protonów Obydwa kwarki (lub gluony) muszą nieść dużą część energii g protonów. p To zdarza się ę rzadko. Trzeba wybierać zderzenia interesujące! S. Gadomski, "CERN i komputery", 22.05.2007 11 Selekcja interesujących zderzeń. Zachować Z h ć y czy odrzucić? Odrzucić! S. Gadomski, "CERN i komputery", 22.05.2007 12 Selekcja interesujących zderzeń. muon muon Zachować Z h ć y czy odrzucić? Zachować! supersymetria supe sy et a u~R → u + χ~10 ~ d L → d + χ~20 → d + μ + + μ − + χ~10 S. Gadomski, "CERN i komputery", 22.05.2007 13 System selekcji danych ATLASa Trigger Calo DAQ MuTrCh Other detectors 40 MHz 40 MHz 2.5 μs R RoI LVL1 75 kHz LVL2 RoI Builder L2 Supervisor L2 N/work L2 Proc Unit H L ~3 kHz Lvl1 acc = 75 kHz ROD R I d RoI data = 1 1-2% 2% ~ 10 ms ROIB D FE Pipelines E T ROD 120 RoI requests Read-Out Buffers ROB ROB ROB L2SV ROS L2P L2N Lvl2 acc = ~3 kHz ~ sec EFP EFP EFP EFP ~4 GB/s T Event Filter EFacc = ~0.2 kHz ~ 200 Hz S. Gadomski, "CERN i komputery", 22.05.2007 Read Out Drivers Read-Out 120 GB/s Read-Out Links GB/s DFM Event Filter Processors ROD EBN SFI EB D A T A F L O W Read-Out Sub-systems ~2+4 GB/s Dataflow Manager Event Building N/work Sub-Farm Input Event Builder EFN Event Filter N/work SFO Sub-Farm Output ~ 300 MB/s 14 Selekcja danych przed rejestracją • W eksperymencie ATLAS rejestrowane będzie jedno zderzenie na 200 000. Selekcja danych „w w czasie rzeczywistym” rzeczywistym („online ( online”)) tt.j. j przed rejestracją. • Selekcja S l k j częściowo ś i w elektronice, l kt i częściowo ś i na komputerach. • System w budowie, docelowo około 2000 komputerów PC. Kupić komputery jak najpóźniej! Podwojenie szybkości co 1.2 roku... S. Gadomski, "CERN i komputery", 22.05.2007 15 „„Farma” dla ATLASa w budowie “pre-series” pre-series system ~100 PCs racks being prepared air and water for cooling (1 Mega Watt) S. Gadomski, "CERN i komputery", 22.05.2007 16 „Farma” komputerów do selekcji danych przed rejestracją • • • Niezależność zderzeń (zwanych „przypadkami przypadkami”)) Jeden przypadek na jeden procesor - „Cluster computing”, wiele małych komputerów zamiast jednego super-komputera Li Linux panuje j niepodzielnie i d i l i S. Gadomski, "CERN i komputery", 22.05.2007 17 Ilość rejestrowanych danych • Po selekcji jednego zderzenia na 200 000 ilość danych do zapisania i do dalszej analizy nadal stanowi problem. problem • ATLAS: 300 MB/s, około 3 PB (3*1015 B) na rok – gdyby pisać na CD byłoby ich 4 miliony (około 20 km na półkach) – około k ł 6000 ttypowych hd dysków kó (500 MB w 2007) • 4 eksperymenty LHC mają produkować do 15 PB na rok S. Gadomski, "CERN i komputery", 22.05.2007 18 Globalna współpraca nad analizą danych S. Gadomski, "CERN i komputery", 22.05.2007 19 Rozwiązanie (w budowie) - GRID • internet (i WWW) umożliwiają globaly dostęp do informacji • GRID ma umożliwić żli ić korzystanie k t i z zasobów bó (przechowanie danych i procesory do ich przetwarzania) t i ) rozproszonych h globalnie. l b l i • fizyka cząstek jest jedną z zainteresowanych dziedzin nauki S. Gadomski, "CERN i komputery", 22.05.2007 20 Historia GRIDu • prehistoria p w latach 70-tych y • idea porzucona w 80-tych (względy bezpieczeństwa) p ) • termin GRID w latach 90tych, analogia do sieci elektrycznej y j – nikt nie musi wiedzieć skąd pochodzi prąd zasilający jego lampę • Ian Foster, Carl Kesselman, Steve Tueck „ojcowie” GRIDu – projekt Globus (Chicago, 1997) – obecne projekty używają ich narzędzi S. Gadomski, "CERN i komputery", 22.05.2007 21 GRID: komputery, p y, sieci,, oprogramowanie p g Oprogramowanie ((“GRID GRID middleware”) middleware ) • identyfikacja użytkownika – certyfikaty i organizacje wirtualne • zarządzanie zasobami (moc obliczeniowa i miejsce na dane) • przepływ danych • przepływ zadań obliczeniowych S. Gadomski, "CERN i komputery", 22.05.2007 22 Ośrodki GRID w Europie S. Gadomski, "CERN i komputery", 22.05.2007 23 Ośrodki GRID w Ameryce PN S. Gadomski, "CERN i komputery", 22.05.2007 24 Ośrodki GRID w Azji i Oceanii S. Gadomski, "CERN i komputery", 22.05.2007 25 GRID dla eksperymentów na LHC LHC Coputing GRID (LCG) współpraca centrów obliczeniowych bli i h CERN jako „Tier 0” • 11 „Tier Tier 1” 1 • każdy „Tier 1” ma kilka „Tier 2” • komputery w instytutach b d badawczych h jjako k „Tier 3” S. Gadomski, "CERN i komputery", 22.05.2007 26 Przebudowa centrum obliczeniowego w CERN rola dla eksperymentów kilka lat temu obecnie S. Gadomski, "CERN i komputery", 22.05.2007 27 Komputery do analizy danych w Genewie • “Tier 2” k. Lugano (po drugiej stronie Alp) • Lokalne farmy “Tier 3” na uniwersytetach w G Genewie i iwB Bernie i 30 PC + dwa serwery Linux S. Gadomski, "CERN i komputery", 22.05.2007 28 Kwestie praktyczne „na na co dzień” dzień • Stabilność GRIDu – kłopoty z przepływem danych – informacja dla użytkownika • T Trzy GRIDy GRID (Europa, (E USA, USA kraje k j skandynawskie k d ki i Szwajcaria) – różne oprogramowanie – obecnie praca nad unifikacją (przepływ danych i zadań) • Jakość i stan dokumentacji oprogramowania produkowanego przez eksperymenty. Prototypy! System w budowie! S. Gadomski, "CERN i komputery", 22.05.2007 29 Planowany wzrost zasobów WLCG Tier-1 Evolution Tier-2 Tier 2 Growth 50 30.00 16.0 45 2.5 12.0 25 15.00 20 10.00 15 2 10.0 MSI2K. 30 PetaBytes s. 20.00 8.0 1.5 6.0 PetaBytes 35 MSI2K.. 14.0 25.00 40 3 1 4.0 10 5.00 5 0.5 2.0 0 0.00 2005 2006 2007 2008 0.0 0 2005 Year 2006 2007 2008 Year CPU (MSI2K) Di k (PB) Disk T Tape (PB) S. Gadomski, "CERN i komputery", 22.05.2007 CPU (MSI2K) Disk (PB) 30 Grid w Polsce We wrześniu 2003 ACK Cyfronet był pomiędzy pierwszymi 14 ośrodkami, z trzech kontynentów, które stworzyły prototyp wspólnej światowej sieci komputerowej dla fizyki Ośrodki uczestniczące w światowej prototypowej sieci LCG (2003-05) S. Gadomski, "CERN i komputery", 22.05.2007 31 Polska infrastruktura WLCG GDAŃSK KOSZALIN OLSZTYN Tier1 FZK Karlsruhe GÉANT 10+10 Gb/s SZCZECIN TORUŃ BYDGOSZCZ BASNET 34 Mb/s BIAŁYSTOK Gorzów Tier2 PCSS Poznań POZNAŃ Tier2 WARSZAWA ICM W Warszawa ZIELONA GÓRA ŁÓDŹ RADOM WROCŁAW CZĘSTOCHOWA C ĘS OC O PIONIER’S FIBERS 2 x 10 Gb/s KIELCE OPOLE KATOWICE 10 Gb/s Gb/ (1 lambda) CBDF 10 Gb/s Tier2 ACK Cyfronet KrakówKRAKÓW PUŁAWY LUBLIN RZESZÓW Bielsko-Biała 1 Gb/s C S CESNET, S SANET MAN S. Gadomski, "CERN i komputery", 22.05.2007 32 Polska infrastruktura WLCG Tier2: ACK Cyfronet – ICM – PSNC Trzy centra komputerowe uczestniczą w tworzeniu polskiego l ki Ti Tier2 2 (j (jako k część ść polskiego l ki EGEE ROC) • ACC Cyfronet Cracow • ~200 procesorów Pentium, dyski ~10 TB Cracow-CYFRONET • połączenie do PSNC via 1 Gbs HEP VLAN • ICM Warszawa • ~270 procesorów AMD-64, dyski ~19 TB połączenie ą do PSNC via 1 Gbs HEP VLAN •p Poznan-PSNC • PSNC Poznań • ~270 procesorów AMD-64 i IA-64, 3 TB • połączenie do GEANT i DFN – 10 Gbs W strukturze WLCG polski Tier2 jest połączony do Tier1 w FZK Karlsruhe Tier3 w instytutach FWE Krakowa i Warszawy Warsaw-ICM Kilkunastu polskich programistów obecnie w CERN IT, IT kilkudziesięciu pracowało. pracowało S. Gadomski, "CERN i komputery", 22.05.2007 33 Projekt CROSSGRID Cyfronet w Krakowie (prof.M.Turała) kierował projektem CrossGrid S. Gadomski, "CERN i komputery", 22.05.2007 34 Co te wszystkie komputery będą robić? Analiza danych y w fizyce y cząstek. ą S. Gadomski, "CERN i komputery", 22.05.2007 35 Analiza danych y pierwszy stopień “s ro e” dan “surowe” dane e z elektroniki eksperymentu S. Gadomski, "CERN i komputery", 22.05.2007 do punktów w przestrzeni przez informacje lokalne (punkt na płytce krzemu) 36 Analiza danych, dalsze stopnie • rekonstrukcja torów cząstek i depozytów energii • rozpoznanie cząstek, t k które któ powstały w zderzeniu d i (elektron, foton, mion) i ) S. Gadomski, "CERN i komputery", 22.05.2007 37 Analiza i symulacja • proces powtarzany wielokrotnie • zrozumienie detektora i systemu selekcji zajmuje często kilka lat • symulacja komputerowa jest porównywana p y z danymi ⇒ weryfikacja S. Gadomski, "CERN i komputery", 22.05.2007 d dane symulacja (założenia) rekonstrukcja i analiza wynik y i wynik y i porównanie, weryfikacja 38 Symulacja y j • jedno zderzenie wiązek w ATLASie • jjedna cząstka ą Higgsa gg • 25 oddziaływań protonproton • 750 torów cząstek S. Gadomski, "CERN i komputery", 22.05.2007 39 Pojedynczy “przypadek” przypadek nic nie znaczy ATLAS Ilo ość przyypadkó ów 100 fb-1 oczekiwany (hipotetyczny) sygnał (pochodzący od cząstki Higgsa) H→γγ Masa cząstki S. Gadomski, "CERN i komputery", 22.05.2007 40 Materiały dla nauczycieli i dla uczniów • WWW – co to jest WWW oraz internet, rola CERNu • http://press.web.cern.ch/Public/Content/Chapters/AboutCERN/Achievements/WorldWideWeb/WWW-en.html – propozycja j Ti Tim B Berners L Lee, “Information “I f i management system”” (‘89) • http://www.nic.funet.fi/index/FUNET/history/internet/w3c/proposal.html • Selekcja danych w czasie rzeczywistym – “Tryger” eksperymentu CMS • http://cmsinfo.cern.ch/outreach/CMSdetectorInfo/Tridas/page1.html • GRID – popularyzacja “GRID Café” • http://gridcafe.web.cern.ch/gridcafe/ – strona główna “LHC Computing GRID” • http://lcg.web.cern.ch/LCG/ S. Gadomski, "CERN i komputery", 22.05.2007 41 Podsumowanie • Najpopularniejsze zastotowanie internetu (WWW) jest “produktem ubocznym” badań w CERNie. Środowisko fizyków y cząstek ą odegrało g rolę ę społeczeństwa p przyszłości w miniaturze. • Eksperymenty na LHC będą produkować ogromną ilość danych. Interesujące zderzenia są rzadkie. • Selekcja w czasie rzeczywistym (“online”), rejestrowane 1 zderzenie na około 200 000. • Nadal wielka ilość danych, rzędu 10 PB (1016B) rocznie. A li na całym Analiza ł ś i i świecie. • GRID jako rozwiązanie (w stadium budowy). S. Gadomski, "CERN i komputery", 22.05.2007 42