Jak big data rewolucjonizuję naukę oraz
Transkrypt
Jak big data rewolucjonizuję naukę oraz
Jak „Big Data” rewolucjonizuje naukę oraz współpracę centrów badawczych z biznesem? dr Łukasz Bolikowski ICM, Uniwersytet Warszawski Big Data Summit, 26 listopada 2014 Czwarty paradygmat Cztery paradygmaty w nauce (Jim Gray, 2007): 1 Empiryczny – opis zjawisk naturalnych (ostatnie tysiąclecia) 2 Teoretyczny – budowa modeli i uogólnień (ostatnie stulecia) 3 Obliczeniowy – symulacje złożonych zjawisk (ostatnie dekady) 4 Eksploracja danych – badania „data-intensive” (ostatnie lata) Duże dane w nauce Duży rozmiar 1000 Genomes Project – 200 TB danych genomicznych NASA Earth Exchange – 20 TB danych o Ziemi Duże tempo zmian Wielki Zderzacz Hadronów (CERN) – 1 PB/s (w szczycie) Sekwenatory DNA – setki GB tygodniowo Duża różnorodność Archiwum prognozy pogody ICM – 1000+ rodzajów pól Przyczyny zmiany paradygmatu Przejście od „analogowego” do „cyfrowego” dramatycznie zwiększyło podaż danych: książki, komunikacja naukowa dane medyczne Pojawiły się technologie generujące duże dane: urządzenia mobilne sieci społecznościowe sieci czujników (inteligentne miasta) Naukowcy uświadomili sobie, że eksploracja dużych zbiorów danych może prowadzić do odkryć: dane → informacja → wiedza Skutki zmiany paradygmatu Potrzebujemy. . . . . . nowych infrastruktur obliczeniowych duże klastry do badań opartych o dane systemy do publikacji i dzielenia się danymi . . . nowych metod i algorytmów przetwarzania algorytmy w modelu MapReduce szybkie rozwiązania in-memory . . . nowych umiejętności i kompetencji przetwarzanie dużych danych, programowanie uczenie maszynowe, statystyka, matematyka wizualizacja informacji, prezentacja wyników ciekawość, pasja, żyłka eksploratora ICM, Uniwersytet Warszawski Początki – trzeci paradygmat Założone 20 lat temu jako centrum superkomputerowe prowadzące symulacje złożonych zjawisk przy użyciu modeli matematycznych i superkomputerów. Prawdziwie interdyscyplinarny zespół 150+ naukowców i programistów tworzących rozwiązania w obszarach tak różnych jak: transport lotniczy, bioinformatyka, modelowanie klimatu, medycyna wspomagana komputerowo, kosmologia, biblioteki cyfrowe, projektowanie leków, epidemiologia, rolnictwo, fizyka wysokich energii, uczenie maszynowe, projektowanie materiałów, neurobiologia, analiza sieci społecznych, prognozowanie pogody, . . . i wiele innych. ICM, Uniwersytet Warszawski Przyszłość – czwarty paradygmat ICM staje się centrum danych badawczych. W ramach projektu OCEAN o początkowym budżecie 80 mln zł do końca 2015 roku powstanie infrastruktura zdolna przetwarzać dziesiątki PB danych oraz centrum kompetencji skupiające doświadczone zespoły „data scientists”. (text mining, analiza sieci społecznych, analiza obrazów, uczenie maszynowe) Wybrane projekty ICM UW oparte o analizę danych 1 Alzheimer’s Disease Big Data DREAM Challenge Cel: identyfikacja biomarkerów pozwalających diagnozować i leczyć chorobę Alzheimera Dane: obrazowe (m.in. MRI mózgu), genetyczne (m.in. SNP), oceny funkcji poznawczych 2 Szacowanie krzywych laktacji i obserwacji odstających Cel: przewidywanie użytkowości mlecznej krów Dane: 80M+ rekordów opisujących krowy (np. geny, stado) i historię ich udojów (np. ilość i skład mleka) 3 SciVis Contest 2015 Cel: wizualizacja ewolucji wszechświata Dane: bilion (1012 ) obiektów (położenia i prędkości) × 100 klatek (oś czasu) = 3 PB danych (3 PB oznacza 9 m-cy kopiowania po Ethernecie, 1 tonę dysków HDD) Nauka a biznes Biznes ma dane i pytania, cierpi na brak data scientists. Nauka ma kompetencje i infrastrukturę, szuka ciekawych wyzwań. Podobne zagadnienia, metody, metodologie: rozumienie wartości (dużych) danych, potencjału w nich tkwiącego metody statystyczne, uczenie maszynowe, wizualizacja informacji przetwarzanie dużych danych przy użyciu Apache Hadoop/Spark metodologie prowadzenia projektów data-miningowych, np. CRISP-DM Wniosek – pasujemy do siebie jak nigdy dotąd! Zapraszam do współpracy. Dziękuję za uwagę i zapraszam do kontaktu! linkedin.com/in/bolikowski twitter.com/bolikowski [email protected] +48 22 8749419 Licencja c 2014 ICM, Uniwersytet Warszawski. Pewne prawa zastrzeżone. Prezentacja udostępniona na licencji CC BY-ND 3.0 PL. Wykorzystane zostały materiały graficzne z następujących źródeł: http://research.microsoft.com/en-us/collaboration/fourthparadigm/ (str. 2, cała książka na CC BY-SA 3.0, tu dozwolony użytek okładki) https://www.flickr.com/photos/petrifiedforestnps/13808113813 (str. 3, CC BY 2.0) https://www.flickr.com/photos/11304375@N07/2046228644 (str. 3, CC BY 2.0) https://www.flickr.com/photos/mollyali/2518828977 (str. 4, CC BY 2.0) https://www.flickr.com/photos/kewl/8475764430 (str. 6, CC BY 2.0) https://www.flickr.com/photos/iwannt/8596885627 (str. 6, CC BY 2.0) https://www.flickr.com/photos/canyonjam/111754387 (str. 8, CC BY 2.0) https://www.flickr.com/photos/usdagov/9042954477 (str. 8, CC BY 2.0)