Jak big data rewolucjonizuję naukę oraz

Transkrypt

Jak big data rewolucjonizuję naukę oraz
Jak „Big Data” rewolucjonizuje naukę
oraz współpracę centrów badawczych
z biznesem?
dr Łukasz Bolikowski
ICM, Uniwersytet Warszawski
Big Data Summit, 26 listopada 2014
Czwarty paradygmat
Cztery paradygmaty w nauce (Jim Gray, 2007):
1
Empiryczny – opis zjawisk naturalnych
(ostatnie tysiąclecia)
2
Teoretyczny – budowa modeli i uogólnień
(ostatnie stulecia)
3
Obliczeniowy – symulacje złożonych zjawisk
(ostatnie dekady)
4
Eksploracja danych – badania „data-intensive”
(ostatnie lata)
Duże dane w nauce
Duży rozmiar
1000 Genomes Project – 200 TB danych genomicznych
NASA Earth Exchange – 20 TB danych o Ziemi
Duże tempo zmian
Wielki Zderzacz Hadronów (CERN) – 1 PB/s (w szczycie)
Sekwenatory DNA – setki GB tygodniowo
Duża różnorodność
Archiwum prognozy pogody ICM – 1000+ rodzajów pól
Przyczyny zmiany paradygmatu
Przejście od „analogowego” do „cyfrowego”
dramatycznie zwiększyło podaż danych:
książki, komunikacja naukowa
dane medyczne
Pojawiły się technologie generujące duże dane:
urządzenia mobilne
sieci społecznościowe
sieci czujników (inteligentne miasta)
Naukowcy uświadomili sobie, że eksploracja dużych
zbiorów danych może prowadzić do odkryć:
dane → informacja → wiedza
Skutki zmiany paradygmatu
Potrzebujemy. . .
. . . nowych infrastruktur obliczeniowych
duże klastry do badań opartych o dane
systemy do publikacji i dzielenia się danymi
. . . nowych metod i algorytmów przetwarzania
algorytmy w modelu MapReduce
szybkie rozwiązania in-memory
. . . nowych umiejętności i kompetencji
przetwarzanie dużych danych, programowanie
uczenie maszynowe, statystyka, matematyka
wizualizacja informacji, prezentacja wyników
ciekawość, pasja, żyłka eksploratora
ICM, Uniwersytet Warszawski
Początki – trzeci paradygmat
Założone 20 lat temu jako centrum superkomputerowe
prowadzące symulacje złożonych zjawisk przy użyciu
modeli matematycznych i superkomputerów.
Prawdziwie interdyscyplinarny zespół 150+ naukowców
i programistów tworzących rozwiązania w obszarach tak
różnych jak:
transport lotniczy, bioinformatyka, modelowanie klimatu,
medycyna wspomagana komputerowo, kosmologia, biblioteki cyfrowe, projektowanie leków, epidemiologia, rolnictwo, fizyka wysokich energii, uczenie maszynowe,
projektowanie materiałów, neurobiologia, analiza sieci
społecznych, prognozowanie pogody, . . . i wiele innych.
ICM, Uniwersytet Warszawski
Przyszłość – czwarty paradygmat
ICM staje się centrum danych badawczych. W ramach projektu OCEAN o początkowym budżecie 80 mln zł do końca
2015 roku powstanie infrastruktura zdolna przetwarzać
dziesiątki PB danych oraz centrum kompetencji skupiające doświadczone zespoły „data scientists”.
(text mining, analiza sieci społecznych, analiza obrazów, uczenie maszynowe)
Wybrane projekty ICM UW oparte o analizę danych
1
Alzheimer’s Disease Big Data DREAM Challenge
Cel: identyfikacja biomarkerów pozwalających
diagnozować i leczyć chorobę Alzheimera
Dane: obrazowe (m.in. MRI mózgu), genetyczne
(m.in. SNP), oceny funkcji poznawczych
2
Szacowanie krzywych laktacji i obserwacji odstających
Cel: przewidywanie użytkowości mlecznej krów
Dane: 80M+ rekordów opisujących krowy (np. geny,
stado) i historię ich udojów (np. ilość i skład mleka)
3
SciVis Contest 2015
Cel: wizualizacja ewolucji wszechświata
Dane: bilion (1012 ) obiektów (położenia i prędkości)
× 100 klatek (oś czasu) = 3 PB danych
(3 PB oznacza 9 m-cy kopiowania po Ethernecie, 1 tonę dysków HDD)
Nauka a biznes
Biznes ma dane i pytania, cierpi na brak data scientists.
Nauka ma kompetencje i infrastrukturę, szuka ciekawych wyzwań.
Podobne zagadnienia, metody, metodologie:
rozumienie wartości (dużych) danych, potencjału w nich tkwiącego
metody statystyczne, uczenie maszynowe, wizualizacja informacji
przetwarzanie dużych danych przy użyciu Apache Hadoop/Spark
metodologie prowadzenia projektów data-miningowych, np. CRISP-DM
Wniosek – pasujemy do siebie jak nigdy dotąd! Zapraszam do współpracy.
Dziękuję za uwagę i zapraszam do kontaktu!
linkedin.com/in/bolikowski
twitter.com/bolikowski
[email protected]
+48 22 8749419
Licencja
c 2014 ICM, Uniwersytet Warszawski. Pewne prawa zastrzeżone. Prezentacja udostępniona na licencji CC BY-ND 3.0 PL. Wykorzystane zostały
materiały graficzne z następujących źródeł:
http://research.microsoft.com/en-us/collaboration/fourthparadigm/ (str. 2, cała książka na CC BY-SA 3.0, tu dozwolony użytek okładki)
https://www.flickr.com/photos/petrifiedforestnps/13808113813 (str. 3, CC BY 2.0)
https://www.flickr.com/photos/11304375@N07/2046228644 (str. 3, CC BY 2.0)
https://www.flickr.com/photos/mollyali/2518828977 (str. 4, CC BY 2.0)
https://www.flickr.com/photos/kewl/8475764430 (str. 6, CC BY 2.0)
https://www.flickr.com/photos/iwannt/8596885627 (str. 6, CC BY 2.0)
https://www.flickr.com/photos/canyonjam/111754387 (str. 8, CC BY 2.0)
https://www.flickr.com/photos/usdagov/9042954477 (str. 8, CC BY 2.0)