Hadoop Zaliczenie

Transkrypt

Hadoop Zaliczenie
Hadoop
Zaliczenie
12.11.2012 r.
Zasady
Zadanie zaliczeniowe jest zadaniem indywidualnym. W czasie pisanie nie
można komunikować się z innymi osobami. Dozwolone jest używanie środowiska eclipse, konsoli oraz dokumentacji dla języka Java. Za całe zadanie
można uzyskać maksymalnie 25 punktów. Jeśli ktoś zostanie przyłapany
na łamaniu zasad, jego rozwiązanie zostanie odebrane, ocenione, a od jego
wyniku odjęte zostanie 25 punktów.
Opis zadania
Twoim zadaniem jest napisać program przy pomocy frameworka Hadoop,
którzy dla podanych danych wejściowych (katalog z plikami tekstowymi)
przygotuje listę par słów występujących w tych tekstach obok siebie, wraz z
liczbą wystąpień, posortowanych według liczby wystąpień danej pary. Para
powinna być zapisana w kolejności alfabetycznej. Należy zamienić wszystkie
litery na małe i usunąć znaki przestankowe i cyfry. Np dla tekstu
Ala ma kota, a kot ma Alę. Ala ma też psa. Ala lubi psa, ale kot nie lubi
psa.
wynik powinien być następujący:
ala ma 2
lubi psa 2
kota ma 1
ala psa 1
ale psa 1
a kota 1
a kot 1
kot ma 1
alę ma 1
ma też 1
psa też 1
1
ala
ale
kot
nie
lubi 1
kot 1
nie 1
lubi 1
Przygotowanie projektu
Można wykorzystać zamieszczony na stronie przedmiotu projekt intro lub
stworzyć własny. Projekt powinien być umieszczony w przestrzeni roboczej
(workspace), której nazwa będzie taka sama jak numer indeksu studenta.
Na koniec zajęć cała przestrzeń robocza musi zostać nagrana na dostarczony
przez prowadzącego nośnik.
Wymagania dotyczące programu
Program w ramach projektu powinien posiadać nazwę zgodną z wykonywanym działaniem. Nazwy klas i zmiennych powinny być samodokumentujące. Każdy klasa powinna posiadać javadoc opisujący jej działanie, dane
wejściowe i wyjściowe. Oceniana będzie zrozumiałość kodu, więc każdy (sensowny) komentarz może przyczynić się do podniesienie oceny.
Dane testowe
Jako dane testowe należy wykorzystać dane wykorzystywane podczas zajęć z Naive Wordcount (https://ophelia.cs.put.poznan.pl/webdav/dm/
students/winter_2012/labs/02/data.tar.gz)—dopuszczalne są zarówno
depesze prasowe jak i dane z Wikipedii. Wynik programu należy pobrać z
systemu plików hdfs i dodać do projektu jako plik output.txt.
2