Hadoop Zaliczenie
Transkrypt
Hadoop Zaliczenie
Hadoop Zaliczenie 12.11.2012 r. Zasady Zadanie zaliczeniowe jest zadaniem indywidualnym. W czasie pisanie nie można komunikować się z innymi osobami. Dozwolone jest używanie środowiska eclipse, konsoli oraz dokumentacji dla języka Java. Za całe zadanie można uzyskać maksymalnie 25 punktów. Jeśli ktoś zostanie przyłapany na łamaniu zasad, jego rozwiązanie zostanie odebrane, ocenione, a od jego wyniku odjęte zostanie 25 punktów. Opis zadania Twoim zadaniem jest napisać program przy pomocy frameworka Hadoop, którzy dla podanych danych wejściowych (katalog z plikami tekstowymi) przygotuje listę par słów występujących w tych tekstach obok siebie, wraz z liczbą wystąpień, posortowanych według liczby wystąpień danej pary. Para powinna być zapisana w kolejności alfabetycznej. Należy zamienić wszystkie litery na małe i usunąć znaki przestankowe i cyfry. Np dla tekstu Ala ma kota, a kot ma Alę. Ala ma też psa. Ala lubi psa, ale kot nie lubi psa. wynik powinien być następujący: ala ma 2 lubi psa 2 kota ma 1 ala psa 1 ale psa 1 a kota 1 a kot 1 kot ma 1 alę ma 1 ma też 1 psa też 1 1 ala ale kot nie lubi 1 kot 1 nie 1 lubi 1 Przygotowanie projektu Można wykorzystać zamieszczony na stronie przedmiotu projekt intro lub stworzyć własny. Projekt powinien być umieszczony w przestrzeni roboczej (workspace), której nazwa będzie taka sama jak numer indeksu studenta. Na koniec zajęć cała przestrzeń robocza musi zostać nagrana na dostarczony przez prowadzącego nośnik. Wymagania dotyczące programu Program w ramach projektu powinien posiadać nazwę zgodną z wykonywanym działaniem. Nazwy klas i zmiennych powinny być samodokumentujące. Każdy klasa powinna posiadać javadoc opisujący jej działanie, dane wejściowe i wyjściowe. Oceniana będzie zrozumiałość kodu, więc każdy (sensowny) komentarz może przyczynić się do podniesienie oceny. Dane testowe Jako dane testowe należy wykorzystać dane wykorzystywane podczas zajęć z Naive Wordcount (https://ophelia.cs.put.poznan.pl/webdav/dm/ students/winter_2012/labs/02/data.tar.gz)—dopuszczalne są zarówno depesze prasowe jak i dane z Wikipedii. Wynik programu należy pobrać z systemu plików hdfs i dodać do projektu jako plik output.txt. 2