Proponuję listę zadań z drzew decyzyjnych w technologii Microsoft

Transkrypt

Proponuję listę zadań z drzew decyzyjnych w technologii Microsoft
Hurtownie danych i data mining
Piotr Lipiński
Lista zadań nr 2 – BONUSOWA – drzewa decyzyjne w Microsoft SQL Server
Zadanie 1. (3 punkty bonusowe)
Stwórz projekt eksploracji danych z hurtowni danych Adventure Works DW 2012 według poniższej
instrukcji.
1. Uruchom Microsoft SQL Server Data Tools.
2. Utwórz nowy projekt ze wzorca Analysis Services Multidimensional and Data Mining Project
(wybierz w menu polecenie File -> New -> Project...)
3. Dodaj źródło danych (wybierz w panelu Solution Explorer polecenie Data Sources -> New Data
Source...). Źródło danych powinno prowadzić do bazy AdventureWorksDW2012 zainstalowanej na
lokalnym serwerze, analogicznie jak w poprzednich zadaniach dotyczących kostki OLAP.
4. Utwórz nowy widok źródła danych (wybierz w panelu Solution Explorer polecenie Data Source
Views -> New Data Source View...). Widok źródła danych powinien zawierać dwa elementy,
ProspectiveBuyer i vTargetEmail, ze źródła danych stworzonego w poprzednim punkcie.
5. Dodaj strukturę eksploracji danych (wybierz w panelu Solution Explorer polecenie Mining
Structures -> New Mining Structure...).
5.1. Wybierz metodę definicji struktury eksploracji danych "From existing relational database or
data warehouse". Kliknij Next.
5.2. Wybierz technikę eksploracji danych "Microsoft Decision Trees". Kliknij Next.
5.3. Wybierz widok źródła danych stworzony w poprzednim punkcie. Kliknij Next.
5.4. Wybierz tabelę z danymi wejściowymi vTargetMail (zaznacz przy niej opcje Case). Kliknij
Next.
5.5. Określ dane uczące.
5.5.1. Przy kolumnie CustomerKey zaznacz opcje Key.
5.5.2. Przy kolumnach Age, CommuteDistance, EnglishEducation, EnglishOccupation, Gender,
GeographyKey, HouseOwnerFlag, MaritalStatus, NumberCarsOwned, NumberChildrenAtHome,
Region, TotalChildren, YearlyIncome zaznacz opcje Input
5.5.3. Przy kolumnie BikeBuyer zaznacz opcje Predictable.
5.5.4. Przy kolumnach AddressLine1, AddressLine2, DateFirstPurchase, EmailAddress,
FirstName, LastName zaznacz opcje po lewej stronie.
5.5.5. Kliknij Next.
5.6. Określ typ danych uczących według poniższego zestawienia. Kliknij Next.
Address Line1 - Discrete - Text
Address Line2 - Discrete - Text
Age - Continuous - Long
Bike Buyer - Discrete - Long
Commute Distance - Discrete - Text
CustomerKey - Key - Long
DateLastPurchase - Continuous - Date
Email Address - Discrete - Text
English Education - Discrete - Text
English Occupation - Discrete - Text
FirstName - Discrete - Text
Gender - Discrete - Text
Geography Key - Discrete - Text
House Owner Flag - Discrete - Text
Last Name - Discrete - Text
Marital Status - Discrete - Text
Number Cars Owned - Discrete - Long
Number Children At Home - Discrete - Long
Region - Discrete - Text
Total Children - Discrete - Long
Yearly Income - Continuous - Double
5.7. Określ dane testowe. Ustaw "Percentage of data for testing" na 30% i "Maximum number of
cases in testing data set" na 1000. Kliknij Next.
5.8. Kliknij Finish.
6. Stworzony projekt należy wdrożyć na serwerze analizy danych (analogicznie jak w poprzednich
zadaniach dotyczących kostki OLAP, ustaw parametry połączenia z serwerem analizy danych i
wybierz w panelu Solution Explorer polecenie Deploy).
7. Otwórz stworzoną strukturę eksploracji danych i przejdź do zakładki Mining Model Viewer.
Zapoznaj się ze strukturą utworzonego drzewa decyzyjnego (zakładka Decision Tree) oraz z siecią
zależności (Dependency Network).
8. Przejdź do zakładki Mining Accuracy Chart. Zapoznaj się z dokładnością stworzonego modelu.
Zadanie 2. (3 punkty bonusowe)
Stwórz własny projekt eksploracji danych - klasyfikacji danych przy użyciu techniki Microsoft
Decision Trees - korzystając, podobnie jak w poprzednim zadaniu, z hurtowni danych Adventure
Works DW 2012. Możesz ponownie użyć kolumny BikeBuyer z vTargetEmail, ale wybrać inne
kolumny danych wejściowych.
WSKAZÓWKI:
Wiele wskazówek technicznych można znaleźć w tutorialu Basic Data Minig Tutorial
udostępnianym
przez
Microsoft
na
stronie
https://msdn.microsoft.com/enus/library/ms167167%28v=sql.110%29.aspx.