Proponuję listę zadań z drzew decyzyjnych w technologii Microsoft
Transkrypt
Proponuję listę zadań z drzew decyzyjnych w technologii Microsoft
Hurtownie danych i data mining Piotr Lipiński Lista zadań nr 2 – BONUSOWA – drzewa decyzyjne w Microsoft SQL Server Zadanie 1. (3 punkty bonusowe) Stwórz projekt eksploracji danych z hurtowni danych Adventure Works DW 2012 według poniższej instrukcji. 1. Uruchom Microsoft SQL Server Data Tools. 2. Utwórz nowy projekt ze wzorca Analysis Services Multidimensional and Data Mining Project (wybierz w menu polecenie File -> New -> Project...) 3. Dodaj źródło danych (wybierz w panelu Solution Explorer polecenie Data Sources -> New Data Source...). Źródło danych powinno prowadzić do bazy AdventureWorksDW2012 zainstalowanej na lokalnym serwerze, analogicznie jak w poprzednich zadaniach dotyczących kostki OLAP. 4. Utwórz nowy widok źródła danych (wybierz w panelu Solution Explorer polecenie Data Source Views -> New Data Source View...). Widok źródła danych powinien zawierać dwa elementy, ProspectiveBuyer i vTargetEmail, ze źródła danych stworzonego w poprzednim punkcie. 5. Dodaj strukturę eksploracji danych (wybierz w panelu Solution Explorer polecenie Mining Structures -> New Mining Structure...). 5.1. Wybierz metodę definicji struktury eksploracji danych "From existing relational database or data warehouse". Kliknij Next. 5.2. Wybierz technikę eksploracji danych "Microsoft Decision Trees". Kliknij Next. 5.3. Wybierz widok źródła danych stworzony w poprzednim punkcie. Kliknij Next. 5.4. Wybierz tabelę z danymi wejściowymi vTargetMail (zaznacz przy niej opcje Case). Kliknij Next. 5.5. Określ dane uczące. 5.5.1. Przy kolumnie CustomerKey zaznacz opcje Key. 5.5.2. Przy kolumnach Age, CommuteDistance, EnglishEducation, EnglishOccupation, Gender, GeographyKey, HouseOwnerFlag, MaritalStatus, NumberCarsOwned, NumberChildrenAtHome, Region, TotalChildren, YearlyIncome zaznacz opcje Input 5.5.3. Przy kolumnie BikeBuyer zaznacz opcje Predictable. 5.5.4. Przy kolumnach AddressLine1, AddressLine2, DateFirstPurchase, EmailAddress, FirstName, LastName zaznacz opcje po lewej stronie. 5.5.5. Kliknij Next. 5.6. Określ typ danych uczących według poniższego zestawienia. Kliknij Next. Address Line1 - Discrete - Text Address Line2 - Discrete - Text Age - Continuous - Long Bike Buyer - Discrete - Long Commute Distance - Discrete - Text CustomerKey - Key - Long DateLastPurchase - Continuous - Date Email Address - Discrete - Text English Education - Discrete - Text English Occupation - Discrete - Text FirstName - Discrete - Text Gender - Discrete - Text Geography Key - Discrete - Text House Owner Flag - Discrete - Text Last Name - Discrete - Text Marital Status - Discrete - Text Number Cars Owned - Discrete - Long Number Children At Home - Discrete - Long Region - Discrete - Text Total Children - Discrete - Long Yearly Income - Continuous - Double 5.7. Określ dane testowe. Ustaw "Percentage of data for testing" na 30% i "Maximum number of cases in testing data set" na 1000. Kliknij Next. 5.8. Kliknij Finish. 6. Stworzony projekt należy wdrożyć na serwerze analizy danych (analogicznie jak w poprzednich zadaniach dotyczących kostki OLAP, ustaw parametry połączenia z serwerem analizy danych i wybierz w panelu Solution Explorer polecenie Deploy). 7. Otwórz stworzoną strukturę eksploracji danych i przejdź do zakładki Mining Model Viewer. Zapoznaj się ze strukturą utworzonego drzewa decyzyjnego (zakładka Decision Tree) oraz z siecią zależności (Dependency Network). 8. Przejdź do zakładki Mining Accuracy Chart. Zapoznaj się z dokładnością stworzonego modelu. Zadanie 2. (3 punkty bonusowe) Stwórz własny projekt eksploracji danych - klasyfikacji danych przy użyciu techniki Microsoft Decision Trees - korzystając, podobnie jak w poprzednim zadaniu, z hurtowni danych Adventure Works DW 2012. Możesz ponownie użyć kolumny BikeBuyer z vTargetEmail, ale wybrać inne kolumny danych wejściowych. WSKAZÓWKI: Wiele wskazówek technicznych można znaleźć w tutorialu Basic Data Minig Tutorial udostępnianym przez Microsoft na stronie https://msdn.microsoft.com/enus/library/ms167167%28v=sql.110%29.aspx.