Wykorzystanie drzew decyzyjnych w analizie danych z SI Syriusz
Transkrypt
Wykorzystanie drzew decyzyjnych w analizie danych z SI Syriusz
Michał Piotrowicz Wykorzystanie drzew decyzyjnych w analizie danych z SI Syriusz Predictive Solutions Jeden z urzędów pracy postanowił przeanalizować efektywność zatrudnieniową szkoleń organizowanych w 2011 r. aby skuteczniej planować i organizować tę formę aktywizacyjną w przyszłości. Dla potrzeb analizy wykorzystano dane z SI Syriusz dotyczące organizowanych szkoleń oraz dane dotyczące wykreśleń osób bezrobotnych z rejestru powiatowego urzędu pracy (dostępne dzięki PS DAS). Podczas analizy wykorzystaliśmy technikę drzew decyzyjnych. Jest to bardzo wydajna i jednocześnie skuteczna metoda analizy. Po pierwsze algorytm drzew decyzyjnych automatycznie dobiera te zmienne, które najistotniej różnicują zmienną zależną (w tym konkretnym wypadku zmienną: Podjęcie pracy do 3 miesięcy o momentu zakończenia szkolenia). Dzięki temu skraca czas na przeprowadzenie analizy i eliminuje konieczność generowania szeregu tabel krzyżowych, aby sprawdzić siłę wpływu poszczególnych zmiennych na zmienną zależną. Po drugie, drzewa decyzyjne nie wymagają zaawansowanej wiedzy analitycznej czy statystycznej. Wystarczy wybrać odpowiedni algorytm, zaznaczyć opcje rozwoju drzewa i wybrać zmienne, które nas interesują. Trzecią zaletą drzew decyzyjnych jest to, że wyniki grupowania przedstawiane są w bardzo syntetyczny i łatwy w interpretacji sposób. Czwartą zaletę opiszemy na końcu tego krótkiego artykułu. W przypadku analizy skuteczności szkoleń, spośród wielu dostępnych zmiennych z SI Syriusz, wykorzystano cechy, które podporządkować można do grupy zmiennych charakteryzujących szkolenie oraz grupy zmiennych charakteryzujących uczestnika szkolenia. Grupa zmiennych Wybrane zmienne Cechy szkolenia Obszar szkolenia Forma zajęć Wykształcenie osoby Stan cywilny Wiek w latach Staż pracy (w miesiącach) Osoba w szczególnej sytuacji na rynku pracy Zawód do statystyk - wielka grupa Zamieszkanie: miasto/wieś Cechy uczestników szkolenia Wyniki selekcji przedstawiamy poniżej. Wykorzystanie drzew decyzyjnych w analizie danych z SI Syriusz 2 Podjęcie pracy do 3 mies. od zakończenia szkolenia Węzeł 0 Kategoria % Nie 70,2 Tak 29,8 Ogółem 100,0 Nie Tak n 413 175 588 – Obszar szkolenia Skorygowana wartość P = 0,000; Chi-kwadrat = 327,260; df = 3 Inne; Pozostałe usługi; Obsługa maszyn i urządzeń; Informatyka i wykorzystanie komputerów; Usługi transportowe (w tym kursy prawa jazdy); Języki obce; Opieka zdrowotna Węzeł 1 Kategoria % Nie 78,8 Tak 21,2 Ogółem 25,7 n 119 32 151 Przedsiębiorczość Węzeł 2 Kategoria % Nie 5,6 Tak 94,4 Ogółem 21,3 Operatorzy sprzętu ciężkiego; Sprzedaż, marketing, public relations, handel nieruchomościami; Rachunkowość, księgowość, bankowość, ubezpieczenia, analiza inwestycyjna; Prace sekretarskie i biurowe; Usługi krawieckie, obuwnicze; Usługi fryzjerskie, kosmetyczne Węzeł 3 Kategoria % Nie 90,1 Tak 9,9 Ogółem 39,6 n 7 118 125 n 210 23 233 − Operatorzy wózków jezdniowych; Budownictwo Węzeł 4 Kategoria % Nie 97,5 Tak 2,5 Ogółem 13,4 n 77 2 79 Wykształcenie Skorygowana wartość P = 0,005; Chi-kwadrat = 10,569; df = 1 <= średnie ogólnokształcące Węzeł 5 Kategoria % Nie 97,1 Tak 2,9 Ogółem 17,9 > średnie ogólnokształcące n 102 3 105 Węzeł 6 Kategoria % Nie 84,4 Tak 15,6 Ogółem 21,8 n 108 20 128 Przeciętna skuteczność szkolenia, mierzona faktem podjęcia zatrudnienia osoby do 3 miesięcy od zakończenia udziału w szkoleniu, wyniosła niemal 30% (29,8%). Informuje o tym rozkład zmiennej prezentowany na samej górze dendrogramu (w tzw. pniu drzewa). Spośród listy dostępnych zmiennych algorytm wybrał tylko dwie cechy, które różnicują skuteczność aktywizacji bezrobotnych. Na tej podstawie drzewo wyróżnia dwa poziomy gałęzi, przy czym drugi poziom wyrasta jedynie z węzła 3. 1. Rekodowanie było konieczne, gdyż pierwotna jakość zmiennej nie pozwalała na wykonanie analizy. Niemal połowa szkoleń była błędnie klasyfikowana jako kategoria inne – niezależnie od występowania innej, bardziej odpowiedniej kategorii definiującej obszar danego konkretnego szkolenia. Czynność tą należało wykonać manualnie. W przypadku 588 szkoleń rekodowanie zajęło ok. 15 minut. Przejdźmy do analizy wygenerowanego drzewa. Najistotniejszą zmienną różnicującą powodzenie aktywizacji jest obszar szkolenia (zmienna wymagała od nas uprzedniego rekodowania1). W zależności od obszaru szkolenia przewidywana skuteczność szkoleń wynosi od 2,5%, nawet do 94%. Informują o tym rozkłady procentowe kategorii zmiennej zależnej w poszczególnych węzłach drzewa (węzły od 1 do 4). Najskuteczniejsze są szkolenia z zakresu przedsiębiorczości (skuteczność na poziomie 94%). Najprawdopodobniej jednak szkolenia w tym zakresie stanowią element szerszego wsparcia urzędu, np. udzielenia dotacji. Warto to zweryfikować w oparciu o wiedzę ekspercką pracowników urzędu pracy lub w oparciu o przegląd danych SI Syriusz dla wybranych ID uczestników szkoleń z przedsiębiorczości. Ponad 20-procentową skuteczność zatrudnieniową mają zaś szkolenia z następujących kategorii: obsługa maszyn i urządzeń, informatyka i wykorzystanie komputerów, usługi transportowe (w tym kursy prawa jazdy), języki obce, usługi opiekuńcze i zdrowotne oraz kategoria inne. W przypadku szkoleń z obszarów: operatorzy sprzętu ciężkiego, sprzedaży, handlu nieruchomościami, marketingu i PR, prac biurowo-księgowych oraz usług rzemieślniczych – czyli kategorii, która charakteryzuje się przeciętną skuteczność na poziomie niespełna 10%, kolejną istotną cechą determinującą skuteczność jest poziom wykształcenia uczestnika. Chcąc zwiększyć skuteczność tego typu szkoleń, warto w większym stopniu adresować je do osób dysponujących wykształcaniem co najmniej ogólnokształcącym (gdzie przewidywana skuteczność wynosi nie 10%, a ponad 15%). Wykorzystanie drzew decyzyjnych w analizie danych z SI Syriusz 3 Kolejną zaletą drzew decyzyjnych jest możliwość wykorzystania schematu grupowania do konstruowania modeli predykcyjnych – to jest modeli, które pozwolą przewidywać skuteczność szkoleń dla poszczególnych osób bezrobotnych. Pod tym względem dendrogram pełni rolę grafu, który dostarcza nam jasne reguły do zastosowania operacyjnego, np.: zz jeżeli szkolenie dotyczy przedsiębiorczości, szanse, że uczestnik podejmie pracę lub zatrudnienie wyniosą 94,4%; zz jeśli szkolenie dotyczy obszaru: operatorzy wózków jezdniowych lub budownictwo, przewidywana skuteczność szkolenia wyniesie tylko 2,5%. Niemniej ważne jest także to, że można oszacować szanse na podjęcie zatrudnienia osób, które będą brały udział w szkoleniu z uwzględnieniem wskaźnika ryzyka – to jest błędu niewłaściwego zaklasyfikowania danej osoby. W przypadku utworzonego drzewa ryzyko jest dość niewielkie, wynosi 11%. Oznacza to, że klasyfikując osoby bezrobotne na podstawie zdefiniowanego schematu grupowania na każde 100 osób, określając ich szanse na aktywizację, pomylimy się tylko 11 razy. Pozostałe 89 razy algorytm powinien trafnie przyporządkować szanse na aktywizację danej osoby. Rysunek 1. Algorytm budowy drzewa: CHAID. Zmienna zależna: Podjęcie pracy do 3 mies. od zakończenia szkolenia a. Ryzyko b.Macierz klasyfikacji Ocena Błąd standardowy ,109 ,013 Obserwowana Nie Tak Procent ogółem Przewidywana Nie Tak Procent poprawnych 406 57 78,7% 7 118 21,3% 98,3% 67,4% 89,1% Model predykcyjny, taki jak model zbudowany w oparciu o technikę drzew decyzyjnych, oczywiście nie ma charakteru deterministycznego i nie gwarantuje absolutnej skuteczności zawsze i wszędzie. Istnieje szereg cech, które mogą różnicować skuteczność aktywizacji, a których nie ma w SI Syriusz. Zasadnicze znaczenie może mieć tutaj postawa samej osoby bezrobotnej, jej aktywność i poziom determinacji do podjęcia zatrudnienia. Niemniej technikę tę należy postrzegać jako efektywne narzędzie służące do wspierania procesów decyzyjnych w oparciu o analizę danych (evidence based policy). Z pewnością technika ta stanowi interesującą i godną polecenia alternatywę dla osób, od których oczekuje się tego typu analiz, a które nie dysponują zaawansowanym warsztatem analitycznym. Predictive Solutions ul. Racławicka 58 · 30-017 Kraków tel. 12 636 96 80 · faks wew. 102 e-mail [[email protected]] [www.predictivesolutions.pl]