Wykorzystanie drzew decyzyjnych w analizie danych z SI Syriusz

Transkrypt

Wykorzystanie drzew decyzyjnych w analizie danych z SI Syriusz
Michał Piotrowicz
Wykorzystanie drzew decyzyjnych
w analizie danych z SI Syriusz
Predictive Solutions
Jeden z urzędów pracy postanowił przeanalizować efektywność zatrudnieniową szkoleń
organizowanych w 2011 r. aby skuteczniej planować i organizować tę formę aktywizacyjną
w przyszłości. Dla potrzeb analizy wykorzystano dane z SI Syriusz dotyczące organizowanych
szkoleń oraz dane dotyczące wykreśleń osób bezrobotnych z rejestru powiatowego urzędu
pracy (dostępne dzięki PS DAS).
Podczas analizy wykorzystaliśmy technikę drzew decyzyjnych. Jest to bardzo wydajna i jednocześnie skuteczna metoda analizy. Po pierwsze algorytm drzew decyzyjnych automatycznie dobiera te zmienne, które najistotniej różnicują zmienną zależną (w tym konkretnym
wypadku zmienną: Podjęcie pracy do 3 miesięcy o momentu zakończenia szkolenia). Dzięki
temu skraca czas na przeprowadzenie analizy i eliminuje konieczność generowania szeregu tabel krzyżowych, aby sprawdzić siłę wpływu poszczególnych zmiennych na zmienną
zależną. Po drugie, drzewa decyzyjne nie wymagają zaawansowanej wiedzy analitycznej
czy statystycznej. Wystarczy wybrać odpowiedni algorytm, zaznaczyć opcje rozwoju drzewa
i wybrać zmienne, które nas interesują. Trzecią zaletą drzew decyzyjnych jest to, że wyniki
grupowania przedstawiane są w bardzo syntetyczny i łatwy w interpretacji sposób. Czwartą
zaletę opiszemy na końcu tego krótkiego artykułu.
W przypadku analizy skuteczności szkoleń, spośród wielu dostępnych zmiennych z SI Syriusz,
wykorzystano cechy, które podporządkować można do grupy zmiennych charakteryzujących
szkolenie oraz grupy zmiennych charakteryzujących uczestnika szkolenia.
Grupa zmiennych
Wybrane zmienne
Cechy szkolenia
Obszar szkolenia
Forma zajęć
Wykształcenie osoby
Stan cywilny
Wiek w latach
Staż pracy (w miesiącach)
Osoba w szczególnej sytuacji na rynku pracy
Zawód do statystyk - wielka grupa
Zamieszkanie: miasto/wieś
Cechy uczestników
szkolenia
Wyniki selekcji przedstawiamy poniżej.
Wykorzystanie drzew decyzyjnych w analizie danych z SI Syriusz
2
Podjęcie pracy do 3 mies.
od zakończenia szkolenia
Węzeł 0
Kategoria
%
Nie
70,2
Tak
29,8
Ogółem 100,0
Nie
Tak
n
413
175
588
–
Obszar szkolenia
Skorygowana wartość P = 0,000;
Chi-kwadrat = 327,260; df = 3
Inne; Pozostałe usługi; Obsługa
maszyn i urządzeń; Informatyka
i wykorzystanie komputerów; Usługi
transportowe (w tym kursy prawa
jazdy); Języki obce; Opieka zdrowotna
Węzeł 1
Kategoria
%
Nie
78,8
Tak
21,2
Ogółem
25,7
n
119
32
151
Przedsiębiorczość
Węzeł 2
Kategoria
%
Nie
5,6
Tak
94,4
Ogółem
21,3
Operatorzy sprzętu ciężkiego;
Sprzedaż, marketing, public
relations, handel nieruchomościami;
Rachunkowość, księgowość,
bankowość, ubezpieczenia, analiza
inwestycyjna; Prace sekretarskie
i biurowe; Usługi krawieckie,
obuwnicze; Usługi fryzjerskie,
kosmetyczne
Węzeł 3
Kategoria
%
Nie
90,1
Tak
9,9
Ogółem
39,6
n
7
118
125
n
210
23
233
−
Operatorzy wózków
jezdniowych;
Budownictwo
Węzeł 4
Kategoria
%
Nie
97,5
Tak
2,5
Ogółem
13,4
n
77
2
79
Wykształcenie
Skorygowana wartość P = 0,005;
Chi-kwadrat = 10,569; df = 1
<= średnie
ogólnokształcące
Węzeł 5
Kategoria
%
Nie
97,1
Tak
2,9
Ogółem
17,9
> średnie ogólnokształcące
n
102
3
105
Węzeł 6
Kategoria
%
Nie
84,4
Tak
15,6
Ogółem
21,8
n
108
20
128
Przeciętna skuteczność szkolenia, mierzona faktem podjęcia zatrudnienia osoby do 3 miesięcy od zakończenia udziału w szkoleniu, wyniosła niemal 30% (29,8%). Informuje o tym
rozkład zmiennej prezentowany na samej górze dendrogramu (w tzw. pniu drzewa). Spośród
listy dostępnych zmiennych algorytm wybrał tylko dwie cechy, które różnicują skuteczność
aktywizacji bezrobotnych. Na tej podstawie drzewo wyróżnia dwa poziomy gałęzi, przy czym
drugi poziom wyrasta jedynie z węzła 3.
1.
Rekodowanie było konieczne, gdyż
pierwotna jakość zmiennej nie pozwalała
na wykonanie analizy. Niemal połowa szkoleń
była błędnie klasyfikowana jako kategoria
inne – niezależnie od występowania innej,
bardziej odpowiedniej kategorii definiującej
obszar danego konkretnego szkolenia.
Czynność tą należało wykonać manualnie.
W przypadku 588 szkoleń rekodowanie
zajęło ok. 15 minut.
Przejdźmy do analizy wygenerowanego drzewa. Najistotniejszą zmienną różnicującą powodzenie aktywizacji jest obszar szkolenia (zmienna wymagała od nas uprzedniego rekodowania1). W zależności od obszaru szkolenia przewidywana skuteczność szkoleń wynosi
od 2,5%, nawet do 94%. Informują o tym rozkłady procentowe kategorii zmiennej zależnej
w poszczególnych węzłach drzewa (węzły od 1 do 4).
Najskuteczniejsze są szkolenia z zakresu przedsiębiorczości (skuteczność na poziomie 94%).
Najprawdopodobniej jednak szkolenia w tym zakresie stanowią element szerszego wsparcia urzędu, np. udzielenia dotacji. Warto to zweryfikować w oparciu o wiedzę ekspercką
pracowników urzędu pracy lub w oparciu o przegląd danych SI Syriusz dla wybranych ID
uczestników szkoleń z przedsiębiorczości.
Ponad 20-procentową skuteczność zatrudnieniową mają zaś szkolenia z następujących
kategorii: obsługa maszyn i urządzeń, informatyka i wykorzystanie komputerów, usługi
transportowe (w tym kursy prawa jazdy), języki obce, usługi opiekuńcze i zdrowotne oraz
kategoria inne.
W przypadku szkoleń z obszarów: operatorzy sprzętu ciężkiego, sprzedaży, handlu nieruchomościami, marketingu i PR, prac biurowo-księgowych oraz usług rzemieślniczych – czyli
kategorii, która charakteryzuje się przeciętną skuteczność na poziomie niespełna 10%, kolejną
istotną cechą determinującą skuteczność jest poziom wykształcenia uczestnika. Chcąc
zwiększyć skuteczność tego typu szkoleń, warto w większym stopniu adresować je do osób
dysponujących wykształcaniem co najmniej ogólnokształcącym (gdzie przewidywana skuteczność wynosi nie 10%, a ponad 15%).
Wykorzystanie drzew decyzyjnych w analizie danych z SI Syriusz
3
Kolejną zaletą drzew decyzyjnych jest możliwość wykorzystania schematu grupowania do konstruowania modeli predykcyjnych – to jest modeli, które pozwolą przewidywać skuteczność
szkoleń dla poszczególnych osób bezrobotnych. Pod tym względem dendrogram pełni rolę
grafu, który dostarcza nam jasne reguły do zastosowania operacyjnego, np.:
zz jeżeli szkolenie dotyczy przedsiębiorczości, szanse, że uczestnik podejmie pracę lub
zatrudnienie wyniosą 94,4%;
zz jeśli szkolenie dotyczy obszaru: operatorzy wózków jezdniowych lub budownictwo, przewidywana skuteczność szkolenia wyniesie tylko 2,5%.
Niemniej ważne jest także to, że można oszacować szanse na podjęcie zatrudnienia osób,
które będą brały udział w szkoleniu z uwzględnieniem wskaźnika ryzyka – to jest błędu niewłaściwego zaklasyfikowania danej osoby. W przypadku utworzonego drzewa ryzyko jest
dość niewielkie, wynosi 11%. Oznacza to, że klasyfikując osoby bezrobotne na podstawie zdefiniowanego schematu grupowania na każde 100 osób, określając ich szanse na aktywizację,
pomylimy się tylko 11 razy. Pozostałe 89 razy algorytm powinien trafnie przyporządkować
szanse na aktywizację danej osoby.
Rysunek 1.
Algorytm budowy drzewa: CHAID.
Zmienna zależna: Podjęcie pracy do 3 mies.
od zakończenia szkolenia
a. Ryzyko
b.Macierz klasyfikacji
Ocena
Błąd standardowy
,109
,013
Obserwowana
Nie
Tak
Procent ogółem
Przewidywana
Nie
Tak
Procent poprawnych
406
57
78,7%
7
118
21,3%
98,3%
67,4%
89,1%
Model predykcyjny, taki jak model zbudowany w oparciu o technikę drzew decyzyjnych,
oczywiście nie ma charakteru deterministycznego i nie gwarantuje absolutnej skuteczności
zawsze i wszędzie. Istnieje szereg cech, które mogą różnicować skuteczność aktywizacji,
a których nie ma w SI Syriusz. Zasadnicze znaczenie może mieć tutaj postawa samej osoby
bezrobotnej, jej aktywność i poziom determinacji do podjęcia zatrudnienia. Niemniej technikę
tę należy postrzegać jako efektywne narzędzie służące do wspierania procesów decyzyjnych
w oparciu o analizę danych (evidence based policy). Z pewnością technika ta stanowi interesującą i godną polecenia alternatywę dla osób, od których oczekuje się tego typu analiz,
a które nie dysponują zaawansowanym warsztatem analitycznym.
Predictive Solutions
ul. Racławicka 58 · 30-017 Kraków
tel. 12 636 96 80 · faks wew. 102
e-mail [[email protected]]
[www.predictivesolutions.pl]

Podobne dokumenty