Wstęp Regresja logistyczna

Transkrypt

Wstęp Regresja logistyczna
powrót
Spis treści
1 Wstęp
2 Regresja logistyczna
2.1 Hipoteza
2.2 Estymacja parametrów
2.2.1 Funkcja wiarygodności
3 Uogólnione modele liniowe
3.1 Rodzina wykładnicza
3.1.1 Rozkład Bernouliego
3.1.2 Rozkład Gaussa
4 Konstrukcja uogólnionego modelu liniowego
4.1 Regresja liniowa jako GLM
4.2 Regresja logistyczna jako GLM
4.3 Regresja wieloraka (softmax) jako GLM
Wstęp
W tym wykładzie zajmiemy się problemem konstrukcji Uogulnionych Modeli Liniowych (ang.
generalized linear models - GML). Metodologia ta pozwala objąć w jednym formaliźmie zarówno
problemy regresji jak i klasyfikacji. W pewnym sensie klasyfikacja jest podobna do regresji, z tą
różnicą, że zmienne które chcemy przewidywać mogą przybierać tylko niewielką ilość dyskretnych
wartości. Na początek skupimy się na dwóch nieco już oswojonych przykładach, pod koniec dołożymy
jeden bardzo przydatny przykład klasyfikacji wielorakiej (z więcej niż dwoma klasami).
Zaczniemy od problemu klasyfikacji binarnej, czyli takiej w której wejściom mamy przypisywać jedną
z dwóch klas (podobnie jak to było dla preceptronu Rosenblatta), np. oznaczonych 0 i 1. Na chwilę
też odłożymy na bok sieci i zajmiemy się tym zagadnieniem bardziej z punktu widzenia statystyki.
Regresja logistyczna
Hipoteza
W tym podejściu ignorujemy fakt, że zbiór wartości jest dyskretny. Jako funkcję pełniącą rolę
hipotezy wybierzemy sigmiodę uzyskaną z funkcji logistycznej, znaną nam już jako jedną z
popularnych form nieliniowości neuronów:
która wraz z parametrami
i wejściami
jest postaci:
Pod koniec wykładu okaże się dlaczego taki akurat wybór hipotezy jest bardzo naturalny.
Estymacja parametrów
Jak znaleźć parametry ? W języku funkcji kosztu moglibyśmy oczywiście zapostulować odpowiednią
funkcję kosztu i zastosować do niej minimalizację gradientową. Tu jednak spróbujemy pokazać, że
analogiczny algorytm można też wyprowadzić z interpretacji probabilistycznej. Dzięki temu
będziemy mogli nabrać nowego wglądu w proces doboru parametrów.
Hipotezę wybraliśmy tak, że:
Zauważmy, że powyższe wyrażenia można zapisać w zwartej formie:
Funkcja wiarygodności
Zakładając, że przykłady zbioru uczącego są niezależne od siebie prawdopodobieństwo
zaobserwowania całego zbioru uczącego
wynosi:
Możemy to prawdopodobieństwo potraktować jako funkcję parametrów , nazywamy ją wówczas
funkcją wiarygodności i oznaczamy
.
Łatwiejsza w posługiwaniu się jest funkcja log-wiarygodności:
Dobre parametry
to te, dla których zaobserwowanie ciągu uczącego jest największe. Aby je znaleźć
należy zmaksymalizować funkcję wiarygodności, czy też dowolną monotonicznie rosnącą funkcję
funkcji wiarygodności np. log-wiarygodność. Robimy to modyfikując parametry zgodnie z jej
pochodną:
skorzystaliśmy po drodze z postaci pochodnej funkcji logistycznej. Zatem aby zwiększać funkcję
wiarygodności powinniśmy parametry zmieniać zgodnie z obliczoną pochodną:
Może to się wydać dziwne, ale startując z zupełnie innych założeń i stosując optymalizację innej
funkcji dostaliśmy taką samą regułę zmiany parametrów jak przy gradientowej minimalizacji funkcji
(średniokwadratowej) kosztu
(proszę porównać)!
Uogólnione modele liniowe
Dotychczas rozważaliśmy przykłady regresji gdzie zwykle
oraz klasyfikacji gdzie
. Wkrótce przekonamy się, że oba te problemy sa szczególnymi przypadkami
większej rodziny modleli, tzw. uogólnionych modeli liniowych.
Rodzina wykładnicza
Mówimy, że dany rozkład należy do rodziny wykładniczej jeśli da się go zapisać w postaci:
(*)
tutaj:
nazywana jest parametrem naturalnym lub kanonicznym dystrybucji;
jest tzw. statystyką wystarczającą (często
);
wielkość
jest czynnikiem normalizującym, takim aby rozkład
sumował/całkował się do 1.
Tak więc członka rodziny wykładniczej określamy podając konkretne postaci
.
Rozkład Bernouliego
Pokażemy teraz, że rozkład Bernouliego należy do rodziny wykładniczej.
wartości
ten rozkład tak:
, że
zaś
. w sposób zwarty możemy napisać
Zatem w rozkładzie Bernouliego parametrem naturalnym jest
Warto zauważyć, że jeśli przekształcić to wyrażenie ze względu na
funkcję logistyczną:
to taki rozkład
.
to dostaniemy dobrzez znaną
.
Widzimy też, że:
Czyli możemy przedstawić ten rozkład w postaci (*).
Rozkład Gaussa
Teraz rozważymy rozkład Gaussa. Do estymacji parametrów regresji liniowej nie musieliśmy używać
jego wariancji, więc dla uproszczenia obliczeń przyjmiemy, że nasz rozkład Gaussa ma wariancję
. Mamy:
Widzimy więc, że rozkład Gaussa należy do rodziny wykładniczej z następującymi parametrami:
Rodzina wykładnicza jest znacznie bogatsza. Zawiera w sobie rozkłady wielorakie, Poissona (do
modelowania zliczeń), gamma i wykładnicze (np. interwałów czasowych) i wiele innych. W kolejnej
sekcji podamy ogólny sposób na konstruowanie modeli, w których
wykładniczych.
pochodzi z rozkładów
Konstrukcja uogólnionego modelu liniowego
Załóżmy, że chcemy zbudować model służący do szacowania liczby (y) klientów odwiedzających
sklep (lub witrynę) w dowolnej godzinie, na podstawie pewnych cech x, takich jak promocje, ostatnie
reklamy, prognoza pogody, dzień tygodnia, itd. Wiemy, że rozkład Poissona zwykle daje dobry model
zliczeń np. liczby odwiedzających. Wiedząc o tym, jak możemy wymyślić model dla naszego
problemu? Na szczęście, rozkład Poissona należy do rodziny rozkładów wykładniczych, więc możemy
zastosować uogólniony model liniowy (GLM). W tej sekcji opiszemy metodę konstruowania modeli
GLM.
W ogólności chcielibyśmy przewidywać wartość zmiennej losowej (zależnej) y traktując ją jako
funkcję zmiennej (niezależnej) x. Aby móc zastosować tu metodologię GLM musimy poczynić
następujące założenia:
1. Zmienna y przy ustalonych x i
tzn.:
podlega pewnemu rozkładowi wykładniczemu z parametrem
RodzinaWykładnicza( )
2. Naszym celem jest estymacja wartości oczekiwanej
mamy
mając dany . W wielu przypadkach
, co oznacza, że chcielibyśmy aby hipoteza otrzymana w wyniku uczenia
spełniałą warunek
. (Zauważmy, że własność ta jest spełniona dla regresji
liniowej i logistycznej. Np. dla regresji logistycznej mamy
).
3. Parametr naturalny
jest liniowo związany z wejściem :
.
Te trzy założenia pozwalają wyprowadzić klasę algorytmów uczących GLM. Poniżej przedstawimy
trzy przykłady.
Regresja liniowa jako GLM
Przekonajmy się, że regresja liniowa jest szczególnym przykładem GLM. Zmienna zależna jest
ciągła i jej prawdopodobieństwo warunkowe dla danego jest modelowane przez rozkład Gaussa
( może zależeć od ). Tak więc w tym wypadku wspomnianą w założeniu 1
RodzinąWykładniczą
Dalej mamy:
jest rozkład Gaussa. Tak jak widzieliśmy wcześniej w tym przypadku
pierwsza równość wynika z założenia 2,
druga równość wynika z tego, że
, tak więc wartość oczekiwana wynosi
.
trzecia równość wynika z założenia 1
ostatnia równość wynika z założenia 3
Zauważmy jak przyjęcie założeń co do postaci rozkładu zmiennej zależnej i metodologi GLM (trzy
założenia) prowadzą do konkretnej postaci hipotezy.
Regresja logistyczna jako GLM
Rozważmy teraz regresję logistyczną. Interesuje nas tutaj klasyfikacja binarna, więc
Ponieważ przyjmuje wartości binarne to naturalnym rozkładem prawdopodobieństwa do
.
modelowania warunkowego rozkładu
jest rozkład Bernoulliego z parametrem ( jest
prawdopodbieństwem tego, że y=1). Pokazaliśmy już wcześniej, że rozkład ten należy do rodziny
RozkładówWykładniczych i, że w tym przypadku
, to
. Dalej zauważmy, że jeśli
, więc analogicznie jak dla regresji liniowej mamy:
Otrzymaliśmy więc funkcję hipotezy w postaci
. To jest wytłumaczenie
dlaczego stosuje się funkcje logistyczne w problemach klasyfikacji: jak tylko założymy, że zmienna
zależna podlega rozkładowi Bernoulliego to funkcja logistyczna jest konsekwencją definicji
uogólnionych modeli liniowych i rodziny rozkładów wykładniczych.
Wprowadzimy tu jeszcze dwa pojęcia:
funkcja dająca średnią rozkładu jako funkcję parametru naturalnego,
nazywamy kanoniczną funkcją odpowiedzi (canonical response function)
jej odwrotność,
nazywamy kanoniczną funkcją łączącą (canonical link function.)
Regresja wieloraka (softmax) jako GLM
Rozważmy jeszcze jeden przypadek modelu GLM. Tym razem nasz problem polega na przydzieleniu
zmiennych niezależnych do jednej z k klas, czyli zmienna zależna nadal jest dyskretna, ale może
przyjmować jedną z k wartości:
wielorakiemu (ang. multinomial).
. Mówimy, że zmienne y podlegają rozkładowi
Wyprowadzimy teraz GLM do modelowania takich wielorakich danych. Zaczniemy od wyrażenia
rozkładu wielorakiego jako rozkładu należącego do rodziny rozkładów wykładniczych.
Aby sparametryzować wielorakość z k możliwymi wynikami, można by zacząć od k parametrów
określających prawdopodobieństwo każdego z wyników. Taka parametryzacja jest jednak
redundantna, tzn. parametry te nie są niezależne (znając
spośród
parametrów ostatni, k-ty,
parametr jest jednoznacznie określony bo musi być spełniona równość
sparametryzujemy rozkład przez k-1 parametrów:
.) Tak więc
,
gdzie:
.
Dla wygody notacji zapiszemy, że
, ale będziemy pamiętać, że to nie jest parametr, i
że nasz rozkład wieloraki jest w pełni określony przez parametry:
.
Aby wyrazić rozkład wieloraki w języku rodziny rozkładów wykładniczych zdefiniujmy
w następujący sposób:
W odróżnieniu od poprzednich przykładów nie mamy tu
, ale
jest k-1 wymiarowym
wektorem a nie skalarem. Aby oznaczyć i-ty element tego wektora będziemy pisać
I jeszcze jedna użyteczna konwencja. Wprowadźmy funkcję
argument jest prawdziwy i 0 gdy jest fałszywy, np.:
więc
. Dalej mamy
.
, przyjmuje ona wartość 1 gdy jej
zaś
.
Teraz możemy pokazać jak rozkład wieloraki wyrazić w języku rozkładu wykładniczego i
sformułować model klasy GLM.
. Tak
gdzie:
To kończy prezentację rozkładu wielorakiego jako członka rodziny rozkładów wykładniczych.
Funkcja łącząca (dla
) dana jest przez:
dla wygody zdefiniowaliśmy także
Stąd mamy:
(**)
Suma po wszystkich możliwych zdarzeniach daje zdarzenie pewne:
Stąd:
Podstawiając to wyrażenie do (**) otrzymujemy funkcję odpowiedzi postaci:
Ta funkcja mapująca na nazywa się funkcją softmax. Aby dokończyć formulację modelu użyjemy
założenia 3, że jest liniowo związana ze zmienną niezależną . Tak więc mamy:
dla
. Wynika stąd, że
gdzie
to parametry modelu. Dla wygody notacji definiujemy
.
Zatem model nasz zakłada, że rozkład warunkowy
dany jest przez:
W wyprowadzonym powyżej modelu regresji softmax hipoteza ma postać:
Wyrażając to słowami: nasza hipoteza zwróci prawdopodobieństwo warunkowe przynależności
danego x do każdej z klas i:
dla
,
przy czym prawdopodobieństwo przynależności do ostatniej klasy dane jest przez:
.
Na koniec zastanówmy się jak estymować parametry tego modelu. Podobnie jak w przypadku
regresji liniowej i regresji logistycznej potrzebny jest nam zbiór uczący postaci
. Można ponownie skorzystać z zasady największej wiarygodności i wyznaczyć
parametry , które maksymalizują prawdopodobieństwo zaobserwowania całego zbioru uczącego.
Funkcja log-wiarygodności ma postać:
Teraz maksymalizację
można przeprowadzić np. za pomocą algorytmu gradientowego (tzn.
zmieniamy iteracyjnie parametry w kierunku zgodnym z gradientem funkcji log-wiarygodności).