ANALIZA KORELACJI I REGRESJI

Transkrypt

ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
ANALIZA KORELACJI I REGRESJI
Agnieszka Rossa
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Szkic wykładu
1
Zależności korelacyjne
2
Regresja liniowa
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależności korelacyjne
Przykłady
Badajac
˛ różnego rodzaju zjawiska, np. społeczne,
ekonomiczne, psychologiczne, przyrodniczne itp.
stwierdzamy niemal zawsze, że każde z nich jest
uwarunkowane działaniem innych zjawisk.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależności korelacyjne
Przykłady
Badajac
˛ różnego rodzaju zjawiska, np. społeczne,
ekonomiczne, psychologiczne, przyrodniczne itp.
stwierdzamy niemal zawsze, że każde z nich jest
uwarunkowane działaniem innych zjawisk.
Istnienie zwiazków
˛
pomiedzy
˛
zjawiskami
charakteryzujacymi
˛
badane zbiorowości bywa cz˛esto
przedmiotem dociekań i eksperymentów naukowych.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależności korelacyjne
Przykłady
Badajac
˛ różnego rodzaju zjawiska, np. społeczne,
ekonomiczne, psychologiczne, przyrodniczne itp.
stwierdzamy niemal zawsze, że każde z nich jest
uwarunkowane działaniem innych zjawisk.
Istnienie zwiazków
˛
pomiedzy
˛
zjawiskami
charakteryzujacymi
˛
badane zbiorowości bywa cz˛esto
przedmiotem dociekań i eksperymentów naukowych.
Przykład: David Buss w publikacji z 2001 roku pt.
”Psychologia ewolucyjna. Jak wytłumaczyć społeczne
zachowania człowieka?”, opisał badanie, w którym
sprawdzał, czy istnieje zwiazek
˛
miedzy
˛
szybkościa˛
chodzenia a pozycja˛ społeczna.
˛ Okazało sie,
˛ że zwiazek
˛
ten jest dość wyraźny wśród meżczyzn,
˛
natomiast w
mniejszym stopniu wśród kobiet.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależności korelacyjne
Przykłady
Inny przykład: Allison i Cicchetti w pracy ”Sleep in mammals”
(Science, 194, 1976) opisali badania przeprowadzone wśród
przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji
(pomiarów) były m.in. nastepuj
˛ ace
˛ charakterystyki:
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależności korelacyjne
Przykłady
Inny przykład: Allison i Cicchetti w pracy ”Sleep in mammals”
(Science, 194, 1976) opisali badania przeprowadzone wśród
przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji
(pomiarów) były m.in. nastepuj
˛ ace
˛ charakterystyki:
długość snu w ciagu
˛ doby (godz/dobe),
˛
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależności korelacyjne
Przykłady
Inny przykład: Allison i Cicchetti w pracy ”Sleep in mammals”
(Science, 194, 1976) opisali badania przeprowadzone wśród
przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji
(pomiarów) były m.in. nastepuj
˛ ace
˛ charakterystyki:
długość snu w ciagu
˛ doby (godz/dobe),
˛
maksymalna długości życia (lata),
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależności korelacyjne
Przykłady
Inny przykład: Allison i Cicchetti w pracy ”Sleep in mammals”
(Science, 194, 1976) opisali badania przeprowadzone wśród
przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji
(pomiarów) były m.in. nastepuj
˛ ace
˛ charakterystyki:
długość snu w ciagu
˛ doby (godz/dobe),
˛
maksymalna długości życia (lata),
masa ciała (kg),
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależności korelacyjne
Przykłady
Inny przykład: Allison i Cicchetti w pracy ”Sleep in mammals”
(Science, 194, 1976) opisali badania przeprowadzone wśród
przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji
(pomiarów) były m.in. nastepuj
˛ ace
˛ charakterystyki:
długość snu w ciagu
˛ doby (godz/dobe),
˛
maksymalna długości życia (lata),
masa ciała (kg),
masa mózgu (g),
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależności korelacyjne
Przykłady
Inny przykład: Allison i Cicchetti w pracy ”Sleep in mammals”
(Science, 194, 1976) opisali badania przeprowadzone wśród
przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji
(pomiarów) były m.in. nastepuj
˛ ace
˛ charakterystyki:
długość snu w ciagu
˛ doby (godz/dobe),
˛
maksymalna długości życia (lata),
masa ciała (kg),
masa mózgu (g),
czas trwania ciaży
˛ (dni).
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależności korelacyjne
Przykłady
Inny przykład: Allison i Cicchetti w pracy ”Sleep in mammals”
(Science, 194, 1976) opisali badania przeprowadzone wśród
przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji
(pomiarów) były m.in. nastepuj
˛ ace
˛ charakterystyki:
długość snu w ciagu
˛ doby (godz/dobe),
˛
maksymalna długości życia (lata),
masa ciała (kg),
masa mózgu (g),
czas trwania ciaży
˛ (dni).
Cel badania: Ustalenie, czy istnieja˛ jakiekolwiek zależności
pomiedzy
˛
wymienionymi charakterystykami, a jeśli tak, to jaka
jest siła tych zależności.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależności korelacyjne
Przykłady
Inny przykład: Allison i Cicchetti w pracy ”Sleep in mammals”
(Science, 194, 1976) opisali badania przeprowadzone wśród
przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji
(pomiarów) były m.in. nastepuj
˛ ace
˛ charakterystyki:
długość snu w ciagu
˛ doby (godz/dobe),
˛
maksymalna długości życia (lata),
masa ciała (kg),
masa mózgu (g),
czas trwania ciaży
˛ (dni).
Cel badania: Ustalenie, czy istnieja˛ jakiekolwiek zależności
pomiedzy
˛
wymienionymi charakterystykami, a jeśli tak, to jaka
jest siła tych zależności.
Wyniki badań: Bed
˛ a˛ przedstawione dalej.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależności korelacyjne
Przykłady
Kolejny przykład:
Zwiazek
˛
pomiedzy
˛
waga˛ a wzrostem człowieka próbuje sie˛
wyrazić za pomoca˛ tzw. wskaźnika BMI (Body Mass
Index):
waga
BMI =
(wzrost w metrach)2
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależności korelacyjne
Przykłady
Kolejny przykład:
Zwiazek
˛
pomiedzy
˛
waga˛ a wzrostem człowieka próbuje sie˛
wyrazić za pomoca˛ tzw. wskaźnika BMI (Body Mass
Index):
waga
BMI =
(wzrost w metrach)2
Przyjmuje sie,
˛ że wartość BMI dla osób z prawidłowa˛
masa˛ ciała zawiera sie˛ mniej wiecej
˛
w przedziale
18, 5 ≤ BMI < 25. Jednak BMI kształtuje sie˛ na poziomie
indywidualnym dla konkretnych osób i może znacznie
przekraczać wartość 25.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależności korelacyjne
Przykłady
Kolejny przykład:
Zwiazek
˛
pomiedzy
˛
waga˛ a wzrostem człowieka próbuje sie˛
wyrazić za pomoca˛ tzw. wskaźnika BMI (Body Mass
Index):
waga
BMI =
(wzrost w metrach)2
Przyjmuje sie,
˛ że wartość BMI dla osób z prawidłowa˛
masa˛ ciała zawiera sie˛ mniej wiecej
˛
w przedziale
18, 5 ≤ BMI < 25. Jednak BMI kształtuje sie˛ na poziomie
indywidualnym dla konkretnych osób i może znacznie
przekraczać wartość 25.
Przykład ten wskazuje, że zależność miedzy
˛
waga˛ a
wzrostem nie jest ściśle funkcyjna. Podana formuła
opisuje tylko w przybliżeniu te˛ zależności.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależność korelacyjna
Przy analizie współzależności pomiedzy
˛
wzrostem i waga,
˛
nie oczekujemy, aby zależność ta była ściśle funkcyjna,
tzn. aby istniała jednoznacznie określona funkcja
matematyczna y = f (x), podajaca
˛ wage˛ y konkretnej
osoby z ustalonym wzrostem x.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależność korelacyjna
Przy analizie współzależności pomiedzy
˛
wzrostem i waga,
˛
nie oczekujemy, aby zależność ta była ściśle funkcyjna,
tzn. aby istniała jednoznacznie określona funkcja
matematyczna y = f (x), podajaca
˛ wage˛ y konkretnej
osoby z ustalonym wzrostem x.
Mimo tego wydaje sie,
˛ że ”jakaś” zależność pomiedzy
˛
waga˛ i wzrostem istnieje.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależność korelacyjna
Przy analizie współzależności pomiedzy
˛
wzrostem i waga,
˛
nie oczekujemy, aby zależność ta była ściśle funkcyjna,
tzn. aby istniała jednoznacznie określona funkcja
matematyczna y = f (x), podajaca
˛ wage˛ y konkretnej
osoby z ustalonym wzrostem x.
Mimo tego wydaje sie,
˛ że ”jakaś” zależność pomiedzy
˛
waga˛ i wzrostem istnieje.
Obserwujac
˛ obie cechy w dużej zbiorowości osób,
dojdziemy do przekonania, że średnia waga jest wieksza
˛
w grupie osób wyższych i na odwrót.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależność korelacyjna
Przy analizie współzależności pomiedzy
˛
wzrostem i waga,
˛
nie oczekujemy, aby zależność ta była ściśle funkcyjna,
tzn. aby istniała jednoznacznie określona funkcja
matematyczna y = f (x), podajaca
˛ wage˛ y konkretnej
osoby z ustalonym wzrostem x.
Mimo tego wydaje sie,
˛ że ”jakaś” zależność pomiedzy
˛
waga˛ i wzrostem istnieje.
Obserwujac
˛ obie cechy w dużej zbiorowości osób,
dojdziemy do przekonania, że średnia waga jest wieksza
˛
w grupie osób wyższych i na odwrót.
Zwiazek
˛
miedzy
˛
waga˛ i wzrostem jest przykładem tzw.
zwiazku
˛
korelacyjnego, w skrócie – korelacji.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależność korelacyjna
Przy analizie współzależności pomiedzy
˛
wzrostem i waga,
˛
nie oczekujemy, aby zależność ta była ściśle funkcyjna,
tzn. aby istniała jednoznacznie określona funkcja
matematyczna y = f (x), podajaca
˛ wage˛ y konkretnej
osoby z ustalonym wzrostem x.
Mimo tego wydaje sie,
˛ że ”jakaś” zależność pomiedzy
˛
waga˛ i wzrostem istnieje.
Obserwujac
˛ obie cechy w dużej zbiorowości osób,
dojdziemy do przekonania, że średnia waga jest wieksza
˛
w grupie osób wyższych i na odwrót.
Zwiazek
˛
miedzy
˛
waga˛ i wzrostem jest przykładem tzw.
zwiazku
˛
korelacyjnego, w skrócie – korelacji.
Z korelacja˛ mamy do czynienia wtedy, gdy wraz ze
zmiana˛ wartości jednej cechy zmienia sie˛ średnia wartość
drugiej cechy.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależność korelacyjna
Przykład korelacji wagi i wzrostu
Agnieszka Rossa
Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Low Resolution
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Współczynnik korelacji Pearsona
Przykład korelacji wagi i wzrostu – c.d.
Agnieszka Rossa
Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Low Resolution
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależność korelacyjna
Inne przykłady
Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Low Resolution
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależność korelacyjna
Wstepne
˛
wnioski z przedstawionych przykładów
Zwiazek
˛
korelacyjny można odkryć obserwujac
˛ duża˛ liczbe˛
przypadków. Nie ujawnia sie˛ w pojedycznych
obserwacjach.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależność korelacyjna
Wstepne
˛
wnioski z przedstawionych przykładów
Zwiazek
˛
korelacyjny można odkryć obserwujac
˛ duża˛ liczbe˛
przypadków. Nie ujawnia sie˛ w pojedycznych
obserwacjach.
Zależność korelacyjna może być prostoliniowa (w skrócie –
liniowa) lub krzywoliniowa, silna lub słaba.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależność korelacyjna
Wstepne
˛
wnioski z przedstawionych przykładów
Zwiazek
˛
korelacyjny można odkryć obserwujac
˛ duża˛ liczbe˛
przypadków. Nie ujawnia sie˛ w pojedycznych
obserwacjach.
Zależność korelacyjna może być prostoliniowa (w skrócie –
liniowa) lub krzywoliniowa, silna lub słaba.
Na podstawie obserwacji wykresu rozproszenia możemy w
przybliżeniu ocenić charakter zależności i jej siłe.
˛
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależność korelacyjna
Wstepne
˛
wnioski z przedstawionych przykładów
Zwiazek
˛
korelacyjny można odkryć obserwujac
˛ duża˛ liczbe˛
przypadków. Nie ujawnia sie˛ w pojedycznych
obserwacjach.
Zależność korelacyjna może być prostoliniowa (w skrócie –
liniowa) lub krzywoliniowa, silna lub słaba.
Na podstawie obserwacji wykresu rozproszenia możemy w
przybliżeniu ocenić charakter zależności i jej siłe.
˛
Potrzebujemy miary, która pomógłaby wyrazić siłe˛
zależności w sposób liczbowy.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Pomiar siły korelacji liniowej
Współczynnik korelacji liniowej Pearsona
Załóżmy, że miedzy
˛
cechami X i Y wystepuje
˛
zależność
korelacyjna o charakterze liniowym.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Pomiar siły korelacji liniowej
Współczynnik korelacji liniowej Pearsona
Załóżmy, że miedzy
˛
cechami X i Y wystepuje
˛
zależność
korelacyjna o charakterze liniowym.
Współczynnikiem służacym
˛
do pomiaru siły tego zwiazku
˛
jest współczynnik korelacji liniowej Pearsona określony
wzorem
1 Pn
i=1 (xi − x̄)(yi − ȳ )
n
r=
,
sx · sy
gdzie x̄, ȳ oznaczaja˛ średnie arytmetyczne, natomiast
sx , sy – odchylenia standardowe zmiennych odpowiednio
X i Y.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Pomiar siły korelacji liniowej
Średnie arytmetyczne i odchylenia standardowe – przypomnienie
Średnie arytmetyczne:
n
1X
xi ,
x̄ =
n
i=1
Odchylenia standardowe:
v
u n
u1 X
sx = t
(xi − x̄)2 ,
n
i=1
Agnieszka Rossa
n
1X
ȳ =
yi .
n
i=1
v
u n
u1 X
sy = t
(yi − ȳ )2 .
n
i=1
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Współczynnik korelacji liniowej Pearsona
Własności
Współczynnik r korelacji liniowej Pearsona przyjmuje
zawsze wartości z przedziału [−1, 1].
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Współczynnik korelacji liniowej Pearsona
Własności
Współczynnik r korelacji liniowej Pearsona przyjmuje
zawsze wartości z przedziału [−1, 1].
Znak współczynnika informuje o kierunku korelacji (liniowa
ujemna lub liniowa dodatnia).
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Współczynnik korelacji liniowej Pearsona
Własności
Współczynnik r korelacji liniowej Pearsona przyjmuje
zawsze wartości z przedziału [−1, 1].
Znak współczynnika informuje o kierunku korelacji (liniowa
ujemna lub liniowa dodatnia).
Wartość bezwzgledna
˛
|r | informuje o sile korelacji liniowej.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Współczynnik korelacji liniowej Pearsona
Własności
Współczynnik r korelacji liniowej Pearsona przyjmuje
zawsze wartości z przedziału [−1, 1].
Znak współczynnika informuje o kierunku korelacji (liniowa
ujemna lub liniowa dodatnia).
Wartość bezwzgledna
˛
|r | informuje o sile korelacji liniowej.
W szczególnym przypadku, gdy |r | = 1, wówczas mamy
do czynienia z korelacja˛ funkcyjna˛ (tzn. zależność Y od X
można wyrazić za pomoca˛ funkcji Y = aX + b, gdzie a, b
sa˛ pewnymi stałymi).
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Współczynnik korelacji liniowej Pearsona
Własności
Współczynnik r korelacji liniowej Pearsona przyjmuje
zawsze wartości z przedziału [−1, 1].
Znak współczynnika informuje o kierunku korelacji (liniowa
ujemna lub liniowa dodatnia).
Wartość bezwzgledna
˛
|r | informuje o sile korelacji liniowej.
W szczególnym przypadku, gdy |r | = 1, wówczas mamy
do czynienia z korelacja˛ funkcyjna˛ (tzn. zależność Y od X
można wyrazić za pomoca˛ funkcji Y = aX + b, gdzie a, b
sa˛ pewnymi stałymi).
Współczynnik r mierzy tylko korelacje˛ o charakterze
prostoliniowym.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Współczynnik korelacji liniowej Pearsona
Własności
Współczynnik r korelacji liniowej Pearsona przyjmuje
zawsze wartości z przedziału [−1, 1].
Znak współczynnika informuje o kierunku korelacji (liniowa
ujemna lub liniowa dodatnia).
Wartość bezwzgledna
˛
|r | informuje o sile korelacji liniowej.
W szczególnym przypadku, gdy |r | = 1, wówczas mamy
do czynienia z korelacja˛ funkcyjna˛ (tzn. zależność Y od X
można wyrazić za pomoca˛ funkcji Y = aX + b, gdzie a, b
sa˛ pewnymi stałymi).
Współczynnik r mierzy tylko korelacje˛ o charakterze
prostoliniowym.
Gdy r = 0, wówczas mówimy, że nie ma korelacji liniowej
(ale może być krzywoliniowa).
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Współczynniki korelacji liniowej Pearsona
Allison i Cicchetti – Wyniki badań ssaków
macierz współczynników
korelacji liniowej Pearsona
masa
ciała (kg)
masa
mózgu (g)
czas snu
(godz/dobe)
˛
maks. długość
życia (lata)
czas
ciaży
˛ (dni)
masa ciała (kg)
1
0,93
-0,31
0,30
0,65
masa mózgu (g)
0,93
1
-0,36
0,51
0,75
czas snu (godz/dobe)
˛
-0,31
-0,36
1
-0,41
-0,63
maks. długość życia (lata)
0,30
0,51
-0,41
1
0,61
czas ciaży
˛ (dni)
0,65
0,75
-0,63
0,61
1
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Współczynniki korelacji liniowej Pearsona
Allison i Cicchetti – Wyniki badań ssaków
macierz współczynników
korelacji liniowej Pearsona
masa
ciała (kg)
masa
mózgu (g)
czas snu
(godz/dobe)
˛
maks. długość
życia (lata)
czas
ciaży
˛ (dni)
masa ciała (kg)
1
0,93
-0,31
0,30
0,65
masa mózgu (g)
0,93
1
-0,36
0,51
0,75
czas snu (godz/dobe)
˛
-0,31
-0,36
1
-0,41
-0,63
maks. długość życia (lata)
0,30
0,51
-0,41
1
0,61
czas ciaży
˛ (dni)
0,65
0,75
-0,63
0,61
1
Kilka wybranych uwag podsumowania:
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Współczynniki korelacji liniowej Pearsona
Allison i Cicchetti – Wyniki badań ssaków
macierz współczynników
korelacji liniowej Pearsona
masa
ciała (kg)
masa
mózgu (g)
czas snu
(godz/dobe)
˛
maks. długość
życia (lata)
czas
ciaży
˛ (dni)
masa ciała (kg)
1
0,93
-0,31
0,30
0,65
masa mózgu (g)
0,93
1
-0,36
0,51
0,75
czas snu (godz/dobe)
˛
-0,31
-0,36
1
-0,41
-0,63
maks. długość życia (lata)
0,30
0,51
-0,41
1
0,61
czas ciaży
˛ (dni)
0,65
0,75
-0,63
0,61
1
Kilka wybranych uwag podsumowania:
wszystkie cechy sa˛ ze soba˛ wzajemnie powiazane
˛
(w mniejszym lub wiekszym
˛
stopniu),
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Współczynniki korelacji liniowej Pearsona
Allison i Cicchetti – Wyniki badań ssaków
macierz współczynników
korelacji liniowej Pearsona
masa
ciała (kg)
masa
mózgu (g)
czas snu
(godz/dobe)
˛
maks. długość
życia (lata)
czas
ciaży
˛ (dni)
masa ciała (kg)
1
0,93
-0,31
0,30
0,65
masa mózgu (g)
0,93
1
-0,36
0,51
0,75
czas snu (godz/dobe)
˛
-0,31
-0,36
1
-0,41
-0,63
maks. długość życia (lata)
0,30
0,51
-0,41
1
0,61
czas ciaży
˛ (dni)
0,65
0,75
-0,63
0,61
1
Kilka wybranych uwag podsumowania:
wszystkie cechy sa˛ ze soba˛ wzajemnie powiazane
˛
(w mniejszym lub wiekszym
˛
stopniu),
można zauważyć silna,
˛ dodatnia˛ korelacje˛ liniowa˛ miedzy
˛
masa˛ mózgu i ciała,
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Współczynniki korelacji liniowej Pearsona
Allison i Cicchetti – Wyniki badań ssaków
macierz współczynników
korelacji liniowej Pearsona
masa
ciała (kg)
masa
mózgu (g)
czas snu
(godz/dobe)
˛
maks. długość
życia (lata)
czas
ciaży
˛ (dni)
masa ciała (kg)
1
0,93
-0,31
0,30
0,65
masa mózgu (g)
0,93
1
-0,36
0,51
0,75
czas snu (godz/dobe)
˛
-0,31
-0,36
1
-0,41
-0,63
maks. długość życia (lata)
0,30
0,51
-0,41
1
0,61
czas ciaży
˛ (dni)
0,65
0,75
-0,63
0,61
1
Kilka wybranych uwag podsumowania:
wszystkie cechy sa˛ ze soba˛ wzajemnie powiazane
˛
(w mniejszym lub wiekszym
˛
stopniu),
można zauważyć silna,
˛ dodatnia˛ korelacje˛ liniowa˛ miedzy
˛
masa˛ mózgu i ciała,
umiarkowana, ujemna korelacja liniowa miedzy
˛
czasem snu a czasem życia,
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Współczynniki korelacji liniowej Pearsona
Allison i Cicchetti – Wyniki badań ssaków
macierz współczynników
korelacji liniowej Pearsona
masa
ciała (kg)
masa
mózgu (g)
czas snu
(godz/dobe)
˛
maks. długość
życia (lata)
czas
ciaży
˛ (dni)
masa ciała (kg)
1
0,93
-0,31
0,30
0,65
masa mózgu (g)
0,93
1
-0,36
0,51
0,75
czas snu (godz/dobe)
˛
-0,31
-0,36
1
-0,41
-0,63
maks. długość życia (lata)
0,30
0,51
-0,41
1
0,61
czas ciaży
˛ (dni)
0,65
0,75
-0,63
0,61
1
Kilka wybranych uwag podsumowania:
wszystkie cechy sa˛ ze soba˛ wzajemnie powiazane
˛
(w mniejszym lub wiekszym
˛
stopniu),
można zauważyć silna,
˛ dodatnia˛ korelacje˛ liniowa˛ miedzy
˛
masa˛ mózgu i ciała,
umiarkowana, ujemna korelacja liniowa miedzy
˛
czasem snu a czasem życia,
dość silna korelacja (dodatnia lub ujemna) czasu ciaży
˛ z innymi zmiennymi,
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Współczynniki korelacji liniowej Pearsona
Allison i Cicchetti – Wyniki badań ssaków
macierz współczynników
korelacji liniowej Pearsona
masa
ciała (kg)
masa
mózgu (g)
czas snu
(godz/dobe)
˛
maks. długość
życia (lata)
czas
ciaży
˛ (dni)
masa ciała (kg)
1
0,93
-0,31
0,30
0,65
masa mózgu (g)
0,93
1
-0,36
0,51
0,75
czas snu (godz/dobe)
˛
-0,31
-0,36
1
-0,41
-0,63
maks. długość życia (lata)
0,30
0,51
-0,41
1
0,61
czas ciaży
˛ (dni)
0,65
0,75
-0,63
0,61
1
Kilka wybranych uwag podsumowania:
wszystkie cechy sa˛ ze soba˛ wzajemnie powiazane
˛
(w mniejszym lub wiekszym
˛
stopniu),
można zauważyć silna,
˛ dodatnia˛ korelacje˛ liniowa˛ miedzy
˛
masa˛ mózgu i ciała,
umiarkowana, ujemna korelacja liniowa miedzy
˛
czasem snu a czasem życia,
dość silna korelacja (dodatnia lub ujemna) czasu ciaży
˛ z innymi zmiennymi,
Pytanie: Jak opisać zależność np. czasu ciaży
˛ od wszystkich pozostałych zmiennych jednocześnie?
Odpowiedzi dostarcza analiza regresji.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Korelacja a zależności pozorne – Przykład
Czy w krajach, w których jest wiecej
˛
bocianów rodzi sie˛ wiecej
˛
dzieci?
Wyniki analizy korelacji liniowej dla 17 krajów europejskich
(dane z 1990 roku) pomiedzy
˛
powierzchnia,
˛ liczba˛
mieszkańców, liczba˛ urodzeń oraz liczba˛ bocianów (!):
macierz współczynników
korelacji liniowej Pearsona
powierzchnia
liczba bocianów
liczba mieszkańców
liczba urodzeń
1
0,579
0,812
0,923
liczba bocianów
0,579
1
0,354
0,620
liczba mieszkańców
0,812
0,354
1
0,851
liczba urodzeń
0,923
0,620
0,851
1
powierzchnia
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Korelacja a zależności pozorne – Przykład
Czy w krajach, w których jest wiecej
˛
bocianów rodzi sie˛ wiecej
˛
dzieci?
Wyniki analizy korelacji liniowej dla 17 krajów europejskich
(dane z 1990 roku) pomiedzy
˛
powierzchnia,
˛ liczba˛
mieszkańców, liczba˛ urodzeń oraz liczba˛ bocianów (!):
macierz współczynników
korelacji liniowej Pearsona
powierzchnia
liczba bocianów
liczba mieszkańców
liczba urodzeń
1
0,579
0,812
0,923
liczba bocianów
0,579
1
0,354
0,620
liczba mieszkańców
0,812
0,354
1
0,851
liczba urodzeń
0,923
0,620
0,851
1
powierzchnia
Zaskoczeniem może być dość wysoka wartość współczynnika korelacji liniowej dla liczby bocianów i liczby urodzeń.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Korelacja a zależności pozorne – Przykład
Czy w krajach, w których jest wiecej
˛
bocianów rodzi sie˛ wiecej
˛
dzieci?
Wyniki analizy korelacji liniowej dla 17 krajów europejskich
(dane z 1990 roku) pomiedzy
˛
powierzchnia,
˛ liczba˛
mieszkańców, liczba˛ urodzeń oraz liczba˛ bocianów (!):
macierz współczynników
korelacji liniowej Pearsona
powierzchnia
liczba bocianów
liczba mieszkańców
liczba urodzeń
1
0,579
0,812
0,923
liczba bocianów
0,579
1
0,354
0,620
liczba mieszkańców
0,812
0,354
1
0,851
liczba urodzeń
0,923
0,620
0,851
1
powierzchnia
Zaskoczeniem może być dość wysoka wartość współczynnika korelacji liniowej dla liczby bocianów i liczby urodzeń.
Pytania:
Czy w krajach, w których jest wiecej
˛
bocianów rodzi sie,
˛ średnio rzecz biorac,
˛ wiecej
˛
dzieci? Odpowiedź
brzmi – tak, potwierdzaja˛ to uzyskane wyniki.
Czy na tej podstawie możemy sadzić,
˛
że liczba bocianów oddziałuje na liczbe˛ noworodków (lub odwrotnie)?
Odpowiedź brzmi – nie, ponieważ pomiedzy
˛
badanymi zmiennymi nie ma bezpośredniej zależności
przyczynowo-skutkowej. Jest to przykład zależności pozornej.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Korelacja a zależności pozorne – Przykład c.d.
Zależność przyczynowo-skutkowa pomiedzy
˛
liczba˛
urodzeń i liczba˛ bocianów jest pozorna, gdyż ma tu
miejsce jedynie współwystepowanie
˛
obu zjawisk (wiekszej
˛
liczbie bocianów towarzyszy na ogół wieksza
˛
liczba
urodzeń i na odwrót).
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Korelacja a zależności pozorne – Przykład c.d.
Zależność przyczynowo-skutkowa pomiedzy
˛
liczba˛
urodzeń i liczba˛ bocianów jest pozorna, gdyż ma tu
miejsce jedynie współwystepowanie
˛
obu zjawisk (wiekszej
˛
liczbie bocianów towarzyszy na ogół wieksza
˛
liczba
urodzeń i na odwrót).
Pozorna zależność ma miejsce także miedzy
˛
liczba˛
urodzeń i powierzchnia˛ kraju.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Korelacja a zależności pozorne – Przykład c.d.
Zależność przyczynowo-skutkowa pomiedzy
˛
liczba˛
urodzeń i liczba˛ bocianów jest pozorna, gdyż ma tu
miejsce jedynie współwystepowanie
˛
obu zjawisk (wiekszej
˛
liczbie bocianów towarzyszy na ogół wieksza
˛
liczba
urodzeń i na odwrót).
Pozorna zależność ma miejsce także miedzy
˛
liczba˛
urodzeń i powierzchnia˛ kraju.
Układ zależności przyczynowo-skutkowych w tym
przykładzie można zilustrować graficznie:
Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Low Resolution
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji – współczynnik korelacji rang Spearmana
Przykład
Przypuśćmy, że porzadkujemy
˛
4 studentów w zależności
od stopnia ich zdolności matematycznych, zaczynajac
˛ od
studenta najlepszego, któremu przydzielamy numer 1,
a kończac
˛ na studencie najsłabszym, któremu
przydzielamy numer 4 (ocene˛ zdolności powierzamy np.
ekspertowi).
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji – współczynnik korelacji rang Spearmana
Przykład
Przypuśćmy, że porzadkujemy
˛
4 studentów w zależności
od stopnia ich zdolności matematycznych, zaczynajac
˛ od
studenta najlepszego, któremu przydzielamy numer 1,
a kończac
˛ na studencie najsłabszym, któremu
przydzielamy numer 4 (ocene˛ zdolności powierzamy np.
ekspertowi).
Mówimy wówczas, że studenci zostali uporzadkowani
˛
w
kolejności rang, a numer studenta jest jego ranga.
˛
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji – współczynnik korelacji rang Spearmana
Przykład
Przypuśćmy, że porzadkujemy
˛
4 studentów w zależności
od stopnia ich zdolności matematycznych, zaczynajac
˛ od
studenta najlepszego, któremu przydzielamy numer 1,
a kończac
˛ na studencie najsłabszym, któremu
przydzielamy numer 4 (ocene˛ zdolności powierzamy np.
ekspertowi).
Mówimy wówczas, że studenci zostali uporzadkowani
˛
w
kolejności rang, a numer studenta jest jego ranga.
˛
Oznaczmy rangi poszczególnych studentów przez ai .
Przykładowo, niech: a1 = 4, a2 = 2, a3 = 3, a4 = 1, co
oznacza, iż w badanej grupie, ustawionej w kolejności
alfabetycznej, pierwszy student (oznaczmy go umownie
litera˛ A) jest najsłabszy, student B – dobry, student C –
słaby, a student D – najlepszy.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji – współczynnik korelacji rang Spearmana
Przykład
Załóżmy, że w podobny sposób uporzadkowaliśmy
˛
tych
samych studentów z punktu widzenia ich zdolności
muzycznych. Niech bi bed
˛ a˛ rangami poszczególnych
studentów:
b1 = 2, b2 = 1, b3 = 3, b4 = 4
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji – współczynnik korelacji rang Spearmana
Przykład
Załóżmy, że w podobny sposób uporzadkowaliśmy
˛
tych
samych studentów z punktu widzenia ich zdolności
muzycznych. Niech bi bed
˛ a˛ rangami poszczególnych
studentów:
b1 = 2, b2 = 1, b3 = 3, b4 = 4
W ten sposób każdemu studentowi przyporzadkowaliśmy
˛
po dwie rangi ai oraz bi .
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji – współczynnik korelacji rang Spearmana
Przykład
Załóżmy, że w podobny sposób uporzadkowaliśmy
˛
tych
samych studentów z punktu widzenia ich zdolności
muzycznych. Niech bi bed
˛ a˛ rangami poszczególnych
studentów:
b1 = 2, b2 = 1, b3 = 3, b4 = 4
W ten sposób każdemu studentowi przyporzadkowaliśmy
˛
po dwie rangi ai oraz bi .
Pytanie: Jak na tej podstawie możemy ocenić, czy istnieje
zależność miedzy
˛
zdolnościami matematycznymi oraz
muzycznymi w badanej grupie. Innymi słowy, jak ocenić
stopień zgodności (lub niezgodności) rang ai , bi ?
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji – współczynnik korelacji rang Spearmana
Przykład
Załóżmy, że w podobny sposób uporzadkowaliśmy
˛
tych
samych studentów z punktu widzenia ich zdolności
muzycznych. Niech bi bed
˛ a˛ rangami poszczególnych
studentów:
b1 = 2, b2 = 1, b3 = 3, b4 = 4
W ten sposób każdemu studentowi przyporzadkowaliśmy
˛
po dwie rangi ai oraz bi .
Pytanie: Jak na tej podstawie możemy ocenić, czy istnieje
zależność miedzy
˛
zdolnościami matematycznymi oraz
muzycznymi w badanej grupie. Innymi słowy, jak ocenić
stopień zgodności (lub niezgodności) rang ai , bi ?
Uwaga: W przypadku danych rangowych nie możemy
zastosować współczynnika korelacji Pearsona.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji – współczynnik korelacji rang Spearmana
Jednym ze współczynników korelacji obliczanych dla
danych rangowych jest współczynnik korelacji rang
Spearmana, określony wzorem
P
6 ni=1 di2
rS = 1 −
,
n(n2 − 1)
gdzie di = ai − bi .
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji – współczynnik korelacji rang Spearmana
Jednym ze współczynników korelacji obliczanych dla
danych rangowych jest współczynnik korelacji rang
Spearmana, określony wzorem
P
6 ni=1 di2
rS = 1 −
,
n(n2 − 1)
gdzie di = ai − bi .
Własności:
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji – współczynnik korelacji rang Spearmana
Jednym ze współczynników korelacji obliczanych dla
danych rangowych jest współczynnik korelacji rang
Spearmana, określony wzorem
P
6 ni=1 di2
rS = 1 −
,
n(n2 − 1)
gdzie di = ai − bi .
Własności:
Współczynnik rS przymuje wartości z przedziału [−1, 1].
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji – współczynnik korelacji rang Spearmana
Jednym ze współczynników korelacji obliczanych dla
danych rangowych jest współczynnik korelacji rang
Spearmana, określony wzorem
P
6 ni=1 di2
rS = 1 −
,
n(n2 − 1)
gdzie di = ai − bi .
Własności:
Współczynnik rS przymuje wartości z przedziału [−1, 1].
Wartość rS = 1 oznacza, że istnieje całkowita zgodność
uporzadkowa
˛
ń wg rang ai i bi .
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji – współczynnik korelacji rang Spearmana
Jednym ze współczynników korelacji obliczanych dla
danych rangowych jest współczynnik korelacji rang
Spearmana, określony wzorem
P
6 ni=1 di2
rS = 1 −
,
n(n2 − 1)
gdzie di = ai − bi .
Własności:
Współczynnik rS przymuje wartości z przedziału [−1, 1].
Wartość rS = 1 oznacza, że istnieje całkowita zgodność
uporzadkowa
˛
ń wg rang ai i bi .
Wartość rS = −1 oznacza z kolei pełna˛ przeciwstawność
uporzadkowa
˛
ń miedzy
˛
rangami.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji – współczynnik korelacji rang Spearmana
Jednym ze współczynników korelacji obliczanych dla
danych rangowych jest współczynnik korelacji rang
Spearmana, określony wzorem
P
6 ni=1 di2
rS = 1 −
,
n(n2 − 1)
gdzie di = ai − bi .
Własności:
Współczynnik rS przymuje wartości z przedziału [−1, 1].
Wartość rS = 1 oznacza, że istnieje całkowita zgodność
uporzadkowa
˛
ń wg rang ai i bi .
Wartość rS = −1 oznacza z kolei pełna˛ przeciwstawność
uporzadkowa
˛
ń miedzy
˛
rangami.
Wartość rS = 0 oznacza brak korelacji rang.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji – współczynnik korelacji rang Spearmana
Przykład
Student
A
B
C
D
Razem
rangi ai
4
2
3
1
×
rangi bi
2
1
3
4
×
różnice rang di
2
1
0
-3
×
Źródło: Dane umowne.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
di2
4
1
0
9
14
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji – współczynnik korelacji rang Spearmana
Przykład
Student
A
B
C
D
Razem
rangi ai
4
2
3
1
×
rangi bi
2
1
3
4
×
różnice rang di
2
1
0
-3
×
di2
4
1
0
9
14
Źródło: Dane umowne.
Wartość współczynnika korelacji rang Spearmana w tym
przykładzie wynosi:
6 · 14
= −0, 4
rS = 1 −
4(16 − 1)
co świadczy o stosunkowo słabej korelacji miedzy
˛
zdolnościami matematycznymi i muzycznymi badanych
studentów.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Innym współczynnikiem zaliczanym do mierników korelacji
rangowej jest współczynnik Kendalla.
Zalóżmy, że obserwujemy dwie cechy ilościowe X i Y
w pewnej n-elementowej zbiorowości.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Innym współczynnikiem zaliczanym do mierników korelacji
rangowej jest współczynnik Kendalla.
Zalóżmy, że obserwujemy dwie cechy ilościowe X i Y
w pewnej n-elementowej zbiorowości.
Jednostki zbiorowości łaczymy
˛
w dwuelementowe
podzbiory.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Innym współczynnikiem zaliczanym do mierników korelacji
rangowej jest współczynnik Kendalla.
Zalóżmy, że obserwujemy dwie cechy ilościowe X i Y
w pewnej n-elementowej zbiorowości.
Jednostki zbiorowości łaczymy
˛
w dwuelementowe
podzbiory.
Dla n-elementowej zbiorowości można utworzyć łacznie
˛
N = n·(n−1) takich podzbiorów (tj. uporzadkowanych
˛
par).
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Innym współczynnikiem zaliczanym do mierników korelacji
rangowej jest współczynnik Kendalla.
Zalóżmy, że obserwujemy dwie cechy ilościowe X i Y
w pewnej n-elementowej zbiorowości.
Jednostki zbiorowości łaczymy
˛
w dwuelementowe
podzbiory.
Dla n-elementowej zbiorowości można utworzyć łacznie
˛
N = n·(n−1) takich podzbiorów (tj. uporzadkowanych
˛
par).
Współczynnik korelacji Kendalla obliczamy na podstawie
zbiorowości dwuelementowych podzbiorów, utworzonych z
elementów zbioru wyjściowego.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Niech Uj dla j = 1, 2, . . . , N bed
˛ a˛ zmiennymi przyjmujacymi
˛
wartości 1 lub -1, zgodnie z nastepuj
˛ acymi
˛
zasadami:
Uj = 1, gdy wartość cechy X dla pierwszego elementu
w j-tej parze jest wieksza
˛
niż dla drugiego elementu.
Uj = −1, gdy wartość cechy X dla pierwszego elementu
w j-tej parze jest mniejsza niż dla drugiego elementu.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Niech Uj dla j = 1, 2, . . . , N bed
˛ a˛ zmiennymi przyjmujacymi
˛
wartości 1 lub -1, zgodnie z nastepuj
˛ acymi
˛
zasadami:
Uj = 1, gdy wartość cechy X dla pierwszego elementu
w j-tej parze jest wieksza
˛
niż dla drugiego elementu.
Uj = −1, gdy wartość cechy X dla pierwszego elementu
w j-tej parze jest mniejsza niż dla drugiego elementu.
W podobny sposób zdefiniujmy zmienne Vj dla
j = 1, 2, . . . , N, odwołujac
˛ sie˛ do analogicznego sposobu
uporzadkowa
˛
ń wartości cechy Y w poszczególnych
parach.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Niech Uj dla j = 1, 2, . . . , N bed
˛ a˛ zmiennymi przyjmujacymi
˛
wartości 1 lub -1, zgodnie z nastepuj
˛ acymi
˛
zasadami:
Uj = 1, gdy wartość cechy X dla pierwszego elementu
w j-tej parze jest wieksza
˛
niż dla drugiego elementu.
Uj = −1, gdy wartość cechy X dla pierwszego elementu
w j-tej parze jest mniejsza niż dla drugiego elementu.
W podobny sposób zdefiniujmy zmienne Vj dla
j = 1, 2, . . . , N, odwołujac
˛ sie˛ do analogicznego sposobu
uporzadkowa
˛
ń wartości cechy Y w poszczególnych
parach.
Uwaga: Dalej zakładać bedziemy,
˛
że zarówno wartości
cechy X , jak i cechy Y nie powtarzaja˛ sie˛ w badanej
zbiorowości (w przeciwnym przypadku trzeba skorzystać z
pewnej skorygowanej formuły na współczynnik Kendalla,
która tutaj nie bedzie
˛
przytoczona).
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Przykład
Niech P oznacza liczbe˛ przypadków (par) zgodnie
uporzadkowanych,
˛
tj. liczbe˛ par, dla których wartości Uj
sa˛ równe Vj .
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Przykład
Niech P oznacza liczbe˛ przypadków (par) zgodnie
uporzadkowanych,
˛
tj. liczbe˛ par, dla których wartości Uj
sa˛ równe Vj .
Podobnie, niech Q oznacza liczbe˛ przypadków (par)
niezgodnie uporzadkowanych,
˛
tj. liczbe˛ par, dla których
wartości Uj oraz Vj sa˛ przeciwnego znaku.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Przykład
Niech P oznacza liczbe˛ przypadków (par) zgodnie
uporzadkowanych,
˛
tj. liczbe˛ par, dla których wartości Uj
sa˛ równe Vj .
Podobnie, niech Q oznacza liczbe˛ przypadków (par)
niezgodnie uporzadkowanych,
˛
tj. liczbe˛ par, dla których
wartości Uj oraz Vj sa˛ przeciwnego znaku.
Przy tych oznaczeniach współczynniki korelacji Kendalla
wyraża sie˛ wzorem:
τ=
Agnieszka Rossa
P −Q
.
n(n − 1)
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Przykład
Niech P oznacza liczbe˛ przypadków (par) zgodnie
uporzadkowanych,
˛
tj. liczbe˛ par, dla których wartości Uj
sa˛ równe Vj .
Podobnie, niech Q oznacza liczbe˛ przypadków (par)
niezgodnie uporzadkowanych,
˛
tj. liczbe˛ par, dla których
wartości Uj oraz Vj sa˛ przeciwnego znaku.
Przy tych oznaczeniach współczynniki korelacji Kendalla
wyraża sie˛ wzorem:
τ=
P −Q
.
n(n − 1)
Podobnie, jak współczynnik korelacji Spearmanna,
współczynnik τ (tau) przyjmuje zawsze wartości z
przedziału [−1, 1]. Jest również podobnie interpretowany.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Przykład
Wróćmy do przykładu dotyczacego
˛
zdolności matematycznych
i muzycznych grupy studentów (A, B, C, D). W tym przykładzie
można utworzyć łacznie
˛
4·(4− 1) = 12 dwuelementowych
podzbiorów ze zbioru 4-elementowego (por. pierwsza kolumna
tablicy).
Dalsze kolumny prezentuja˛ uporzadkowane
˛
w parach wartości
cech, w tym przypadku rang ai oraz bi , a także wartości Uj , Vj .
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Przykład
Wróćmy do przykładu dotyczacego
˛
zdolności matematycznych
i muzycznych grupy studentów (A, B, C, D). W tym przykładzie
można utworzyć łacznie
˛
4·(4− 1) = 12 dwuelementowych
podzbiorów ze zbioru 4-elementowego (por. pierwsza kolumna
tablicy).
Dalsze kolumny prezentuja˛ uporzadkowane
˛
w parach wartości
cech, w tym przypadku rang ai oraz bi , a także wartości Uj , Vj .
Pary
studentów
ai dla pierwszej
i drugiej osoby w parze
uporzadkowanie
˛
Uj
bi dla pierwszej
i drugiej osoby w parze
uporzadkowanie
˛
Vj
(A,B)
(A,C)
(A,D)
(B,A)
(B,C)
(B,D)
(C,A)
(C,B)
(C,D)
(D,A)
(D,B)
(D,C)
4; 2
4; 3
4; 1
2; 4
2; 3
2; 1
3; 4
3; 2
3; 1
1; 4
1; 2
1; 3
1
1
1
-1
-1
1
-1
1
1
-1
-1
-1
2; 1
2; 3
2; 4
1; 2
1; 3
1; 4
3; 2
3; 1
3; 4
4; 2
4; 1
4; 3
1
-1
-1
-1
-1
-1
1
1
-1
1
1
1
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Przykład
Liczba P przypadków (par) zgodnie uporzadkowanych
˛
w
naszym przykładzie wynosi P = 4 (oznaczone w tablicy
kolorem niebieskim).
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Przykład
Liczba P przypadków (par) zgodnie uporzadkowanych
˛
w
naszym przykładzie wynosi P = 4 (oznaczone w tablicy
kolorem niebieskim).
Z kolei liczba Q przypadków (par) niezgodnie
uporzadkowanych
˛
wynosi Q = 8 (oznaczone w tablicy
kolorem czerwonym).
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Przykład
Liczba P przypadków (par) zgodnie uporzadkowanych
˛
w
naszym przykładzie wynosi P = 4 (oznaczone w tablicy
kolorem niebieskim).
Z kolei liczba Q przypadków (par) niezgodnie
uporzadkowanych
˛
wynosi Q = 8 (oznaczone w tablicy
kolorem czerwonym).
Współczynniki Kendalla dla n = 4, P = 4, Q = 8 wynosi:
τ =−
4
≈ −0, 33
12
co wskazuje na słaba˛ korelacje˛ miedzy
˛
zdolnościami
matematycznymi i muzycznymi w badanej grupie
studentów (podobna wartość, jak współczynnika rS ).
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Uwagi
Zauważymy, że jeśli dla pewnej pary elementów, np. (A, B)
wartość Uj wynosi 1, to dla pary (B, A) musi być Uj = −1.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Uwagi
Zauważymy, że jeśli dla pewnej pary elementów, np. (A, B)
wartość Uj wynosi 1, to dla pary (B, A) musi być Uj = −1.
Oznacza to, że zamiast badać zbiorowość wszystkich
podzbiorów dwuelementowych, wśród których niektóre
pary składaja˛ sie˛ z tych samych elementów, a różnia˛ sie˛
jedynie ich kolejnościa˛ (np. (A, B) i (B, A) lub (A, C)
i (C, A) itd.), można ograniczyć rozważania do mniejszej
zbiorowości par, w której podzbiór o określonych
elementach wystepuje
˛
tylko raz.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Uwagi
Zauważymy, że jeśli dla pewnej pary elementów, np. (A, B)
wartość Uj wynosi 1, to dla pary (B, A) musi być Uj = −1.
Oznacza to, że zamiast badać zbiorowość wszystkich
podzbiorów dwuelementowych, wśród których niektóre
pary składaja˛ sie˛ z tych samych elementów, a różnia˛ sie˛
jedynie ich kolejnościa˛ (np. (A, B) i (B, A) lub (A, C)
i (C, A) itd.), można ograniczyć rozważania do mniejszej
zbiorowości par, w której podzbiór o określonych
elementach wystepuje
˛
tylko raz.
Jednak w takiej zbiorowości liczba wszystkich możliwych
par byłaby równa n(n−1)
, a wartości P i Q byłyby o połowe˛
2
mniejsze, a wiec
˛ wzór na współczynnik τ przyjałby
˛ postać:
τ=
2(P 0 − Q 0 )
,
n(n − 1)
gdzie P 0 =
Agnieszka Rossa
1
1
P, Q 0 = Q.
2
2
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Analiza regresji
Wprowadzenie
Jak już wcześniej wspomniano, na ogół powiazania
˛
pomiedzy
˛
cechami (zmiennymi) nie maja˛ charakteru
matematycznego, który dałoby sie˛ zapisać jednoznacznie
w postaci:
Y = f (X1 , X2 , . . . , Xs ),
gdzie f oznacza pewna˛ funkcje˛ opisujac
˛ a˛ zależność
zmiennej Y od zmiennych X1 , X2 , . . . , Xs .
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Analiza regresji
Wprowadzenie
Jak już wcześniej wspomniano, na ogół powiazania
˛
pomiedzy
˛
cechami (zmiennymi) nie maja˛ charakteru
matematycznego, który dałoby sie˛ zapisać jednoznacznie
w postaci:
Y = f (X1 , X2 , . . . , Xs ),
gdzie f oznacza pewna˛ funkcje˛ opisujac
˛ a˛ zależność
zmiennej Y od zmiennych X1 , X2 , . . . , Xs .
Zapis taki oznaczałby, że zależność pomiedzy
˛
Y a
pozostałymi cechamy jest ściśle funkcyjna, tj. konkretnym
wartościom obserwowanych cech X1 , X2 , . . . , Xs
odpowiada dokładnie jedna wartość cechy Y .
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Analiza regresji
Wprowadzenie
Jak już wcześniej wspomniano, na ogół powiazania
˛
pomiedzy
˛
cechami (zmiennymi) nie maja˛ charakteru
matematycznego, który dałoby sie˛ zapisać jednoznacznie
w postaci:
Y = f (X1 , X2 , . . . , Xs ),
gdzie f oznacza pewna˛ funkcje˛ opisujac
˛ a˛ zależność
zmiennej Y od zmiennych X1 , X2 , . . . , Xs .
Zapis taki oznaczałby, że zależność pomiedzy
˛
Y a
pozostałymi cechamy jest ściśle funkcyjna, tj. konkretnym
wartościom obserwowanych cech X1 , X2 , . . . , Xs
odpowiada dokładnie jedna wartość cechy Y .
W przypadku zjawisk społecznych, ekonomicznych,
przyrodniczych itp. zależności funkcyjne rzadko wystepuj
˛ a,
˛
cz˛eściej natomiast wystepuj
˛ a˛ zależności korelacyjne.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Analiza regresji
Wprowadzenie
W statystyce zależności o charakterze korelacyjnym
pomiedzy
˛
zmienna˛ Y a pewnym zespołem zmiennych
X1 , X2 , . . . , Xs wyraża sie˛ cz˛esto w postaci zbliżonej do
przedstawionej powyżej, ale z pewna˛ istotna˛ zmiana.
˛
Mianowicie:
Y = f (x1 , x2 , . . . , xs ) + Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Analiza regresji
Wprowadzenie
W statystyce zależności o charakterze korelacyjnym
pomiedzy
˛
zmienna˛ Y a pewnym zespołem zmiennych
X1 , X2 , . . . , Xs wyraża sie˛ cz˛esto w postaci zbliżonej do
przedstawionej powyżej, ale z pewna˛ istotna˛ zmiana.
˛
Mianowicie:
Y = f (x1 , x2 , . . . , xs ) + x1 , x2 , . . . , xs reprezentuja˛ tu konkretne (ustalone) wartości
zmiennych X1 , X2 , . . . , Xs ;
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Analiza regresji
Wprowadzenie
W statystyce zależności o charakterze korelacyjnym
pomiedzy
˛
zmienna˛ Y a pewnym zespołem zmiennych
X1 , X2 , . . . , Xs wyraża sie˛ cz˛esto w postaci zbliżonej do
przedstawionej powyżej, ale z pewna˛ istotna˛ zmiana.
˛
Mianowicie:
Y = f (x1 , x2 , . . . , xs ) + x1 , x2 , . . . , xs reprezentuja˛ tu konkretne (ustalone) wartości
zmiennych X1 , X2 , . . . , Xs ;
jest składnikiem losowym reprezentujacym
˛
sumaryczny
(nieobserwowany) wpływ innych czynników;
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Analiza regresji
Wprowadzenie
W statystyce zależności o charakterze korelacyjnym
pomiedzy
˛
zmienna˛ Y a pewnym zespołem zmiennych
X1 , X2 , . . . , Xs wyraża sie˛ cz˛esto w postaci zbliżonej do
przedstawionej powyżej, ale z pewna˛ istotna˛ zmiana.
˛
Mianowicie:
Y = f (x1 , x2 , . . . , xs ) + x1 , x2 , . . . , xs reprezentuja˛ tu konkretne (ustalone) wartości
zmiennych X1 , X2 , . . . , Xs ;
jest składnikiem losowym reprezentujacym
˛
sumaryczny
(nieobserwowany) wpływ innych czynników;
Dołaczenie
˛
składnika losowego powoduje, że konkretnym
wartościom x1 , x2 , . . . , xs moga˛ odpowiadać nie takie
same, ale różne wartości zmiennej Y .
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Analiza regresji
Terminologia
Zmienna objaśniana (zmienna zależna) – zmienna
bed
˛ aca
˛ przedmiotem badania. Na ogół oznaczamy ja˛
symbolem Y .
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Analiza regresji
Terminologia
Zmienna objaśniana (zmienna zależna) – zmienna
bed
˛ aca
˛ przedmiotem badania. Na ogół oznaczamy ja˛
symbolem Y .
Zmienne objaśniajace
˛ (zmienne niezależne) – zmienne,
za pomoca˛ których chcemy objaśnić zmiany zmiennej
zależnej. Na ogół oznaczamy je symbolami X1 , X2 , . . ..
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Analiza regresji
Terminologia
Zmienna objaśniana (zmienna zależna) – zmienna
bed
˛ aca
˛ przedmiotem badania. Na ogół oznaczamy ja˛
symbolem Y .
Zmienne objaśniajace
˛ (zmienne niezależne) – zmienne,
za pomoca˛ których chcemy objaśnić zmiany zmiennej
zależnej. Na ogół oznaczamy je symbolami X1 , X2 , . . ..
Funkcja regresji – funkcja odwzorowujaca
˛ zależność
pomiedzy
˛
zmienna˛ objaśniana˛ Y a zmiennymi
objaśniajacymi.
˛
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Analiza regresji
Terminologia
Zmienna objaśniana (zmienna zależna) – zmienna
bed
˛ aca
˛ przedmiotem badania. Na ogół oznaczamy ja˛
symbolem Y .
Zmienne objaśniajace
˛ (zmienne niezależne) – zmienne,
za pomoca˛ których chcemy objaśnić zmiany zmiennej
zależnej. Na ogół oznaczamy je symbolami X1 , X2 , . . ..
Funkcja regresji – funkcja odwzorowujaca
˛ zależność
pomiedzy
˛
zmienna˛ objaśniana˛ Y a zmiennymi
objaśniajacymi.
˛
W przypadku wielu zmiennych objaśniajacych
˛
mówimy o
regresji wielorakiej, natomiast w przypadku jednej
zmiennej objaśniajacej
˛ – o regresji jednej zmiennej.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Regresja liniowa jednej zmiennej
Dalej przyjmiemy nastepuj
˛ ace
˛ założenia:
Składnik losowy ma wartość średnia˛ równa˛ 0 i pewna˛
dodatnia˛ wariancje˛ oznaczana˛ symbolem σ 2 .
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Regresja liniowa jednej zmiennej
Dalej przyjmiemy nastepuj
˛ ace
˛ założenia:
Składnik losowy ma wartość średnia˛ równa˛ 0 i pewna˛
dodatnia˛ wariancje˛ oznaczana˛ symbolem σ 2 .
Mamy tylko jedna˛ zmienna˛ objaśniajac
˛ a˛ X .
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Regresja liniowa jednej zmiennej
Dalej przyjmiemy nastepuj
˛ ace
˛ założenia:
Składnik losowy ma wartość średnia˛ równa˛ 0 i pewna˛
dodatnia˛ wariancje˛ oznaczana˛ symbolem σ 2 .
Mamy tylko jedna˛ zmienna˛ objaśniajac
˛ a˛ X .
Funkcja f należy do klasy funkcji liniowych.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Regresja liniowa jednej zmiennej
Dalej przyjmiemy nastepuj
˛ ace
˛ założenia:
Składnik losowy ma wartość średnia˛ równa˛ 0 i pewna˛
dodatnia˛ wariancje˛ oznaczana˛ symbolem σ 2 .
Mamy tylko jedna˛ zmienna˛ objaśniajac
˛ a˛ X .
Funkcja f należy do klasy funkcji liniowych.
Model regresji liniowej:
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Regresja liniowa jednej zmiennej
Dalej przyjmiemy nastepuj
˛ ace
˛ założenia:
Składnik losowy ma wartość średnia˛ równa˛ 0 i pewna˛
dodatnia˛ wariancje˛ oznaczana˛ symbolem σ 2 .
Mamy tylko jedna˛ zmienna˛ objaśniajac
˛ a˛ X .
Funkcja f należy do klasy funkcji liniowych.
Model regresji liniowej:
Przy podanych założeniach, zależność pomiedzy
˛
cechami
Y i X możemy zapisać w postaci
Y = a + bx + ,
gdzie a i b sa˛ pewnymi parametrami.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Regresja liniowa jednej zmiennej
Dalej przyjmiemy nastepuj
˛ ace
˛ założenia:
Składnik losowy ma wartość średnia˛ równa˛ 0 i pewna˛
dodatnia˛ wariancje˛ oznaczana˛ symbolem σ 2 .
Mamy tylko jedna˛ zmienna˛ objaśniajac
˛ a˛ X .
Funkcja f należy do klasy funkcji liniowych.
Model regresji liniowej:
Przy podanych założeniach, zależność pomiedzy
˛
cechami
Y i X możemy zapisać w postaci
Y = a + bx + ,
gdzie a i b sa˛ pewnymi parametrami.
Model ten nazywamy modelem regresji liniowej jednej
zmiennej. Parametry a i b nazywamy odpowiednio
wyrazem wolnym i współczynnikiem regresji.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Regresja liniowa jednej zmiennej
Funkcje˛
f (x) = a + bx
nazywamy prosta˛ regresji.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Regresja liniowa jednej zmiennej
Funkcje˛
f (x) = a + bx
nazywamy prosta˛ regresji.
Podstawowym problemem, jaki pojawia sie˛ przy
wyznaczaniu równania prostej regresji, która opisywałaby
możliwie wiernie zależność pomiedzy
˛
konkretnymi
zmiennymi Y i X , jest określenie liczbowych wartości
parametrów a i b.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Regresja liniowa jednej zmiennej
Funkcje˛
f (x) = a + bx
nazywamy prosta˛ regresji.
Podstawowym problemem, jaki pojawia sie˛ przy
wyznaczaniu równania prostej regresji, która opisywałaby
możliwie wiernie zależność pomiedzy
˛
konkretnymi
zmiennymi Y i X , jest określenie liczbowych wartości
parametrów a i b.
Dokonujemy tego na podstawie obserwacji wartości cech
Y i X w badanej zbiorowości, stosujac
˛ tzw. metode˛
najmniejszych kwadratów MNK.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Regresja liniowa jednej zmiennej
Przykład
Agnieszka Rossa
Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Low Resolution
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Regresja liniowa jednej zmiennej
Przykład
Agnieszka Rossa
Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Low Resolution
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Regresja liniowa jednej zmiennej
Przykład – jak wyznaczyć prosta˛ regresji?
W tym przykładzie chcielibyśmy, żeby prosta najlepiej
przybliżała dana chmure˛ punktów, czyli by wartości różnic
yi − ŷi (tzw. wartości resztowe lub inaczej – wartości
składnika losowego) były jak najmniejsze dla wszystkich
badanych jednostek.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Regresja liniowa jednej zmiennej
Przykład – jak wyznaczyć prosta˛ regresji?
W tym przykładzie chcielibyśmy, żeby prosta najlepiej
przybliżała dana chmure˛ punktów, czyli by wartości różnic
yi − ŷi (tzw. wartości resztowe lub inaczej – wartości
składnika losowego) były jak najmniejsze dla wszystkich
badanych jednostek.
˛
prostej w kierunku
Jak łatwo zauważyć, przesuniecie
jednego z punktów może spowodować odsuniecie
˛
od
innych punktów. Tak wiec postulat, aby jednocześnie
minimalizować wszystkie wartości resztowe nie jest
możliwy do realizacji.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Regresja liniowa jednej zmiennej
Przykład – jak wyznaczyć prosta˛ regresji?
W tym przykładzie chcielibyśmy, żeby prosta najlepiej
przybliżała dana chmure˛ punktów, czyli by wartości różnic
yi − ŷi (tzw. wartości resztowe lub inaczej – wartości
składnika losowego) były jak najmniejsze dla wszystkich
badanych jednostek.
˛
prostej w kierunku
Jak łatwo zauważyć, przesuniecie
jednego z punktów może spowodować odsuniecie
˛
od
innych punktów. Tak wiec postulat, aby jednocześnie
minimalizować wszystkie wartości resztowe nie jest
możliwy do realizacji.
Jako kryterium dopasowania prostej regresji do danych
empirycznych przyjmuje sie˛ minimalizacje˛ sumy
kwadratów wartości resztowych.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Metoda najmniejszych kwadratów
Niech
(y1 , x1 ), (y2 , x2 ), . . . , (yn , xn ),
bedzie
˛
n-elementowym zbiorem wartości zmiennych Y i X .
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Metoda najmniejszych kwadratów
Niech
(y1 , x1 ), (y2 , x2 ), . . . , (yn , xn ),
bedzie
˛
n-elementowym zbiorem wartości zmiennych Y i X .
Rozważmy sume˛ kwadratów wartości resztowych
n
X
(yi − ŷi )2 ,
i=1
lub równoważnie
n
X
(yi − (a + bxi ))2 ,
i=1
która˛ oznaczymy symbolem S(a, b).
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Metoda najmniejszych kwadratów
Niech
(y1 , x1 ), (y2 , x2 ), . . . , (yn , xn ),
bedzie
˛
n-elementowym zbiorem wartości zmiennych Y i X .
Rozważmy sume˛ kwadratów wartości resztowych
n
X
(yi − ŷi )2 ,
i=1
lub równoważnie
n
X
(yi − (a + bxi ))2 ,
i=1
która˛ oznaczymy symbolem S(a, b).
Funkcje˛ regresji, dla której wartości parametrów a, b
wyznaczone zostały w drodze minimalizacji sumy S(a, b)
nazywamy prosta˛ regresji MNK i oznaczamy przez ŷ .
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Metoda najmniejszych kwadratów
Troche˛ matematyki, czyli jak obliczyć a i b
Po zrożniczkowaniu sumy S(a, b) wzgledem
˛
aib
i przyrównaniu obu pochodnych czastkowych
˛
do 0, mamy
n
X
∂S(a, b)
(yi − (a + bxi )) = 0,
= −2
∂a
∂S(a, b)
= −2
∂b
i=1
n
X
xi (yi − (a + bxi )) = 0.
i=1
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Metoda najmniejszych kwadratów
Troche˛ matematyki, czyli jak obliczyć a i b
Po zrożniczkowaniu sumy S(a, b) wzgledem
˛
aib
i przyrównaniu obu pochodnych czastkowych
˛
do 0, mamy
n
X
∂S(a, b)
(yi − (a + bxi )) = 0,
= −2
∂a
∂S(a, b)
= −2
∂b
i=1
n
X
xi (yi − (a + bxi )) = 0.
i=1
Zapisujac
˛ inaczej, mamy układ dwóch równań
n
X
yi − na − b
i=1
n
X
i=1
xi yi − a
n
X
xi = 0,
i=1
n
X
i=1
Agnieszka Rossa
xi − b
n
X
xi2 = 0.
i=1
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Metoda najmniejszych kwadratów
Troche˛ matematyki
Z pierwszego równania natychmiast otrzymujemy, że
!
n
n
X
1 X
a=
yi − b
xi = ȳ − bx̄.
n
i=1
Agnieszka Rossa
i=1
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Metoda najmniejszych kwadratów
Troche˛ matematyki
Z pierwszego równania natychmiast otrzymujemy, że
!
n
n
X
1 X
a=
yi − b
xi = ȳ − bx̄.
n
i=1
i=1
Po wstawieniu powyższego wyrażenia do drugiego
równania mamy także
n
X
xi yi − (ȳ − bx̄)
i=1
n
X
i=1
Agnieszka Rossa
xi − b
n
X
xi2 = 0,
i=1
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Metoda najmniejszych kwadratów
Troche˛ matematyki
Z pierwszego równania natychmiast otrzymujemy, że
!
n
n
X
1 X
a=
yi − b
xi = ȳ − bx̄.
n
i=1
i=1
Po wstawieniu powyższego wyrażenia do drugiego
równania mamy także
n
X
xi yi − (ȳ − bx̄)
i=1
n
X
i=1
xi − b
n
X
xi2 = 0,
i=1
co po przekształceniach daje
Pn
(xi − x̄)(yi − ȳ )
Pn
b = i=1
.
2
i=1 (xi − x̄)
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Metoda najmniejszych kwadratów
Podsumowanie
Równanie prostej regresji MNK ŷ = a + bx znajdziemy,
obliczajac
˛ wyraz wolny a oraz współczynnik regresji b,
które sa˛ określone nastepuj
˛ acymi
˛
wzorami
a = ȳ − bx̄,
Pn
(xi − x̄)(yi − ȳ )
Pn
b = i=1
,
2
i=1 (xi − x̄)
lub równoważnie
1 Pn
i=1 (xi − x̄)(yi − ȳ )
n
,
b=
sx2
gdzie
(y1 , x1 ), (y2 , x2 ), . . . , (yn , xn ),
sa˛ wartościami zmiennych Y i X w badanej zbiorowości.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Relacja łacz
˛ aca
˛ współczynnik regresji i współczynnik korelacji
liniowej Pearsona
Porównajmy wzory na współczynnik regresji b oraz
współczynnik korelacji liniowej Pearsona r :
1 Pn
1 Pn
i=1 (xi − x̄)(yi − ȳ )
i=1 (xi − x̄)(yi − ȳ )
n
n
b=
,
r=
.
2
sx · sy
sx
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Relacja łacz
˛ aca
˛ współczynnik regresji i współczynnik korelacji
liniowej Pearsona
Porównajmy wzory na współczynnik regresji b oraz
współczynnik korelacji liniowej Pearsona r :
1 Pn
1 Pn
i=1 (xi − x̄)(yi − ȳ )
i=1 (xi − x̄)(yi − ȳ )
n
n
b=
,
r=
.
2
sx · sy
sx
Wniosek 1: Pomiedzy
˛
współczynnikami b i r zachodzi
równość
sy
b=r·
sx
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Relacja łacz
˛ aca
˛ współczynnik regresji i współczynnik korelacji
liniowej Pearsona
Porównajmy wzory na współczynnik regresji b oraz
współczynnik korelacji liniowej Pearsona r :
1 Pn
1 Pn
i=1 (xi − x̄)(yi − ȳ )
i=1 (xi − x̄)(yi − ȳ )
n
n
b=
,
r=
.
2
sx · sy
sx
Wniosek 1: Pomiedzy
˛
współczynnikami b i r zachodzi
równość
sy
b=r·
sx
Wniosek 2: Współczynniki b i r maja˛ zawsze ten sam
znak, przy czym współczynnik b nie musi należeć do
przedziału [−1, 1], w przeciwieństwie do współczynnika r
korelacji liniowej Pearsona.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Regresja liniowa jednej zmiennej
Przykład c.d.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Ocena ”dobroci” dopasowania prostej regresji MNK
Jak wiemy, zmienność każdej cechy ilościowej, a wiec
˛
również zmiennej objaśnianej Y , możemy oceniać np. za
pomoca˛ wariancji sy2 :
n
sy2 =
1X
(yi − ȳ )2 ,
n
i=1
gdzie y1 , y2 , . . . , yn jest n-elementowym zbiorem
zaobserowanych wartości tej zmiennej.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Ocena ”dobroci” dopasowania prostej regresji MNK
Jak wiemy, zmienność każdej cechy ilościowej, a wiec
˛
również zmiennej objaśnianej Y , możemy oceniać np. za
pomoca˛ wariancji sy2 :
n
sy2 =
1X
(yi − ȳ )2 ,
n
i=1
gdzie y1 , y2 , . . . , yn jest n-elementowym zbiorem
zaobserowanych wartości tej zmiennej.
Pomijajac
˛ składnik 1/n w powyższym wyrażeniu,
otrzymujemy wzór na tzw. całkowita˛ sume˛ kwadratów
SST =
n
X
(yi − ȳ )2 .
i=1
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Ocena ”dobroci” dopasowania prostej regresji MNK
Jak wiemy, zmienność każdej cechy ilościowej, a wiec
˛
również zmiennej objaśnianej Y , możemy oceniać np. za
pomoca˛ wariancji sy2 :
n
sy2 =
1X
(yi − ȳ )2 ,
n
i=1
gdzie y1 , y2 , . . . , yn jest n-elementowym zbiorem
zaobserowanych wartości tej zmiennej.
Pomijajac
˛ składnik 1/n w powyższym wyrażeniu,
otrzymujemy wzór na tzw. całkowita˛ sume˛ kwadratów
SST =
n
X
(yi − ȳ )2 .
i=1
Można pokazać, że SST daje sie˛ rozbić na dwie sumy,
które także interpretujemy w kategoriach zmienności.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Ocena ”dobroci” dopasowania prostej regresji MNK
Mianowicie
n
n
X
X
2
SST =
(yi − ŷi ) +
(ŷi − ȳ )2 ,
i=1
i=1
gdzie ŷi = a + bxi .
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Ocena ”dobroci” dopasowania prostej regresji MNK
Mianowicie
n
n
X
X
2
SST =
(yi − ŷi ) +
(ŷi − ȳ )2 ,
i=1
i=1
gdzie ŷi = a + bxi .
Pierwszy ze składników nosi nazwe˛ sumy kwadratów
błedów,
˛
ponieważ jest suma˛ kwadratów wartości
resztowych. Jest oznaczany przez SSE. Drugi składnik
nosi miano regresyjnej sumy kwadratów i jest oznaczany
symbolem SSR.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Ocena ”dobroci” dopasowania prostej regresji MNK
Mianowicie
n
n
X
X
2
SST =
(yi − ŷi ) +
(ŷi − ȳ )2 ,
i=1
i=1
gdzie ŷi = a + bxi .
Pierwszy ze składników nosi nazwe˛ sumy kwadratów
błedów,
˛
ponieważ jest suma˛ kwadratów wartości
resztowych. Jest oznaczany przez SSE. Drugi składnik
nosi miano regresyjnej sumy kwadratów i jest oznaczany
symbolem SSR.
Suma SSR jest cz˛eścia˛ zmienności całkowitej SST , która˛
można objaśnić za pomoca˛ regresji miedzy
˛
zmienna˛
objaśniana˛ Y i zmienna˛ objaśniajac
˛ a˛ X .
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Ocena ”dobroci” dopasowania prostej regresji MNK
Mianowicie
n
n
X
X
2
SST =
(yi − ŷi ) +
(ŷi − ȳ )2 ,
i=1
i=1
gdzie ŷi = a + bxi .
Pierwszy ze składników nosi nazwe˛ sumy kwadratów
błedów,
˛
ponieważ jest suma˛ kwadratów wartości
resztowych. Jest oznaczany przez SSE. Drugi składnik
nosi miano regresyjnej sumy kwadratów i jest oznaczany
symbolem SSR.
Suma SSR jest cz˛eścia˛ zmienności całkowitej SST , która˛
można objaśnić za pomoca˛ regresji miedzy
˛
zmienna˛
objaśniana˛ Y i zmienna˛ objaśniajac
˛ a˛ X .
Z kolei sume˛ SSE traktujemy jako te˛ cz˛eść zmienności
SST , która nie jest wyjaśniona przez model regresji.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Ocena ”dobroci” dopasowania prostej regresji MNK
Iloraz
Pn
(ŷi − ȳ )2
SSR
= Pi=1
R =
,
n
2
SST
i=1 (yi − ȳ )
2
jest nazwany współczynnikiem determinacji.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Ocena ”dobroci” dopasowania prostej regresji MNK
Iloraz
Pn
(ŷi − ȳ )2
SSR
= Pi=1
R =
,
n
2
SST
i=1 (yi − ȳ )
2
jest nazwany współczynnikiem determinacji.
R 2 jest miara˛ stopnia dopasowania funkcji regresji do
danych empirycznych.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Ocena ”dobroci” dopasowania prostej regresji MNK
Iloraz
Pn
(ŷi − ȳ )2
SSR
= Pi=1
R =
,
n
2
SST
i=1 (yi − ȳ )
2
jest nazwany współczynnikiem determinacji.
R 2 jest miara˛ stopnia dopasowania funkcji regresji do
danych empirycznych.
W przypadku regresji liniowej jednej zmiennej
współczynnik determinacji R 2 równy jest kwadratowi
współczynnika korelacji liniowej Pearsona.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Ocena ”dobroci” dopasowania prostej regresji MNK
Przykład c.d.
Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Low Resolution
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Przewidywanie na podstawie funkcji regresji
Funkcje˛ regresji można wykorzystać do przewidywania
wartości zmiennej objaśnianej Y na podstawie znanych
wartości zmiennej objaśniajacych
˛
(ekstrapolacja).
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Przewidywanie na podstawie funkcji regresji
Funkcje˛ regresji można wykorzystać do przewidywania
wartości zmiennej objaśnianej Y na podstawie znanych
wartości zmiennej objaśniajacych
˛
(ekstrapolacja).
Tego rodzaju przewidywanie ma sens przy założeniu, że
charakter zależności i oddziaływania czynników nie
uwzglednionych
˛
w modelu sa˛ podobne do zaobserwowanych w badanej zbiorowości.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Przewidywanie na podstawie funkcji regresji
Funkcje˛ regresji można wykorzystać do przewidywania
wartości zmiennej objaśnianej Y na podstawie znanych
wartości zmiennej objaśniajacych
˛
(ekstrapolacja).
Tego rodzaju przewidywanie ma sens przy założeniu, że
charakter zależności i oddziaływania czynników nie
uwzglednionych
˛
w modelu sa˛ podobne do zaobserwowanych w badanej zbiorowości.
W naszym przykładzie otrzymaliśmy prosta˛ regresji:
ŷ = 5, 17 + 1, 76 · x Na tej podstawie możemy ocenić np.
oczekiwany wynik z egzaminu dla osoby, która otrzymałaby
z kolokwium 18 punktów. Mamy:
ŷ(x=18) = 5, 17 + 1, 76 · 18 = 36, 85 ≈ 37 pkt
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Przewidywanie na podstawie funkcji regresji
Funkcje˛ regresji można wykorzystać do przewidywania
wartości zmiennej objaśnianej Y na podstawie znanych
wartości zmiennej objaśniajacych
˛
(ekstrapolacja).
Tego rodzaju przewidywanie ma sens przy założeniu, że
charakter zależności i oddziaływania czynników nie
uwzglednionych
˛
w modelu sa˛ podobne do zaobserwowanych w badanej zbiorowości.
W naszym przykładzie otrzymaliśmy prosta˛ regresji:
ŷ = 5, 17 + 1, 76 · x Na tej podstawie możemy ocenić np.
oczekiwany wynik z egzaminu dla osoby, która otrzymałaby
z kolokwium 18 punktów. Mamy:
ŷ(x=18) = 5, 17 + 1, 76 · 18 = 36, 85 ≈ 37 pkt
Należy jednak pamietać,
˛
że przy tego rodzaju przewidywaniach możemy sie˛ mylić o pewna˛ wartość. W celu oceny
skali błedu
˛
obliczamy tzw. średni bład
˛ przewidywania.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Przewidywanie na podstawie funkcji regresji
Rozważmy pierwiastek kwadratowy sumy kwadratów
błedów
˛
SSE podzielony przez liczebność zbiorowości,
pomniejszona˛ o liczbe˛ parametrów funkcji regresji
(w przypadku regresji liniowej jednej zmiennej liczba
parametrów równa jest 2). Mamy:
v
r
u
n
u 1 X
SSE
t
=
(yi − ŷi )2
S =
n−2
n−2
i=1
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Przewidywanie na podstawie funkcji regresji
Rozważmy pierwiastek kwadratowy sumy kwadratów
błedów
˛
SSE podzielony przez liczebność zbiorowości,
pomniejszona˛ o liczbe˛ parametrów funkcji regresji
(w przypadku regresji liniowej jednej zmiennej liczba
parametrów równa jest 2). Mamy:
v
r
u
n
u 1 X
SSE
t
=
(yi − ŷi )2
S =
n−2
n−2
i=1
Powyższe wyrażenie nazywamy średnim błedem
˛
przewidywania. W naszym przykładzie S jest równe:
r
69, 26
S =
≈ 2, 02
19 − 2
zatem przewidujac
˛ wynik z egzaminu na podstawie wyznaczonej prostej regresji, mylimy sie˛ średnio o ok. 2 pkt.
Agnieszka Rossa
ANALIZA KORELACJI I REGRESJI

Podobne dokumenty