ANALIZA KORELACJI I REGRESJI
Transkrypt
ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne Regresja liniowa ANALIZA KORELACJI I REGRESJI Agnieszka Rossa Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Szkic wykładu 1 Zależności korelacyjne 2 Regresja liniowa Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Zależności korelacyjne Przykłady Badajac ˛ różnego rodzaju zjawiska, np. społeczne, ekonomiczne, psychologiczne, przyrodniczne itp. stwierdzamy niemal zawsze, że każde z nich jest uwarunkowane działaniem innych zjawisk. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Zależności korelacyjne Przykłady Badajac ˛ różnego rodzaju zjawiska, np. społeczne, ekonomiczne, psychologiczne, przyrodniczne itp. stwierdzamy niemal zawsze, że każde z nich jest uwarunkowane działaniem innych zjawisk. Istnienie zwiazków ˛ pomiedzy ˛ zjawiskami charakteryzujacymi ˛ badane zbiorowości bywa cz˛esto przedmiotem dociekań i eksperymentów naukowych. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Zależności korelacyjne Przykłady Badajac ˛ różnego rodzaju zjawiska, np. społeczne, ekonomiczne, psychologiczne, przyrodniczne itp. stwierdzamy niemal zawsze, że każde z nich jest uwarunkowane działaniem innych zjawisk. Istnienie zwiazków ˛ pomiedzy ˛ zjawiskami charakteryzujacymi ˛ badane zbiorowości bywa cz˛esto przedmiotem dociekań i eksperymentów naukowych. Przykład: David Buss w publikacji z 2001 roku pt. ”Psychologia ewolucyjna. Jak wytłumaczyć społeczne zachowania człowieka?”, opisał badanie, w którym sprawdzał, czy istnieje zwiazek ˛ miedzy ˛ szybkościa˛ chodzenia a pozycja˛ społeczna. ˛ Okazało sie, ˛ że zwiazek ˛ ten jest dość wyraźny wśród meżczyzn, ˛ natomiast w mniejszym stopniu wśród kobiet. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Zależności korelacyjne Przykłady Inny przykład: Allison i Cicchetti w pracy ”Sleep in mammals” (Science, 194, 1976) opisali badania przeprowadzone wśród przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji (pomiarów) były m.in. nastepuj ˛ ace ˛ charakterystyki: Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Zależności korelacyjne Przykłady Inny przykład: Allison i Cicchetti w pracy ”Sleep in mammals” (Science, 194, 1976) opisali badania przeprowadzone wśród przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji (pomiarów) były m.in. nastepuj ˛ ace ˛ charakterystyki: długość snu w ciagu ˛ doby (godz/dobe), ˛ Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Zależności korelacyjne Przykłady Inny przykład: Allison i Cicchetti w pracy ”Sleep in mammals” (Science, 194, 1976) opisali badania przeprowadzone wśród przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji (pomiarów) były m.in. nastepuj ˛ ace ˛ charakterystyki: długość snu w ciagu ˛ doby (godz/dobe), ˛ maksymalna długości życia (lata), Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Zależności korelacyjne Przykłady Inny przykład: Allison i Cicchetti w pracy ”Sleep in mammals” (Science, 194, 1976) opisali badania przeprowadzone wśród przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji (pomiarów) były m.in. nastepuj ˛ ace ˛ charakterystyki: długość snu w ciagu ˛ doby (godz/dobe), ˛ maksymalna długości życia (lata), masa ciała (kg), Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Zależności korelacyjne Przykłady Inny przykład: Allison i Cicchetti w pracy ”Sleep in mammals” (Science, 194, 1976) opisali badania przeprowadzone wśród przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji (pomiarów) były m.in. nastepuj ˛ ace ˛ charakterystyki: długość snu w ciagu ˛ doby (godz/dobe), ˛ maksymalna długości życia (lata), masa ciała (kg), masa mózgu (g), Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Zależności korelacyjne Przykłady Inny przykład: Allison i Cicchetti w pracy ”Sleep in mammals” (Science, 194, 1976) opisali badania przeprowadzone wśród przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji (pomiarów) były m.in. nastepuj ˛ ace ˛ charakterystyki: długość snu w ciagu ˛ doby (godz/dobe), ˛ maksymalna długości życia (lata), masa ciała (kg), masa mózgu (g), czas trwania ciaży ˛ (dni). Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Zależności korelacyjne Przykłady Inny przykład: Allison i Cicchetti w pracy ”Sleep in mammals” (Science, 194, 1976) opisali badania przeprowadzone wśród przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji (pomiarów) były m.in. nastepuj ˛ ace ˛ charakterystyki: długość snu w ciagu ˛ doby (godz/dobe), ˛ maksymalna długości życia (lata), masa ciała (kg), masa mózgu (g), czas trwania ciaży ˛ (dni). Cel badania: Ustalenie, czy istnieja˛ jakiekolwiek zależności pomiedzy ˛ wymienionymi charakterystykami, a jeśli tak, to jaka jest siła tych zależności. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Zależności korelacyjne Przykłady Inny przykład: Allison i Cicchetti w pracy ”Sleep in mammals” (Science, 194, 1976) opisali badania przeprowadzone wśród przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji (pomiarów) były m.in. nastepuj ˛ ace ˛ charakterystyki: długość snu w ciagu ˛ doby (godz/dobe), ˛ maksymalna długości życia (lata), masa ciała (kg), masa mózgu (g), czas trwania ciaży ˛ (dni). Cel badania: Ustalenie, czy istnieja˛ jakiekolwiek zależności pomiedzy ˛ wymienionymi charakterystykami, a jeśli tak, to jaka jest siła tych zależności. Wyniki badań: Bed ˛ a˛ przedstawione dalej. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Zależności korelacyjne Przykłady Kolejny przykład: Zwiazek ˛ pomiedzy ˛ waga˛ a wzrostem człowieka próbuje sie˛ wyrazić za pomoca˛ tzw. wskaźnika BMI (Body Mass Index): waga BMI = (wzrost w metrach)2 Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Zależności korelacyjne Przykłady Kolejny przykład: Zwiazek ˛ pomiedzy ˛ waga˛ a wzrostem człowieka próbuje sie˛ wyrazić za pomoca˛ tzw. wskaźnika BMI (Body Mass Index): waga BMI = (wzrost w metrach)2 Przyjmuje sie, ˛ że wartość BMI dla osób z prawidłowa˛ masa˛ ciała zawiera sie˛ mniej wiecej ˛ w przedziale 18, 5 ≤ BMI < 25. Jednak BMI kształtuje sie˛ na poziomie indywidualnym dla konkretnych osób i może znacznie przekraczać wartość 25. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Zależności korelacyjne Przykłady Kolejny przykład: Zwiazek ˛ pomiedzy ˛ waga˛ a wzrostem człowieka próbuje sie˛ wyrazić za pomoca˛ tzw. wskaźnika BMI (Body Mass Index): waga BMI = (wzrost w metrach)2 Przyjmuje sie, ˛ że wartość BMI dla osób z prawidłowa˛ masa˛ ciała zawiera sie˛ mniej wiecej ˛ w przedziale 18, 5 ≤ BMI < 25. Jednak BMI kształtuje sie˛ na poziomie indywidualnym dla konkretnych osób i może znacznie przekraczać wartość 25. Przykład ten wskazuje, że zależność miedzy ˛ waga˛ a wzrostem nie jest ściśle funkcyjna. Podana formuła opisuje tylko w przybliżeniu te˛ zależności. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Zależność korelacyjna Przy analizie współzależności pomiedzy ˛ wzrostem i waga, ˛ nie oczekujemy, aby zależność ta była ściśle funkcyjna, tzn. aby istniała jednoznacznie określona funkcja matematyczna y = f (x), podajaca ˛ wage˛ y konkretnej osoby z ustalonym wzrostem x. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Zależność korelacyjna Przy analizie współzależności pomiedzy ˛ wzrostem i waga, ˛ nie oczekujemy, aby zależność ta była ściśle funkcyjna, tzn. aby istniała jednoznacznie określona funkcja matematyczna y = f (x), podajaca ˛ wage˛ y konkretnej osoby z ustalonym wzrostem x. Mimo tego wydaje sie, ˛ że ”jakaś” zależność pomiedzy ˛ waga˛ i wzrostem istnieje. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Zależność korelacyjna Przy analizie współzależności pomiedzy ˛ wzrostem i waga, ˛ nie oczekujemy, aby zależność ta była ściśle funkcyjna, tzn. aby istniała jednoznacznie określona funkcja matematyczna y = f (x), podajaca ˛ wage˛ y konkretnej osoby z ustalonym wzrostem x. Mimo tego wydaje sie, ˛ że ”jakaś” zależność pomiedzy ˛ waga˛ i wzrostem istnieje. Obserwujac ˛ obie cechy w dużej zbiorowości osób, dojdziemy do przekonania, że średnia waga jest wieksza ˛ w grupie osób wyższych i na odwrót. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Zależność korelacyjna Przy analizie współzależności pomiedzy ˛ wzrostem i waga, ˛ nie oczekujemy, aby zależność ta była ściśle funkcyjna, tzn. aby istniała jednoznacznie określona funkcja matematyczna y = f (x), podajaca ˛ wage˛ y konkretnej osoby z ustalonym wzrostem x. Mimo tego wydaje sie, ˛ że ”jakaś” zależność pomiedzy ˛ waga˛ i wzrostem istnieje. Obserwujac ˛ obie cechy w dużej zbiorowości osób, dojdziemy do przekonania, że średnia waga jest wieksza ˛ w grupie osób wyższych i na odwrót. Zwiazek ˛ miedzy ˛ waga˛ i wzrostem jest przykładem tzw. zwiazku ˛ korelacyjnego, w skrócie – korelacji. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Zależność korelacyjna Przy analizie współzależności pomiedzy ˛ wzrostem i waga, ˛ nie oczekujemy, aby zależność ta była ściśle funkcyjna, tzn. aby istniała jednoznacznie określona funkcja matematyczna y = f (x), podajaca ˛ wage˛ y konkretnej osoby z ustalonym wzrostem x. Mimo tego wydaje sie, ˛ że ”jakaś” zależność pomiedzy ˛ waga˛ i wzrostem istnieje. Obserwujac ˛ obie cechy w dużej zbiorowości osób, dojdziemy do przekonania, że średnia waga jest wieksza ˛ w grupie osób wyższych i na odwrót. Zwiazek ˛ miedzy ˛ waga˛ i wzrostem jest przykładem tzw. zwiazku ˛ korelacyjnego, w skrócie – korelacji. Z korelacja˛ mamy do czynienia wtedy, gdy wraz ze zmiana˛ wartości jednej cechy zmienia sie˛ średnia wartość drugiej cechy. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Zależność korelacyjna Przykład korelacji wagi i wzrostu Agnieszka Rossa Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Low Resolution ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Współczynnik korelacji Pearsona Przykład korelacji wagi i wzrostu – c.d. Agnieszka Rossa Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Low Resolution ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Zależność korelacyjna Inne przykłady Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Low Resolution Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Zależność korelacyjna Wstepne ˛ wnioski z przedstawionych przykładów Zwiazek ˛ korelacyjny można odkryć obserwujac ˛ duża˛ liczbe˛ przypadków. Nie ujawnia sie˛ w pojedycznych obserwacjach. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Zależność korelacyjna Wstepne ˛ wnioski z przedstawionych przykładów Zwiazek ˛ korelacyjny można odkryć obserwujac ˛ duża˛ liczbe˛ przypadków. Nie ujawnia sie˛ w pojedycznych obserwacjach. Zależność korelacyjna może być prostoliniowa (w skrócie – liniowa) lub krzywoliniowa, silna lub słaba. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Zależność korelacyjna Wstepne ˛ wnioski z przedstawionych przykładów Zwiazek ˛ korelacyjny można odkryć obserwujac ˛ duża˛ liczbe˛ przypadków. Nie ujawnia sie˛ w pojedycznych obserwacjach. Zależność korelacyjna może być prostoliniowa (w skrócie – liniowa) lub krzywoliniowa, silna lub słaba. Na podstawie obserwacji wykresu rozproszenia możemy w przybliżeniu ocenić charakter zależności i jej siłe. ˛ Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Zależność korelacyjna Wstepne ˛ wnioski z przedstawionych przykładów Zwiazek ˛ korelacyjny można odkryć obserwujac ˛ duża˛ liczbe˛ przypadków. Nie ujawnia sie˛ w pojedycznych obserwacjach. Zależność korelacyjna może być prostoliniowa (w skrócie – liniowa) lub krzywoliniowa, silna lub słaba. Na podstawie obserwacji wykresu rozproszenia możemy w przybliżeniu ocenić charakter zależności i jej siłe. ˛ Potrzebujemy miary, która pomógłaby wyrazić siłe˛ zależności w sposób liczbowy. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Pomiar siły korelacji liniowej Współczynnik korelacji liniowej Pearsona Załóżmy, że miedzy ˛ cechami X i Y wystepuje ˛ zależność korelacyjna o charakterze liniowym. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Pomiar siły korelacji liniowej Współczynnik korelacji liniowej Pearsona Załóżmy, że miedzy ˛ cechami X i Y wystepuje ˛ zależność korelacyjna o charakterze liniowym. Współczynnikiem służacym ˛ do pomiaru siły tego zwiazku ˛ jest współczynnik korelacji liniowej Pearsona określony wzorem 1 Pn i=1 (xi − x̄)(yi − ȳ ) n r= , sx · sy gdzie x̄, ȳ oznaczaja˛ średnie arytmetyczne, natomiast sx , sy – odchylenia standardowe zmiennych odpowiednio X i Y. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Pomiar siły korelacji liniowej Średnie arytmetyczne i odchylenia standardowe – przypomnienie Średnie arytmetyczne: n 1X xi , x̄ = n i=1 Odchylenia standardowe: v u n u1 X sx = t (xi − x̄)2 , n i=1 Agnieszka Rossa n 1X ȳ = yi . n i=1 v u n u1 X sy = t (yi − ȳ )2 . n i=1 ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Współczynnik korelacji liniowej Pearsona Własności Współczynnik r korelacji liniowej Pearsona przyjmuje zawsze wartości z przedziału [−1, 1]. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Współczynnik korelacji liniowej Pearsona Własności Współczynnik r korelacji liniowej Pearsona przyjmuje zawsze wartości z przedziału [−1, 1]. Znak współczynnika informuje o kierunku korelacji (liniowa ujemna lub liniowa dodatnia). Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Współczynnik korelacji liniowej Pearsona Własności Współczynnik r korelacji liniowej Pearsona przyjmuje zawsze wartości z przedziału [−1, 1]. Znak współczynnika informuje o kierunku korelacji (liniowa ujemna lub liniowa dodatnia). Wartość bezwzgledna ˛ |r | informuje o sile korelacji liniowej. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Współczynnik korelacji liniowej Pearsona Własności Współczynnik r korelacji liniowej Pearsona przyjmuje zawsze wartości z przedziału [−1, 1]. Znak współczynnika informuje o kierunku korelacji (liniowa ujemna lub liniowa dodatnia). Wartość bezwzgledna ˛ |r | informuje o sile korelacji liniowej. W szczególnym przypadku, gdy |r | = 1, wówczas mamy do czynienia z korelacja˛ funkcyjna˛ (tzn. zależność Y od X można wyrazić za pomoca˛ funkcji Y = aX + b, gdzie a, b sa˛ pewnymi stałymi). Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Współczynnik korelacji liniowej Pearsona Własności Współczynnik r korelacji liniowej Pearsona przyjmuje zawsze wartości z przedziału [−1, 1]. Znak współczynnika informuje o kierunku korelacji (liniowa ujemna lub liniowa dodatnia). Wartość bezwzgledna ˛ |r | informuje o sile korelacji liniowej. W szczególnym przypadku, gdy |r | = 1, wówczas mamy do czynienia z korelacja˛ funkcyjna˛ (tzn. zależność Y od X można wyrazić za pomoca˛ funkcji Y = aX + b, gdzie a, b sa˛ pewnymi stałymi). Współczynnik r mierzy tylko korelacje˛ o charakterze prostoliniowym. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Współczynnik korelacji liniowej Pearsona Własności Współczynnik r korelacji liniowej Pearsona przyjmuje zawsze wartości z przedziału [−1, 1]. Znak współczynnika informuje o kierunku korelacji (liniowa ujemna lub liniowa dodatnia). Wartość bezwzgledna ˛ |r | informuje o sile korelacji liniowej. W szczególnym przypadku, gdy |r | = 1, wówczas mamy do czynienia z korelacja˛ funkcyjna˛ (tzn. zależność Y od X można wyrazić za pomoca˛ funkcji Y = aX + b, gdzie a, b sa˛ pewnymi stałymi). Współczynnik r mierzy tylko korelacje˛ o charakterze prostoliniowym. Gdy r = 0, wówczas mówimy, że nie ma korelacji liniowej (ale może być krzywoliniowa). Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Współczynniki korelacji liniowej Pearsona Allison i Cicchetti – Wyniki badań ssaków macierz współczynników korelacji liniowej Pearsona masa ciała (kg) masa mózgu (g) czas snu (godz/dobe) ˛ maks. długość życia (lata) czas ciaży ˛ (dni) masa ciała (kg) 1 0,93 -0,31 0,30 0,65 masa mózgu (g) 0,93 1 -0,36 0,51 0,75 czas snu (godz/dobe) ˛ -0,31 -0,36 1 -0,41 -0,63 maks. długość życia (lata) 0,30 0,51 -0,41 1 0,61 czas ciaży ˛ (dni) 0,65 0,75 -0,63 0,61 1 Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Współczynniki korelacji liniowej Pearsona Allison i Cicchetti – Wyniki badań ssaków macierz współczynników korelacji liniowej Pearsona masa ciała (kg) masa mózgu (g) czas snu (godz/dobe) ˛ maks. długość życia (lata) czas ciaży ˛ (dni) masa ciała (kg) 1 0,93 -0,31 0,30 0,65 masa mózgu (g) 0,93 1 -0,36 0,51 0,75 czas snu (godz/dobe) ˛ -0,31 -0,36 1 -0,41 -0,63 maks. długość życia (lata) 0,30 0,51 -0,41 1 0,61 czas ciaży ˛ (dni) 0,65 0,75 -0,63 0,61 1 Kilka wybranych uwag podsumowania: Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Współczynniki korelacji liniowej Pearsona Allison i Cicchetti – Wyniki badań ssaków macierz współczynników korelacji liniowej Pearsona masa ciała (kg) masa mózgu (g) czas snu (godz/dobe) ˛ maks. długość życia (lata) czas ciaży ˛ (dni) masa ciała (kg) 1 0,93 -0,31 0,30 0,65 masa mózgu (g) 0,93 1 -0,36 0,51 0,75 czas snu (godz/dobe) ˛ -0,31 -0,36 1 -0,41 -0,63 maks. długość życia (lata) 0,30 0,51 -0,41 1 0,61 czas ciaży ˛ (dni) 0,65 0,75 -0,63 0,61 1 Kilka wybranych uwag podsumowania: wszystkie cechy sa˛ ze soba˛ wzajemnie powiazane ˛ (w mniejszym lub wiekszym ˛ stopniu), Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Współczynniki korelacji liniowej Pearsona Allison i Cicchetti – Wyniki badań ssaków macierz współczynników korelacji liniowej Pearsona masa ciała (kg) masa mózgu (g) czas snu (godz/dobe) ˛ maks. długość życia (lata) czas ciaży ˛ (dni) masa ciała (kg) 1 0,93 -0,31 0,30 0,65 masa mózgu (g) 0,93 1 -0,36 0,51 0,75 czas snu (godz/dobe) ˛ -0,31 -0,36 1 -0,41 -0,63 maks. długość życia (lata) 0,30 0,51 -0,41 1 0,61 czas ciaży ˛ (dni) 0,65 0,75 -0,63 0,61 1 Kilka wybranych uwag podsumowania: wszystkie cechy sa˛ ze soba˛ wzajemnie powiazane ˛ (w mniejszym lub wiekszym ˛ stopniu), można zauważyć silna, ˛ dodatnia˛ korelacje˛ liniowa˛ miedzy ˛ masa˛ mózgu i ciała, Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Współczynniki korelacji liniowej Pearsona Allison i Cicchetti – Wyniki badań ssaków macierz współczynników korelacji liniowej Pearsona masa ciała (kg) masa mózgu (g) czas snu (godz/dobe) ˛ maks. długość życia (lata) czas ciaży ˛ (dni) masa ciała (kg) 1 0,93 -0,31 0,30 0,65 masa mózgu (g) 0,93 1 -0,36 0,51 0,75 czas snu (godz/dobe) ˛ -0,31 -0,36 1 -0,41 -0,63 maks. długość życia (lata) 0,30 0,51 -0,41 1 0,61 czas ciaży ˛ (dni) 0,65 0,75 -0,63 0,61 1 Kilka wybranych uwag podsumowania: wszystkie cechy sa˛ ze soba˛ wzajemnie powiazane ˛ (w mniejszym lub wiekszym ˛ stopniu), można zauważyć silna, ˛ dodatnia˛ korelacje˛ liniowa˛ miedzy ˛ masa˛ mózgu i ciała, umiarkowana, ujemna korelacja liniowa miedzy ˛ czasem snu a czasem życia, Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Współczynniki korelacji liniowej Pearsona Allison i Cicchetti – Wyniki badań ssaków macierz współczynników korelacji liniowej Pearsona masa ciała (kg) masa mózgu (g) czas snu (godz/dobe) ˛ maks. długość życia (lata) czas ciaży ˛ (dni) masa ciała (kg) 1 0,93 -0,31 0,30 0,65 masa mózgu (g) 0,93 1 -0,36 0,51 0,75 czas snu (godz/dobe) ˛ -0,31 -0,36 1 -0,41 -0,63 maks. długość życia (lata) 0,30 0,51 -0,41 1 0,61 czas ciaży ˛ (dni) 0,65 0,75 -0,63 0,61 1 Kilka wybranych uwag podsumowania: wszystkie cechy sa˛ ze soba˛ wzajemnie powiazane ˛ (w mniejszym lub wiekszym ˛ stopniu), można zauważyć silna, ˛ dodatnia˛ korelacje˛ liniowa˛ miedzy ˛ masa˛ mózgu i ciała, umiarkowana, ujemna korelacja liniowa miedzy ˛ czasem snu a czasem życia, dość silna korelacja (dodatnia lub ujemna) czasu ciaży ˛ z innymi zmiennymi, Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Współczynniki korelacji liniowej Pearsona Allison i Cicchetti – Wyniki badań ssaków macierz współczynników korelacji liniowej Pearsona masa ciała (kg) masa mózgu (g) czas snu (godz/dobe) ˛ maks. długość życia (lata) czas ciaży ˛ (dni) masa ciała (kg) 1 0,93 -0,31 0,30 0,65 masa mózgu (g) 0,93 1 -0,36 0,51 0,75 czas snu (godz/dobe) ˛ -0,31 -0,36 1 -0,41 -0,63 maks. długość życia (lata) 0,30 0,51 -0,41 1 0,61 czas ciaży ˛ (dni) 0,65 0,75 -0,63 0,61 1 Kilka wybranych uwag podsumowania: wszystkie cechy sa˛ ze soba˛ wzajemnie powiazane ˛ (w mniejszym lub wiekszym ˛ stopniu), można zauważyć silna, ˛ dodatnia˛ korelacje˛ liniowa˛ miedzy ˛ masa˛ mózgu i ciała, umiarkowana, ujemna korelacja liniowa miedzy ˛ czasem snu a czasem życia, dość silna korelacja (dodatnia lub ujemna) czasu ciaży ˛ z innymi zmiennymi, Pytanie: Jak opisać zależność np. czasu ciaży ˛ od wszystkich pozostałych zmiennych jednocześnie? Odpowiedzi dostarcza analiza regresji. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Korelacja a zależności pozorne – Przykład Czy w krajach, w których jest wiecej ˛ bocianów rodzi sie˛ wiecej ˛ dzieci? Wyniki analizy korelacji liniowej dla 17 krajów europejskich (dane z 1990 roku) pomiedzy ˛ powierzchnia, ˛ liczba˛ mieszkańców, liczba˛ urodzeń oraz liczba˛ bocianów (!): macierz współczynników korelacji liniowej Pearsona powierzchnia liczba bocianów liczba mieszkańców liczba urodzeń 1 0,579 0,812 0,923 liczba bocianów 0,579 1 0,354 0,620 liczba mieszkańców 0,812 0,354 1 0,851 liczba urodzeń 0,923 0,620 0,851 1 powierzchnia Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Korelacja a zależności pozorne – Przykład Czy w krajach, w których jest wiecej ˛ bocianów rodzi sie˛ wiecej ˛ dzieci? Wyniki analizy korelacji liniowej dla 17 krajów europejskich (dane z 1990 roku) pomiedzy ˛ powierzchnia, ˛ liczba˛ mieszkańców, liczba˛ urodzeń oraz liczba˛ bocianów (!): macierz współczynników korelacji liniowej Pearsona powierzchnia liczba bocianów liczba mieszkańców liczba urodzeń 1 0,579 0,812 0,923 liczba bocianów 0,579 1 0,354 0,620 liczba mieszkańców 0,812 0,354 1 0,851 liczba urodzeń 0,923 0,620 0,851 1 powierzchnia Zaskoczeniem może być dość wysoka wartość współczynnika korelacji liniowej dla liczby bocianów i liczby urodzeń. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Korelacja a zależności pozorne – Przykład Czy w krajach, w których jest wiecej ˛ bocianów rodzi sie˛ wiecej ˛ dzieci? Wyniki analizy korelacji liniowej dla 17 krajów europejskich (dane z 1990 roku) pomiedzy ˛ powierzchnia, ˛ liczba˛ mieszkańców, liczba˛ urodzeń oraz liczba˛ bocianów (!): macierz współczynników korelacji liniowej Pearsona powierzchnia liczba bocianów liczba mieszkańców liczba urodzeń 1 0,579 0,812 0,923 liczba bocianów 0,579 1 0,354 0,620 liczba mieszkańców 0,812 0,354 1 0,851 liczba urodzeń 0,923 0,620 0,851 1 powierzchnia Zaskoczeniem może być dość wysoka wartość współczynnika korelacji liniowej dla liczby bocianów i liczby urodzeń. Pytania: Czy w krajach, w których jest wiecej ˛ bocianów rodzi sie, ˛ średnio rzecz biorac, ˛ wiecej ˛ dzieci? Odpowiedź brzmi – tak, potwierdzaja˛ to uzyskane wyniki. Czy na tej podstawie możemy sadzić, ˛ że liczba bocianów oddziałuje na liczbe˛ noworodków (lub odwrotnie)? Odpowiedź brzmi – nie, ponieważ pomiedzy ˛ badanymi zmiennymi nie ma bezpośredniej zależności przyczynowo-skutkowej. Jest to przykład zależności pozornej. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Korelacja a zależności pozorne – Przykład c.d. Zależność przyczynowo-skutkowa pomiedzy ˛ liczba˛ urodzeń i liczba˛ bocianów jest pozorna, gdyż ma tu miejsce jedynie współwystepowanie ˛ obu zjawisk (wiekszej ˛ liczbie bocianów towarzyszy na ogół wieksza ˛ liczba urodzeń i na odwrót). Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Korelacja a zależności pozorne – Przykład c.d. Zależność przyczynowo-skutkowa pomiedzy ˛ liczba˛ urodzeń i liczba˛ bocianów jest pozorna, gdyż ma tu miejsce jedynie współwystepowanie ˛ obu zjawisk (wiekszej ˛ liczbie bocianów towarzyszy na ogół wieksza ˛ liczba urodzeń i na odwrót). Pozorna zależność ma miejsce także miedzy ˛ liczba˛ urodzeń i powierzchnia˛ kraju. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Korelacja a zależności pozorne – Przykład c.d. Zależność przyczynowo-skutkowa pomiedzy ˛ liczba˛ urodzeń i liczba˛ bocianów jest pozorna, gdyż ma tu miejsce jedynie współwystepowanie ˛ obu zjawisk (wiekszej ˛ liczbie bocianów towarzyszy na ogół wieksza ˛ liczba urodzeń i na odwrót). Pozorna zależność ma miejsce także miedzy ˛ liczba˛ urodzeń i powierzchnia˛ kraju. Układ zależności przyczynowo-skutkowych w tym przykładzie można zilustrować graficznie: Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Low Resolution Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Inne miary korelacji – współczynnik korelacji rang Spearmana Przykład Przypuśćmy, że porzadkujemy ˛ 4 studentów w zależności od stopnia ich zdolności matematycznych, zaczynajac ˛ od studenta najlepszego, któremu przydzielamy numer 1, a kończac ˛ na studencie najsłabszym, któremu przydzielamy numer 4 (ocene˛ zdolności powierzamy np. ekspertowi). Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Inne miary korelacji – współczynnik korelacji rang Spearmana Przykład Przypuśćmy, że porzadkujemy ˛ 4 studentów w zależności od stopnia ich zdolności matematycznych, zaczynajac ˛ od studenta najlepszego, któremu przydzielamy numer 1, a kończac ˛ na studencie najsłabszym, któremu przydzielamy numer 4 (ocene˛ zdolności powierzamy np. ekspertowi). Mówimy wówczas, że studenci zostali uporzadkowani ˛ w kolejności rang, a numer studenta jest jego ranga. ˛ Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Inne miary korelacji – współczynnik korelacji rang Spearmana Przykład Przypuśćmy, że porzadkujemy ˛ 4 studentów w zależności od stopnia ich zdolności matematycznych, zaczynajac ˛ od studenta najlepszego, któremu przydzielamy numer 1, a kończac ˛ na studencie najsłabszym, któremu przydzielamy numer 4 (ocene˛ zdolności powierzamy np. ekspertowi). Mówimy wówczas, że studenci zostali uporzadkowani ˛ w kolejności rang, a numer studenta jest jego ranga. ˛ Oznaczmy rangi poszczególnych studentów przez ai . Przykładowo, niech: a1 = 4, a2 = 2, a3 = 3, a4 = 1, co oznacza, iż w badanej grupie, ustawionej w kolejności alfabetycznej, pierwszy student (oznaczmy go umownie litera˛ A) jest najsłabszy, student B – dobry, student C – słaby, a student D – najlepszy. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Inne miary korelacji – współczynnik korelacji rang Spearmana Przykład Załóżmy, że w podobny sposób uporzadkowaliśmy ˛ tych samych studentów z punktu widzenia ich zdolności muzycznych. Niech bi bed ˛ a˛ rangami poszczególnych studentów: b1 = 2, b2 = 1, b3 = 3, b4 = 4 Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Inne miary korelacji – współczynnik korelacji rang Spearmana Przykład Załóżmy, że w podobny sposób uporzadkowaliśmy ˛ tych samych studentów z punktu widzenia ich zdolności muzycznych. Niech bi bed ˛ a˛ rangami poszczególnych studentów: b1 = 2, b2 = 1, b3 = 3, b4 = 4 W ten sposób każdemu studentowi przyporzadkowaliśmy ˛ po dwie rangi ai oraz bi . Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Inne miary korelacji – współczynnik korelacji rang Spearmana Przykład Załóżmy, że w podobny sposób uporzadkowaliśmy ˛ tych samych studentów z punktu widzenia ich zdolności muzycznych. Niech bi bed ˛ a˛ rangami poszczególnych studentów: b1 = 2, b2 = 1, b3 = 3, b4 = 4 W ten sposób każdemu studentowi przyporzadkowaliśmy ˛ po dwie rangi ai oraz bi . Pytanie: Jak na tej podstawie możemy ocenić, czy istnieje zależność miedzy ˛ zdolnościami matematycznymi oraz muzycznymi w badanej grupie. Innymi słowy, jak ocenić stopień zgodności (lub niezgodności) rang ai , bi ? Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Inne miary korelacji – współczynnik korelacji rang Spearmana Przykład Załóżmy, że w podobny sposób uporzadkowaliśmy ˛ tych samych studentów z punktu widzenia ich zdolności muzycznych. Niech bi bed ˛ a˛ rangami poszczególnych studentów: b1 = 2, b2 = 1, b3 = 3, b4 = 4 W ten sposób każdemu studentowi przyporzadkowaliśmy ˛ po dwie rangi ai oraz bi . Pytanie: Jak na tej podstawie możemy ocenić, czy istnieje zależność miedzy ˛ zdolnościami matematycznymi oraz muzycznymi w badanej grupie. Innymi słowy, jak ocenić stopień zgodności (lub niezgodności) rang ai , bi ? Uwaga: W przypadku danych rangowych nie możemy zastosować współczynnika korelacji Pearsona. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Inne miary korelacji – współczynnik korelacji rang Spearmana Jednym ze współczynników korelacji obliczanych dla danych rangowych jest współczynnik korelacji rang Spearmana, określony wzorem P 6 ni=1 di2 rS = 1 − , n(n2 − 1) gdzie di = ai − bi . Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Inne miary korelacji – współczynnik korelacji rang Spearmana Jednym ze współczynników korelacji obliczanych dla danych rangowych jest współczynnik korelacji rang Spearmana, określony wzorem P 6 ni=1 di2 rS = 1 − , n(n2 − 1) gdzie di = ai − bi . Własności: Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Inne miary korelacji – współczynnik korelacji rang Spearmana Jednym ze współczynników korelacji obliczanych dla danych rangowych jest współczynnik korelacji rang Spearmana, określony wzorem P 6 ni=1 di2 rS = 1 − , n(n2 − 1) gdzie di = ai − bi . Własności: Współczynnik rS przymuje wartości z przedziału [−1, 1]. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Inne miary korelacji – współczynnik korelacji rang Spearmana Jednym ze współczynników korelacji obliczanych dla danych rangowych jest współczynnik korelacji rang Spearmana, określony wzorem P 6 ni=1 di2 rS = 1 − , n(n2 − 1) gdzie di = ai − bi . Własności: Współczynnik rS przymuje wartości z przedziału [−1, 1]. Wartość rS = 1 oznacza, że istnieje całkowita zgodność uporzadkowa ˛ ń wg rang ai i bi . Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Inne miary korelacji – współczynnik korelacji rang Spearmana Jednym ze współczynników korelacji obliczanych dla danych rangowych jest współczynnik korelacji rang Spearmana, określony wzorem P 6 ni=1 di2 rS = 1 − , n(n2 − 1) gdzie di = ai − bi . Własności: Współczynnik rS przymuje wartości z przedziału [−1, 1]. Wartość rS = 1 oznacza, że istnieje całkowita zgodność uporzadkowa ˛ ń wg rang ai i bi . Wartość rS = −1 oznacza z kolei pełna˛ przeciwstawność uporzadkowa ˛ ń miedzy ˛ rangami. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Inne miary korelacji – współczynnik korelacji rang Spearmana Jednym ze współczynników korelacji obliczanych dla danych rangowych jest współczynnik korelacji rang Spearmana, określony wzorem P 6 ni=1 di2 rS = 1 − , n(n2 − 1) gdzie di = ai − bi . Własności: Współczynnik rS przymuje wartości z przedziału [−1, 1]. Wartość rS = 1 oznacza, że istnieje całkowita zgodność uporzadkowa ˛ ń wg rang ai i bi . Wartość rS = −1 oznacza z kolei pełna˛ przeciwstawność uporzadkowa ˛ ń miedzy ˛ rangami. Wartość rS = 0 oznacza brak korelacji rang. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Inne miary korelacji – współczynnik korelacji rang Spearmana Przykład Student A B C D Razem rangi ai 4 2 3 1 × rangi bi 2 1 3 4 × różnice rang di 2 1 0 -3 × Źródło: Dane umowne. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI di2 4 1 0 9 14 Zależności korelacyjne Regresja liniowa Inne miary korelacji – współczynnik korelacji rang Spearmana Przykład Student A B C D Razem rangi ai 4 2 3 1 × rangi bi 2 1 3 4 × różnice rang di 2 1 0 -3 × di2 4 1 0 9 14 Źródło: Dane umowne. Wartość współczynnika korelacji rang Spearmana w tym przykładzie wynosi: 6 · 14 = −0, 4 rS = 1 − 4(16 − 1) co świadczy o stosunkowo słabej korelacji miedzy ˛ zdolnościami matematycznymi i muzycznymi badanych studentów. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Inne miary korelacji – współczynnik korelacji rangowej Kendalla Innym współczynnikiem zaliczanym do mierników korelacji rangowej jest współczynnik Kendalla. Zalóżmy, że obserwujemy dwie cechy ilościowe X i Y w pewnej n-elementowej zbiorowości. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Inne miary korelacji – współczynnik korelacji rangowej Kendalla Innym współczynnikiem zaliczanym do mierników korelacji rangowej jest współczynnik Kendalla. Zalóżmy, że obserwujemy dwie cechy ilościowe X i Y w pewnej n-elementowej zbiorowości. Jednostki zbiorowości łaczymy ˛ w dwuelementowe podzbiory. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Inne miary korelacji – współczynnik korelacji rangowej Kendalla Innym współczynnikiem zaliczanym do mierników korelacji rangowej jest współczynnik Kendalla. Zalóżmy, że obserwujemy dwie cechy ilościowe X i Y w pewnej n-elementowej zbiorowości. Jednostki zbiorowości łaczymy ˛ w dwuelementowe podzbiory. Dla n-elementowej zbiorowości można utworzyć łacznie ˛ N = n·(n−1) takich podzbiorów (tj. uporzadkowanych ˛ par). Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Inne miary korelacji – współczynnik korelacji rangowej Kendalla Innym współczynnikiem zaliczanym do mierników korelacji rangowej jest współczynnik Kendalla. Zalóżmy, że obserwujemy dwie cechy ilościowe X i Y w pewnej n-elementowej zbiorowości. Jednostki zbiorowości łaczymy ˛ w dwuelementowe podzbiory. Dla n-elementowej zbiorowości można utworzyć łacznie ˛ N = n·(n−1) takich podzbiorów (tj. uporzadkowanych ˛ par). Współczynnik korelacji Kendalla obliczamy na podstawie zbiorowości dwuelementowych podzbiorów, utworzonych z elementów zbioru wyjściowego. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Inne miary korelacji – współczynnik korelacji rangowej Kendalla Niech Uj dla j = 1, 2, . . . , N bed ˛ a˛ zmiennymi przyjmujacymi ˛ wartości 1 lub -1, zgodnie z nastepuj ˛ acymi ˛ zasadami: Uj = 1, gdy wartość cechy X dla pierwszego elementu w j-tej parze jest wieksza ˛ niż dla drugiego elementu. Uj = −1, gdy wartość cechy X dla pierwszego elementu w j-tej parze jest mniejsza niż dla drugiego elementu. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Inne miary korelacji – współczynnik korelacji rangowej Kendalla Niech Uj dla j = 1, 2, . . . , N bed ˛ a˛ zmiennymi przyjmujacymi ˛ wartości 1 lub -1, zgodnie z nastepuj ˛ acymi ˛ zasadami: Uj = 1, gdy wartość cechy X dla pierwszego elementu w j-tej parze jest wieksza ˛ niż dla drugiego elementu. Uj = −1, gdy wartość cechy X dla pierwszego elementu w j-tej parze jest mniejsza niż dla drugiego elementu. W podobny sposób zdefiniujmy zmienne Vj dla j = 1, 2, . . . , N, odwołujac ˛ sie˛ do analogicznego sposobu uporzadkowa ˛ ń wartości cechy Y w poszczególnych parach. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Inne miary korelacji – współczynnik korelacji rangowej Kendalla Niech Uj dla j = 1, 2, . . . , N bed ˛ a˛ zmiennymi przyjmujacymi ˛ wartości 1 lub -1, zgodnie z nastepuj ˛ acymi ˛ zasadami: Uj = 1, gdy wartość cechy X dla pierwszego elementu w j-tej parze jest wieksza ˛ niż dla drugiego elementu. Uj = −1, gdy wartość cechy X dla pierwszego elementu w j-tej parze jest mniejsza niż dla drugiego elementu. W podobny sposób zdefiniujmy zmienne Vj dla j = 1, 2, . . . , N, odwołujac ˛ sie˛ do analogicznego sposobu uporzadkowa ˛ ń wartości cechy Y w poszczególnych parach. Uwaga: Dalej zakładać bedziemy, ˛ że zarówno wartości cechy X , jak i cechy Y nie powtarzaja˛ sie˛ w badanej zbiorowości (w przeciwnym przypadku trzeba skorzystać z pewnej skorygowanej formuły na współczynnik Kendalla, która tutaj nie bedzie ˛ przytoczona). Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Inne miary korelacji – współczynnik korelacji rangowej Kendalla Przykład Niech P oznacza liczbe˛ przypadków (par) zgodnie uporzadkowanych, ˛ tj. liczbe˛ par, dla których wartości Uj sa˛ równe Vj . Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Inne miary korelacji – współczynnik korelacji rangowej Kendalla Przykład Niech P oznacza liczbe˛ przypadków (par) zgodnie uporzadkowanych, ˛ tj. liczbe˛ par, dla których wartości Uj sa˛ równe Vj . Podobnie, niech Q oznacza liczbe˛ przypadków (par) niezgodnie uporzadkowanych, ˛ tj. liczbe˛ par, dla których wartości Uj oraz Vj sa˛ przeciwnego znaku. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Inne miary korelacji – współczynnik korelacji rangowej Kendalla Przykład Niech P oznacza liczbe˛ przypadków (par) zgodnie uporzadkowanych, ˛ tj. liczbe˛ par, dla których wartości Uj sa˛ równe Vj . Podobnie, niech Q oznacza liczbe˛ przypadków (par) niezgodnie uporzadkowanych, ˛ tj. liczbe˛ par, dla których wartości Uj oraz Vj sa˛ przeciwnego znaku. Przy tych oznaczeniach współczynniki korelacji Kendalla wyraża sie˛ wzorem: τ= Agnieszka Rossa P −Q . n(n − 1) ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Inne miary korelacji – współczynnik korelacji rangowej Kendalla Przykład Niech P oznacza liczbe˛ przypadków (par) zgodnie uporzadkowanych, ˛ tj. liczbe˛ par, dla których wartości Uj sa˛ równe Vj . Podobnie, niech Q oznacza liczbe˛ przypadków (par) niezgodnie uporzadkowanych, ˛ tj. liczbe˛ par, dla których wartości Uj oraz Vj sa˛ przeciwnego znaku. Przy tych oznaczeniach współczynniki korelacji Kendalla wyraża sie˛ wzorem: τ= P −Q . n(n − 1) Podobnie, jak współczynnik korelacji Spearmanna, współczynnik τ (tau) przyjmuje zawsze wartości z przedziału [−1, 1]. Jest również podobnie interpretowany. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Inne miary korelacji – współczynnik korelacji rangowej Kendalla Przykład Wróćmy do przykładu dotyczacego ˛ zdolności matematycznych i muzycznych grupy studentów (A, B, C, D). W tym przykładzie można utworzyć łacznie ˛ 4·(4− 1) = 12 dwuelementowych podzbiorów ze zbioru 4-elementowego (por. pierwsza kolumna tablicy). Dalsze kolumny prezentuja˛ uporzadkowane ˛ w parach wartości cech, w tym przypadku rang ai oraz bi , a także wartości Uj , Vj . Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Inne miary korelacji – współczynnik korelacji rangowej Kendalla Przykład Wróćmy do przykładu dotyczacego ˛ zdolności matematycznych i muzycznych grupy studentów (A, B, C, D). W tym przykładzie można utworzyć łacznie ˛ 4·(4− 1) = 12 dwuelementowych podzbiorów ze zbioru 4-elementowego (por. pierwsza kolumna tablicy). Dalsze kolumny prezentuja˛ uporzadkowane ˛ w parach wartości cech, w tym przypadku rang ai oraz bi , a także wartości Uj , Vj . Pary studentów ai dla pierwszej i drugiej osoby w parze uporzadkowanie ˛ Uj bi dla pierwszej i drugiej osoby w parze uporzadkowanie ˛ Vj (A,B) (A,C) (A,D) (B,A) (B,C) (B,D) (C,A) (C,B) (C,D) (D,A) (D,B) (D,C) 4; 2 4; 3 4; 1 2; 4 2; 3 2; 1 3; 4 3; 2 3; 1 1; 4 1; 2 1; 3 1 1 1 -1 -1 1 -1 1 1 -1 -1 -1 2; 1 2; 3 2; 4 1; 2 1; 3 1; 4 3; 2 3; 1 3; 4 4; 2 4; 1 4; 3 1 -1 -1 -1 -1 -1 1 1 -1 1 1 1 Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Inne miary korelacji – współczynnik korelacji rangowej Kendalla Przykład Liczba P przypadków (par) zgodnie uporzadkowanych ˛ w naszym przykładzie wynosi P = 4 (oznaczone w tablicy kolorem niebieskim). Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Inne miary korelacji – współczynnik korelacji rangowej Kendalla Przykład Liczba P przypadków (par) zgodnie uporzadkowanych ˛ w naszym przykładzie wynosi P = 4 (oznaczone w tablicy kolorem niebieskim). Z kolei liczba Q przypadków (par) niezgodnie uporzadkowanych ˛ wynosi Q = 8 (oznaczone w tablicy kolorem czerwonym). Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Inne miary korelacji – współczynnik korelacji rangowej Kendalla Przykład Liczba P przypadków (par) zgodnie uporzadkowanych ˛ w naszym przykładzie wynosi P = 4 (oznaczone w tablicy kolorem niebieskim). Z kolei liczba Q przypadków (par) niezgodnie uporzadkowanych ˛ wynosi Q = 8 (oznaczone w tablicy kolorem czerwonym). Współczynniki Kendalla dla n = 4, P = 4, Q = 8 wynosi: τ =− 4 ≈ −0, 33 12 co wskazuje na słaba˛ korelacje˛ miedzy ˛ zdolnościami matematycznymi i muzycznymi w badanej grupie studentów (podobna wartość, jak współczynnika rS ). Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Inne miary korelacji – współczynnik korelacji rangowej Kendalla Uwagi Zauważymy, że jeśli dla pewnej pary elementów, np. (A, B) wartość Uj wynosi 1, to dla pary (B, A) musi być Uj = −1. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Inne miary korelacji – współczynnik korelacji rangowej Kendalla Uwagi Zauważymy, że jeśli dla pewnej pary elementów, np. (A, B) wartość Uj wynosi 1, to dla pary (B, A) musi być Uj = −1. Oznacza to, że zamiast badać zbiorowość wszystkich podzbiorów dwuelementowych, wśród których niektóre pary składaja˛ sie˛ z tych samych elementów, a różnia˛ sie˛ jedynie ich kolejnościa˛ (np. (A, B) i (B, A) lub (A, C) i (C, A) itd.), można ograniczyć rozważania do mniejszej zbiorowości par, w której podzbiór o określonych elementach wystepuje ˛ tylko raz. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Inne miary korelacji – współczynnik korelacji rangowej Kendalla Uwagi Zauważymy, że jeśli dla pewnej pary elementów, np. (A, B) wartość Uj wynosi 1, to dla pary (B, A) musi być Uj = −1. Oznacza to, że zamiast badać zbiorowość wszystkich podzbiorów dwuelementowych, wśród których niektóre pary składaja˛ sie˛ z tych samych elementów, a różnia˛ sie˛ jedynie ich kolejnościa˛ (np. (A, B) i (B, A) lub (A, C) i (C, A) itd.), można ograniczyć rozważania do mniejszej zbiorowości par, w której podzbiór o określonych elementach wystepuje ˛ tylko raz. Jednak w takiej zbiorowości liczba wszystkich możliwych par byłaby równa n(n−1) , a wartości P i Q byłyby o połowe˛ 2 mniejsze, a wiec ˛ wzór na współczynnik τ przyjałby ˛ postać: τ= 2(P 0 − Q 0 ) , n(n − 1) gdzie P 0 = Agnieszka Rossa 1 1 P, Q 0 = Q. 2 2 ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Analiza regresji Wprowadzenie Jak już wcześniej wspomniano, na ogół powiazania ˛ pomiedzy ˛ cechami (zmiennymi) nie maja˛ charakteru matematycznego, który dałoby sie˛ zapisać jednoznacznie w postaci: Y = f (X1 , X2 , . . . , Xs ), gdzie f oznacza pewna˛ funkcje˛ opisujac ˛ a˛ zależność zmiennej Y od zmiennych X1 , X2 , . . . , Xs . Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Analiza regresji Wprowadzenie Jak już wcześniej wspomniano, na ogół powiazania ˛ pomiedzy ˛ cechami (zmiennymi) nie maja˛ charakteru matematycznego, który dałoby sie˛ zapisać jednoznacznie w postaci: Y = f (X1 , X2 , . . . , Xs ), gdzie f oznacza pewna˛ funkcje˛ opisujac ˛ a˛ zależność zmiennej Y od zmiennych X1 , X2 , . . . , Xs . Zapis taki oznaczałby, że zależność pomiedzy ˛ Y a pozostałymi cechamy jest ściśle funkcyjna, tj. konkretnym wartościom obserwowanych cech X1 , X2 , . . . , Xs odpowiada dokładnie jedna wartość cechy Y . Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Analiza regresji Wprowadzenie Jak już wcześniej wspomniano, na ogół powiazania ˛ pomiedzy ˛ cechami (zmiennymi) nie maja˛ charakteru matematycznego, który dałoby sie˛ zapisać jednoznacznie w postaci: Y = f (X1 , X2 , . . . , Xs ), gdzie f oznacza pewna˛ funkcje˛ opisujac ˛ a˛ zależność zmiennej Y od zmiennych X1 , X2 , . . . , Xs . Zapis taki oznaczałby, że zależność pomiedzy ˛ Y a pozostałymi cechamy jest ściśle funkcyjna, tj. konkretnym wartościom obserwowanych cech X1 , X2 , . . . , Xs odpowiada dokładnie jedna wartość cechy Y . W przypadku zjawisk społecznych, ekonomicznych, przyrodniczych itp. zależności funkcyjne rzadko wystepuj ˛ a, ˛ cz˛eściej natomiast wystepuj ˛ a˛ zależności korelacyjne. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Analiza regresji Wprowadzenie W statystyce zależności o charakterze korelacyjnym pomiedzy ˛ zmienna˛ Y a pewnym zespołem zmiennych X1 , X2 , . . . , Xs wyraża sie˛ cz˛esto w postaci zbliżonej do przedstawionej powyżej, ale z pewna˛ istotna˛ zmiana. ˛ Mianowicie: Y = f (x1 , x2 , . . . , xs ) + Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Analiza regresji Wprowadzenie W statystyce zależności o charakterze korelacyjnym pomiedzy ˛ zmienna˛ Y a pewnym zespołem zmiennych X1 , X2 , . . . , Xs wyraża sie˛ cz˛esto w postaci zbliżonej do przedstawionej powyżej, ale z pewna˛ istotna˛ zmiana. ˛ Mianowicie: Y = f (x1 , x2 , . . . , xs ) + x1 , x2 , . . . , xs reprezentuja˛ tu konkretne (ustalone) wartości zmiennych X1 , X2 , . . . , Xs ; Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Analiza regresji Wprowadzenie W statystyce zależności o charakterze korelacyjnym pomiedzy ˛ zmienna˛ Y a pewnym zespołem zmiennych X1 , X2 , . . . , Xs wyraża sie˛ cz˛esto w postaci zbliżonej do przedstawionej powyżej, ale z pewna˛ istotna˛ zmiana. ˛ Mianowicie: Y = f (x1 , x2 , . . . , xs ) + x1 , x2 , . . . , xs reprezentuja˛ tu konkretne (ustalone) wartości zmiennych X1 , X2 , . . . , Xs ; jest składnikiem losowym reprezentujacym ˛ sumaryczny (nieobserwowany) wpływ innych czynników; Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Analiza regresji Wprowadzenie W statystyce zależności o charakterze korelacyjnym pomiedzy ˛ zmienna˛ Y a pewnym zespołem zmiennych X1 , X2 , . . . , Xs wyraża sie˛ cz˛esto w postaci zbliżonej do przedstawionej powyżej, ale z pewna˛ istotna˛ zmiana. ˛ Mianowicie: Y = f (x1 , x2 , . . . , xs ) + x1 , x2 , . . . , xs reprezentuja˛ tu konkretne (ustalone) wartości zmiennych X1 , X2 , . . . , Xs ; jest składnikiem losowym reprezentujacym ˛ sumaryczny (nieobserwowany) wpływ innych czynników; Dołaczenie ˛ składnika losowego powoduje, że konkretnym wartościom x1 , x2 , . . . , xs moga˛ odpowiadać nie takie same, ale różne wartości zmiennej Y . Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Analiza regresji Terminologia Zmienna objaśniana (zmienna zależna) – zmienna bed ˛ aca ˛ przedmiotem badania. Na ogół oznaczamy ja˛ symbolem Y . Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Analiza regresji Terminologia Zmienna objaśniana (zmienna zależna) – zmienna bed ˛ aca ˛ przedmiotem badania. Na ogół oznaczamy ja˛ symbolem Y . Zmienne objaśniajace ˛ (zmienne niezależne) – zmienne, za pomoca˛ których chcemy objaśnić zmiany zmiennej zależnej. Na ogół oznaczamy je symbolami X1 , X2 , . . .. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Analiza regresji Terminologia Zmienna objaśniana (zmienna zależna) – zmienna bed ˛ aca ˛ przedmiotem badania. Na ogół oznaczamy ja˛ symbolem Y . Zmienne objaśniajace ˛ (zmienne niezależne) – zmienne, za pomoca˛ których chcemy objaśnić zmiany zmiennej zależnej. Na ogół oznaczamy je symbolami X1 , X2 , . . .. Funkcja regresji – funkcja odwzorowujaca ˛ zależność pomiedzy ˛ zmienna˛ objaśniana˛ Y a zmiennymi objaśniajacymi. ˛ Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Analiza regresji Terminologia Zmienna objaśniana (zmienna zależna) – zmienna bed ˛ aca ˛ przedmiotem badania. Na ogół oznaczamy ja˛ symbolem Y . Zmienne objaśniajace ˛ (zmienne niezależne) – zmienne, za pomoca˛ których chcemy objaśnić zmiany zmiennej zależnej. Na ogół oznaczamy je symbolami X1 , X2 , . . .. Funkcja regresji – funkcja odwzorowujaca ˛ zależność pomiedzy ˛ zmienna˛ objaśniana˛ Y a zmiennymi objaśniajacymi. ˛ W przypadku wielu zmiennych objaśniajacych ˛ mówimy o regresji wielorakiej, natomiast w przypadku jednej zmiennej objaśniajacej ˛ – o regresji jednej zmiennej. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Regresja liniowa jednej zmiennej Dalej przyjmiemy nastepuj ˛ ace ˛ założenia: Składnik losowy ma wartość średnia˛ równa˛ 0 i pewna˛ dodatnia˛ wariancje˛ oznaczana˛ symbolem σ 2 . Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Regresja liniowa jednej zmiennej Dalej przyjmiemy nastepuj ˛ ace ˛ założenia: Składnik losowy ma wartość średnia˛ równa˛ 0 i pewna˛ dodatnia˛ wariancje˛ oznaczana˛ symbolem σ 2 . Mamy tylko jedna˛ zmienna˛ objaśniajac ˛ a˛ X . Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Regresja liniowa jednej zmiennej Dalej przyjmiemy nastepuj ˛ ace ˛ założenia: Składnik losowy ma wartość średnia˛ równa˛ 0 i pewna˛ dodatnia˛ wariancje˛ oznaczana˛ symbolem σ 2 . Mamy tylko jedna˛ zmienna˛ objaśniajac ˛ a˛ X . Funkcja f należy do klasy funkcji liniowych. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Regresja liniowa jednej zmiennej Dalej przyjmiemy nastepuj ˛ ace ˛ założenia: Składnik losowy ma wartość średnia˛ równa˛ 0 i pewna˛ dodatnia˛ wariancje˛ oznaczana˛ symbolem σ 2 . Mamy tylko jedna˛ zmienna˛ objaśniajac ˛ a˛ X . Funkcja f należy do klasy funkcji liniowych. Model regresji liniowej: Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Regresja liniowa jednej zmiennej Dalej przyjmiemy nastepuj ˛ ace ˛ założenia: Składnik losowy ma wartość średnia˛ równa˛ 0 i pewna˛ dodatnia˛ wariancje˛ oznaczana˛ symbolem σ 2 . Mamy tylko jedna˛ zmienna˛ objaśniajac ˛ a˛ X . Funkcja f należy do klasy funkcji liniowych. Model regresji liniowej: Przy podanych założeniach, zależność pomiedzy ˛ cechami Y i X możemy zapisać w postaci Y = a + bx + , gdzie a i b sa˛ pewnymi parametrami. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Regresja liniowa jednej zmiennej Dalej przyjmiemy nastepuj ˛ ace ˛ założenia: Składnik losowy ma wartość średnia˛ równa˛ 0 i pewna˛ dodatnia˛ wariancje˛ oznaczana˛ symbolem σ 2 . Mamy tylko jedna˛ zmienna˛ objaśniajac ˛ a˛ X . Funkcja f należy do klasy funkcji liniowych. Model regresji liniowej: Przy podanych założeniach, zależność pomiedzy ˛ cechami Y i X możemy zapisać w postaci Y = a + bx + , gdzie a i b sa˛ pewnymi parametrami. Model ten nazywamy modelem regresji liniowej jednej zmiennej. Parametry a i b nazywamy odpowiednio wyrazem wolnym i współczynnikiem regresji. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Regresja liniowa jednej zmiennej Funkcje˛ f (x) = a + bx nazywamy prosta˛ regresji. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Regresja liniowa jednej zmiennej Funkcje˛ f (x) = a + bx nazywamy prosta˛ regresji. Podstawowym problemem, jaki pojawia sie˛ przy wyznaczaniu równania prostej regresji, która opisywałaby możliwie wiernie zależność pomiedzy ˛ konkretnymi zmiennymi Y i X , jest określenie liczbowych wartości parametrów a i b. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Regresja liniowa jednej zmiennej Funkcje˛ f (x) = a + bx nazywamy prosta˛ regresji. Podstawowym problemem, jaki pojawia sie˛ przy wyznaczaniu równania prostej regresji, która opisywałaby możliwie wiernie zależność pomiedzy ˛ konkretnymi zmiennymi Y i X , jest określenie liczbowych wartości parametrów a i b. Dokonujemy tego na podstawie obserwacji wartości cech Y i X w badanej zbiorowości, stosujac ˛ tzw. metode˛ najmniejszych kwadratów MNK. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Regresja liniowa jednej zmiennej Przykład Agnieszka Rossa Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Low Resolution ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Regresja liniowa jednej zmiennej Przykład Agnieszka Rossa Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Low Resolution ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Regresja liniowa jednej zmiennej Przykład – jak wyznaczyć prosta˛ regresji? W tym przykładzie chcielibyśmy, żeby prosta najlepiej przybliżała dana chmure˛ punktów, czyli by wartości różnic yi − ŷi (tzw. wartości resztowe lub inaczej – wartości składnika losowego) były jak najmniejsze dla wszystkich badanych jednostek. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Regresja liniowa jednej zmiennej Przykład – jak wyznaczyć prosta˛ regresji? W tym przykładzie chcielibyśmy, żeby prosta najlepiej przybliżała dana chmure˛ punktów, czyli by wartości różnic yi − ŷi (tzw. wartości resztowe lub inaczej – wartości składnika losowego) były jak najmniejsze dla wszystkich badanych jednostek. ˛ prostej w kierunku Jak łatwo zauważyć, przesuniecie jednego z punktów może spowodować odsuniecie ˛ od innych punktów. Tak wiec postulat, aby jednocześnie minimalizować wszystkie wartości resztowe nie jest możliwy do realizacji. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Regresja liniowa jednej zmiennej Przykład – jak wyznaczyć prosta˛ regresji? W tym przykładzie chcielibyśmy, żeby prosta najlepiej przybliżała dana chmure˛ punktów, czyli by wartości różnic yi − ŷi (tzw. wartości resztowe lub inaczej – wartości składnika losowego) były jak najmniejsze dla wszystkich badanych jednostek. ˛ prostej w kierunku Jak łatwo zauważyć, przesuniecie jednego z punktów może spowodować odsuniecie ˛ od innych punktów. Tak wiec postulat, aby jednocześnie minimalizować wszystkie wartości resztowe nie jest możliwy do realizacji. Jako kryterium dopasowania prostej regresji do danych empirycznych przyjmuje sie˛ minimalizacje˛ sumy kwadratów wartości resztowych. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Metoda najmniejszych kwadratów Niech (y1 , x1 ), (y2 , x2 ), . . . , (yn , xn ), bedzie ˛ n-elementowym zbiorem wartości zmiennych Y i X . Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Metoda najmniejszych kwadratów Niech (y1 , x1 ), (y2 , x2 ), . . . , (yn , xn ), bedzie ˛ n-elementowym zbiorem wartości zmiennych Y i X . Rozważmy sume˛ kwadratów wartości resztowych n X (yi − ŷi )2 , i=1 lub równoważnie n X (yi − (a + bxi ))2 , i=1 która˛ oznaczymy symbolem S(a, b). Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Metoda najmniejszych kwadratów Niech (y1 , x1 ), (y2 , x2 ), . . . , (yn , xn ), bedzie ˛ n-elementowym zbiorem wartości zmiennych Y i X . Rozważmy sume˛ kwadratów wartości resztowych n X (yi − ŷi )2 , i=1 lub równoważnie n X (yi − (a + bxi ))2 , i=1 która˛ oznaczymy symbolem S(a, b). Funkcje˛ regresji, dla której wartości parametrów a, b wyznaczone zostały w drodze minimalizacji sumy S(a, b) nazywamy prosta˛ regresji MNK i oznaczamy przez ŷ . Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Metoda najmniejszych kwadratów Troche˛ matematyki, czyli jak obliczyć a i b Po zrożniczkowaniu sumy S(a, b) wzgledem ˛ aib i przyrównaniu obu pochodnych czastkowych ˛ do 0, mamy n X ∂S(a, b) (yi − (a + bxi )) = 0, = −2 ∂a ∂S(a, b) = −2 ∂b i=1 n X xi (yi − (a + bxi )) = 0. i=1 Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Metoda najmniejszych kwadratów Troche˛ matematyki, czyli jak obliczyć a i b Po zrożniczkowaniu sumy S(a, b) wzgledem ˛ aib i przyrównaniu obu pochodnych czastkowych ˛ do 0, mamy n X ∂S(a, b) (yi − (a + bxi )) = 0, = −2 ∂a ∂S(a, b) = −2 ∂b i=1 n X xi (yi − (a + bxi )) = 0. i=1 Zapisujac ˛ inaczej, mamy układ dwóch równań n X yi − na − b i=1 n X i=1 xi yi − a n X xi = 0, i=1 n X i=1 Agnieszka Rossa xi − b n X xi2 = 0. i=1 ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Metoda najmniejszych kwadratów Troche˛ matematyki Z pierwszego równania natychmiast otrzymujemy, że ! n n X 1 X a= yi − b xi = ȳ − bx̄. n i=1 Agnieszka Rossa i=1 ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Metoda najmniejszych kwadratów Troche˛ matematyki Z pierwszego równania natychmiast otrzymujemy, że ! n n X 1 X a= yi − b xi = ȳ − bx̄. n i=1 i=1 Po wstawieniu powyższego wyrażenia do drugiego równania mamy także n X xi yi − (ȳ − bx̄) i=1 n X i=1 Agnieszka Rossa xi − b n X xi2 = 0, i=1 ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Metoda najmniejszych kwadratów Troche˛ matematyki Z pierwszego równania natychmiast otrzymujemy, że ! n n X 1 X a= yi − b xi = ȳ − bx̄. n i=1 i=1 Po wstawieniu powyższego wyrażenia do drugiego równania mamy także n X xi yi − (ȳ − bx̄) i=1 n X i=1 xi − b n X xi2 = 0, i=1 co po przekształceniach daje Pn (xi − x̄)(yi − ȳ ) Pn b = i=1 . 2 i=1 (xi − x̄) Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Metoda najmniejszych kwadratów Podsumowanie Równanie prostej regresji MNK ŷ = a + bx znajdziemy, obliczajac ˛ wyraz wolny a oraz współczynnik regresji b, które sa˛ określone nastepuj ˛ acymi ˛ wzorami a = ȳ − bx̄, Pn (xi − x̄)(yi − ȳ ) Pn b = i=1 , 2 i=1 (xi − x̄) lub równoważnie 1 Pn i=1 (xi − x̄)(yi − ȳ ) n , b= sx2 gdzie (y1 , x1 ), (y2 , x2 ), . . . , (yn , xn ), sa˛ wartościami zmiennych Y i X w badanej zbiorowości. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Relacja łacz ˛ aca ˛ współczynnik regresji i współczynnik korelacji liniowej Pearsona Porównajmy wzory na współczynnik regresji b oraz współczynnik korelacji liniowej Pearsona r : 1 Pn 1 Pn i=1 (xi − x̄)(yi − ȳ ) i=1 (xi − x̄)(yi − ȳ ) n n b= , r= . 2 sx · sy sx Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Relacja łacz ˛ aca ˛ współczynnik regresji i współczynnik korelacji liniowej Pearsona Porównajmy wzory na współczynnik regresji b oraz współczynnik korelacji liniowej Pearsona r : 1 Pn 1 Pn i=1 (xi − x̄)(yi − ȳ ) i=1 (xi − x̄)(yi − ȳ ) n n b= , r= . 2 sx · sy sx Wniosek 1: Pomiedzy ˛ współczynnikami b i r zachodzi równość sy b=r· sx Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Relacja łacz ˛ aca ˛ współczynnik regresji i współczynnik korelacji liniowej Pearsona Porównajmy wzory na współczynnik regresji b oraz współczynnik korelacji liniowej Pearsona r : 1 Pn 1 Pn i=1 (xi − x̄)(yi − ȳ ) i=1 (xi − x̄)(yi − ȳ ) n n b= , r= . 2 sx · sy sx Wniosek 1: Pomiedzy ˛ współczynnikami b i r zachodzi równość sy b=r· sx Wniosek 2: Współczynniki b i r maja˛ zawsze ten sam znak, przy czym współczynnik b nie musi należeć do przedziału [−1, 1], w przeciwieństwie do współczynnika r korelacji liniowej Pearsona. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Regresja liniowa jednej zmiennej Przykład c.d. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Ocena ”dobroci” dopasowania prostej regresji MNK Jak wiemy, zmienność każdej cechy ilościowej, a wiec ˛ również zmiennej objaśnianej Y , możemy oceniać np. za pomoca˛ wariancji sy2 : n sy2 = 1X (yi − ȳ )2 , n i=1 gdzie y1 , y2 , . . . , yn jest n-elementowym zbiorem zaobserowanych wartości tej zmiennej. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Ocena ”dobroci” dopasowania prostej regresji MNK Jak wiemy, zmienność każdej cechy ilościowej, a wiec ˛ również zmiennej objaśnianej Y , możemy oceniać np. za pomoca˛ wariancji sy2 : n sy2 = 1X (yi − ȳ )2 , n i=1 gdzie y1 , y2 , . . . , yn jest n-elementowym zbiorem zaobserowanych wartości tej zmiennej. Pomijajac ˛ składnik 1/n w powyższym wyrażeniu, otrzymujemy wzór na tzw. całkowita˛ sume˛ kwadratów SST = n X (yi − ȳ )2 . i=1 Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Ocena ”dobroci” dopasowania prostej regresji MNK Jak wiemy, zmienność każdej cechy ilościowej, a wiec ˛ również zmiennej objaśnianej Y , możemy oceniać np. za pomoca˛ wariancji sy2 : n sy2 = 1X (yi − ȳ )2 , n i=1 gdzie y1 , y2 , . . . , yn jest n-elementowym zbiorem zaobserowanych wartości tej zmiennej. Pomijajac ˛ składnik 1/n w powyższym wyrażeniu, otrzymujemy wzór na tzw. całkowita˛ sume˛ kwadratów SST = n X (yi − ȳ )2 . i=1 Można pokazać, że SST daje sie˛ rozbić na dwie sumy, które także interpretujemy w kategoriach zmienności. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Ocena ”dobroci” dopasowania prostej regresji MNK Mianowicie n n X X 2 SST = (yi − ŷi ) + (ŷi − ȳ )2 , i=1 i=1 gdzie ŷi = a + bxi . Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Ocena ”dobroci” dopasowania prostej regresji MNK Mianowicie n n X X 2 SST = (yi − ŷi ) + (ŷi − ȳ )2 , i=1 i=1 gdzie ŷi = a + bxi . Pierwszy ze składników nosi nazwe˛ sumy kwadratów błedów, ˛ ponieważ jest suma˛ kwadratów wartości resztowych. Jest oznaczany przez SSE. Drugi składnik nosi miano regresyjnej sumy kwadratów i jest oznaczany symbolem SSR. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Ocena ”dobroci” dopasowania prostej regresji MNK Mianowicie n n X X 2 SST = (yi − ŷi ) + (ŷi − ȳ )2 , i=1 i=1 gdzie ŷi = a + bxi . Pierwszy ze składników nosi nazwe˛ sumy kwadratów błedów, ˛ ponieważ jest suma˛ kwadratów wartości resztowych. Jest oznaczany przez SSE. Drugi składnik nosi miano regresyjnej sumy kwadratów i jest oznaczany symbolem SSR. Suma SSR jest cz˛eścia˛ zmienności całkowitej SST , która˛ można objaśnić za pomoca˛ regresji miedzy ˛ zmienna˛ objaśniana˛ Y i zmienna˛ objaśniajac ˛ a˛ X . Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Ocena ”dobroci” dopasowania prostej regresji MNK Mianowicie n n X X 2 SST = (yi − ŷi ) + (ŷi − ȳ )2 , i=1 i=1 gdzie ŷi = a + bxi . Pierwszy ze składników nosi nazwe˛ sumy kwadratów błedów, ˛ ponieważ jest suma˛ kwadratów wartości resztowych. Jest oznaczany przez SSE. Drugi składnik nosi miano regresyjnej sumy kwadratów i jest oznaczany symbolem SSR. Suma SSR jest cz˛eścia˛ zmienności całkowitej SST , która˛ można objaśnić za pomoca˛ regresji miedzy ˛ zmienna˛ objaśniana˛ Y i zmienna˛ objaśniajac ˛ a˛ X . Z kolei sume˛ SSE traktujemy jako te˛ cz˛eść zmienności SST , która nie jest wyjaśniona przez model regresji. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Ocena ”dobroci” dopasowania prostej regresji MNK Iloraz Pn (ŷi − ȳ )2 SSR = Pi=1 R = , n 2 SST i=1 (yi − ȳ ) 2 jest nazwany współczynnikiem determinacji. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Ocena ”dobroci” dopasowania prostej regresji MNK Iloraz Pn (ŷi − ȳ )2 SSR = Pi=1 R = , n 2 SST i=1 (yi − ȳ ) 2 jest nazwany współczynnikiem determinacji. R 2 jest miara˛ stopnia dopasowania funkcji regresji do danych empirycznych. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Ocena ”dobroci” dopasowania prostej regresji MNK Iloraz Pn (ŷi − ȳ )2 SSR = Pi=1 R = , n 2 SST i=1 (yi − ȳ ) 2 jest nazwany współczynnikiem determinacji. R 2 jest miara˛ stopnia dopasowania funkcji regresji do danych empirycznych. W przypadku regresji liniowej jednej zmiennej współczynnik determinacji R 2 równy jest kwadratowi współczynnika korelacji liniowej Pearsona. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Ocena ”dobroci” dopasowania prostej regresji MNK Przykład c.d. Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Low Resolution Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Przewidywanie na podstawie funkcji regresji Funkcje˛ regresji można wykorzystać do przewidywania wartości zmiennej objaśnianej Y na podstawie znanych wartości zmiennej objaśniajacych ˛ (ekstrapolacja). Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Przewidywanie na podstawie funkcji regresji Funkcje˛ regresji można wykorzystać do przewidywania wartości zmiennej objaśnianej Y na podstawie znanych wartości zmiennej objaśniajacych ˛ (ekstrapolacja). Tego rodzaju przewidywanie ma sens przy założeniu, że charakter zależności i oddziaływania czynników nie uwzglednionych ˛ w modelu sa˛ podobne do zaobserwowanych w badanej zbiorowości. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Przewidywanie na podstawie funkcji regresji Funkcje˛ regresji można wykorzystać do przewidywania wartości zmiennej objaśnianej Y na podstawie znanych wartości zmiennej objaśniajacych ˛ (ekstrapolacja). Tego rodzaju przewidywanie ma sens przy założeniu, że charakter zależności i oddziaływania czynników nie uwzglednionych ˛ w modelu sa˛ podobne do zaobserwowanych w badanej zbiorowości. W naszym przykładzie otrzymaliśmy prosta˛ regresji: ŷ = 5, 17 + 1, 76 · x Na tej podstawie możemy ocenić np. oczekiwany wynik z egzaminu dla osoby, która otrzymałaby z kolokwium 18 punktów. Mamy: ŷ(x=18) = 5, 17 + 1, 76 · 18 = 36, 85 ≈ 37 pkt Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Przewidywanie na podstawie funkcji regresji Funkcje˛ regresji można wykorzystać do przewidywania wartości zmiennej objaśnianej Y na podstawie znanych wartości zmiennej objaśniajacych ˛ (ekstrapolacja). Tego rodzaju przewidywanie ma sens przy założeniu, że charakter zależności i oddziaływania czynników nie uwzglednionych ˛ w modelu sa˛ podobne do zaobserwowanych w badanej zbiorowości. W naszym przykładzie otrzymaliśmy prosta˛ regresji: ŷ = 5, 17 + 1, 76 · x Na tej podstawie możemy ocenić np. oczekiwany wynik z egzaminu dla osoby, która otrzymałaby z kolokwium 18 punktów. Mamy: ŷ(x=18) = 5, 17 + 1, 76 · 18 = 36, 85 ≈ 37 pkt Należy jednak pamietać, ˛ że przy tego rodzaju przewidywaniach możemy sie˛ mylić o pewna˛ wartość. W celu oceny skali błedu ˛ obliczamy tzw. średni bład ˛ przewidywania. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Przewidywanie na podstawie funkcji regresji Rozważmy pierwiastek kwadratowy sumy kwadratów błedów ˛ SSE podzielony przez liczebność zbiorowości, pomniejszona˛ o liczbe˛ parametrów funkcji regresji (w przypadku regresji liniowej jednej zmiennej liczba parametrów równa jest 2). Mamy: v r u n u 1 X SSE t = (yi − ŷi )2 S = n−2 n−2 i=1 Agnieszka Rossa ANALIZA KORELACJI I REGRESJI Zależności korelacyjne Regresja liniowa Przewidywanie na podstawie funkcji regresji Rozważmy pierwiastek kwadratowy sumy kwadratów błedów ˛ SSE podzielony przez liczebność zbiorowości, pomniejszona˛ o liczbe˛ parametrów funkcji regresji (w przypadku regresji liniowej jednej zmiennej liczba parametrów równa jest 2). Mamy: v r u n u 1 X SSE t = (yi − ŷi )2 S = n−2 n−2 i=1 Powyższe wyrażenie nazywamy średnim błedem ˛ przewidywania. W naszym przykładzie S jest równe: r 69, 26 S = ≈ 2, 02 19 − 2 zatem przewidujac ˛ wynik z egzaminu na podstawie wyznaczonej prostej regresji, mylimy sie˛ średnio o ok. 2 pkt. Agnieszka Rossa ANALIZA KORELACJI I REGRESJI