Ableitung der Koeffizienten der einfachen Regression

library(tidyverse)

1 Was ist die Regression?

In diesem Post geht es um die einfache Regression (d.h. mit einem Prädiktor); genauer gesagt um die Frage, wie man auf die Formeln der Koeffizienten der einfachen Regression kommt.

Gehen wir von einigen zweidimensionalen Datenpunkten aus, die zu einem Phänomen gemessen wurden: (x1,y1),(x2,y2),,(xn,yn).

Gehen wir weiter davon aus, dass der Zusammenhang in Wirklichkeit von einer Geraden erklärt werden kann:

y^=b0+b1x.

Eine Gerade kann durch zwei Koeffizienten definiert werden, den Achsenabschnitt b0 und die Steigung b1.

Für jeden Datenpunkt yi können wir die Abweichung (den Fehler) zum vorhergesagten Wert yi^ ausrechnen:

ei=yiyi^

Nennen wir die Summe der quadrierten Fehler ei im Folgenden QS (für Quadratsumme):

QS=i=1nei2QS=i=1n(yiyi^)2QS=i=1n(yib0b1xi)2

Alle Summen belaufen sich über die Beobachtungen 1,2,i,...,n.

Betrachten wir das an einem Datenbeispiel:

d <- mtcars
lm1 <- lm(mpg ~ hp, data = d)

d <-
  d %>% 
  mutate(pred = predict(lm1),
         resid = residuals(lm1))

Jetzt visualisieren wir die Residuen (Abweichungen, Fehler):

ggplot(d, 
       aes(x = hp, y = mpg)) +
  geom_smooth(method = "lm", se = FALSE, color = "dodgerblue") +
  geom_segment(aes(xend = hp, yend = pred), alpha = .5) +
  geom_point() +
  geom_hline(yintercept = mean(d$mpg), 
             color = "grey60", linetype = "dashed") +
  geom_vline(xintercept = mean(d$hp), 
             color = "grey60", linetype = "dashed") + 
  annotate("point", x = mean(d$hp), y = mean(d$mpg),
           size = 5, color = "red", alpha = .5)

Die blaue Gerade ist die Regressionsgerade; die vertikalen Balken stellen die Residuen dar und die gestrichelten Linien repräsentieren jeweils die Mittelwerte von hp bzw. mpg. Man beachte, dass der Schnittpunkt der Mittelwertslinien auf der Regressionsgeraden liegt.

2 Wie findet man die Regressionsgerade?

Um die Koeffizienten der Regressionsgeraden zu bestimmen, können wir die Methode der kleinsten Quadrate (least squares bzw. ordinary least squares) verwenden. Diese Methode gibt uns diejenigen Koeffizienten der Regressionsgeraden (also b0 und b1), die die Quadratsumme (QS) der Residuen ei minimieren.

Um die Quadratsumme zu minimieren, bilden wir jeweils die erste (parzielle) Ableitung und setzen diese Null. Anschließend löst man nach dem gesuchten Koeffizienten auf. Beginnen wir mit b0.

2.1 b0

Wir leiten nach β0 ab (Kettenregel) und setzen die Gleichung Null:

QSβ0=2(yiβ0β1xi)1(1)=0

Teilen durch -2:

(yiβ0β1xi)=0

Auflösen nach β0, der gesuchten Größe:

β0=yiβ1xi β0=nβ0:

nβ0=yiβ1xi

Teilen durch n:

(1)β0=1nyiβ11nxi

Kürzer fassen:

β0=y¯β1x¯

Das Ergebnis zeigt auch, dass der Punkt (x¯,y¯) auf der Regressionsgerade liegt.

2.2 b1

Analog verfahren wir für den zweiten Koeffizienten, b1. Wieder bilden wir die parzielle Ableitung, setzen diese Null und lösen nach dem gesuchten Koeffizienten auf. Das Nachdifferenzieren (Kettenregel) liefert allerdings ein anderes Ergebnis:

Sβ1=2(yiβ0β1xi)1(xi)=0 Gleichung multiplizieren mit 1/2 und letzten Faktor, xi nach vorne ziehen:

xi(yiβ0β1xi)=0 Summenzeichen auflösen:

(2)xiyiβ0xiβ1xi2=0

Jetzt setzen wir (1) in (2) ein:

xiyi(1nyiβ11nxi)xiβ1xi2=0

Klammer auflösen:

xiyi1nxiyi+β11n(xi)2β1xi2=0

Alle Terme mit β1 auf die rechte Seite bringen:

xiyi1nxiyi=β11n(xi)2+β1xi2

β1 vor die Klammer ziehen:

xiyi1nxiyi=β1(xi21n(xi)2)

Nach β1 auflösen:

β1=xiyi1nxiyixi21n(xi)2=cov(x,y)var(x)

Wie man sieht, kann β1 als das Verhältnis von Kovarianz zu Varianz dargestellt werden.

2.3 Weitere Umformung von b1

b1=cov(x,y)s2(x)=cov(x,y)s2(x)s(y)s(y)=cov(x,y)s(x)s(y)s(y)s(x)=cor(x,y)s(y)s(x)

3 Quellenangabe

Dies Post ist eine kommentierte und leicht angepasste Version von diesem Post auf StackExchange.

4 Fazit

In diesem Post ging es um die Ableitung der Formeln der Regressionskoeffizienten, zumindest der einfachen Regression. Dabei wurden grundlegende Algebra und partielle Ableitungen verwendet. Wir haben also bewiesen, dass die Regressionskoeffizienten die Form haben, wie sie gewöhnlich in einführenden, angewandten Lehrbüchern gezeigt werden.

Für die Ableitung der multiplen Regression sind Ansätze auf Basis der linearen Algebra praktischer.