Praktische Einführung: Lineare Regression¶

Was ist Lineare Regression?¶

Die Lineare Regression ist eines der grundlegendsten Modelle des maschinellen Lernens.
Sie wird verwendet, um eine abhängige Variable (Zielvariable) anhand einer oder mehrerer unabhängiger Variablen vorherzusagen.
Bei der linearen Regression ist die Voraussetzung, dass das Skalenniveau der abhängigen Variable intervallskaliert ist, sowie eine Normalverteilung vorliegt.
Ist die abhängige Variable kategorisch, wird eine logistische Regression verwendet.
Die Gleichung einer einfachen linearen Regression lautet:

\[y = wX + b\]

wobei:
- y die Zielvariable ist,
- X die unabhängige Variable,
- w die Steigung der Geraden (Gewicht) und
- b der Achsenabschnitt (Bias).

Interpretabilität von Linearen Regressions-Modellen¶

Wie bei vielen Modellen müssen für die Lineare Regression einige Voraussetzungen in den Daten erfüllt sein, damit die Ergebnisse der Regressionsanalyse interpretiert werden können.

Linearität:
Es muss ein linearer Zusammenhang zwischen der abhängigen und den unabhängigen Variablen bestehen.
Homoskedastizität:
Die Residuen müssen eine konstante Varianz haben.
Normalität:
Normalverteilte Fehlerkomponente
Keine Multikollinearität:
Keine hohe Korrelation zwischen den unabhängigen Variablen
Keine Autokorrelation:
Die Fehlerkomponente sollte keine Autokorrelation aufweisen.

Siehe auch

datalab-tutorial

Beispiel mit scikit-learn¶

Schritte zur Implementierung eines ML-Modells¶

Daten laden und vorbereiten
- Import von Bibliotheken und Laden eines Datensatzes.
- Untersuchung der Datenverteilung, Korrelationen und möglicher Ausreißer.
- Aufteilung der Daten in Trainings- und Testsets.
Datenvorbereitung
- Umwandlung kategorischer Merkmale (One-Hot-Encoding).
- Normalisierung und Skalierung numerischer Merkmale.
- Aufteilung in Trainings- und Testdaten.
Modell erstellen und trainieren
- Ein Lineares Regressionsmodell aus scikit-learn erstellen und trainieren.
- Verwendung von Metriken zur Bewertung der Modellgüte (z.B. MSE, R²).
Modell evaluieren und Interpretation
- Bewertung der Modellperformance auf dem Testdatensatz.
- Interpretation der wichtigsten Einflussgrößen.