Praktische Einführung: Lineare Regression

Was ist Lineare Regression?

  • Die Lineare Regression ist eines der grundlegendsten Modelle des maschinellen Lernens.

  • Sie wird verwendet, um eine abhängige Variable (Zielvariable) anhand einer oder mehrerer unabhängiger Variablen vorherzusagen.

  • Bei der linearen Regression ist die Voraussetzung, dass das Skalenniveau der abhängigen Variable intervallskaliert ist, sowie eine Normalverteilung vorliegt.

  • Ist die abhängige Variable kategorisch, wird eine logistische Regression verwendet.

  • Die Gleichung einer einfachen linearen Regression lautet:

    \[y = wX + b\]

    wobei:

    • y die Zielvariable ist,

    • X die unabhängige Variable,

    • w die Steigung der Geraden (Gewicht) und

    • b der Achsenabschnitt (Bias).

Interpretabilität von Linearen Regressions-Modellen

Wie bei vielen Modellen müssen für die Lineare Regression einige Voraussetzungen in den Daten erfüllt sein, damit die Ergebnisse der Regressionsanalyse interpretiert werden können.

  • Linearität:

    Es muss ein linearer Zusammenhang zwischen der abhängigen und den unabhängigen Variablen bestehen.

  • Homoskedastizität:

    Die Residuen müssen eine konstante Varianz haben.

  • Normalität:

    Normalverteilte Fehlerkomponente

  • Keine Multikollinearität:

    Keine hohe Korrelation zwischen den unabhängigen Variablen

  • Keine Autokorrelation:

    Die Fehlerkomponente sollte keine Autokorrelation aufweisen.

Siehe auch

Beispiel mit scikit-learn

Schritte zur Implementierung eines ML-Modells

  1. Daten laden und vorbereiten

    • Import von Bibliotheken und Laden eines Datensatzes.

    • Untersuchung der Datenverteilung, Korrelationen und möglicher Ausreißer.

    • Aufteilung der Daten in Trainings- und Testsets.

  2. Datenvorbereitung

    • Umwandlung kategorischer Merkmale (One-Hot-Encoding).

    • Normalisierung und Skalierung numerischer Merkmale.

    • Aufteilung in Trainings- und Testdaten.

  3. Modell erstellen und trainieren

    • Ein Lineares Regressionsmodell aus scikit-learn erstellen und trainieren.

    • Verwendung von Metriken zur Bewertung der Modellgüte (z.B. MSE, R²).

  4. Modell evaluieren und Interpretation

    • Bewertung der Modellperformance auf dem Testdatensatz.

    • Interpretation der wichtigsten Einflussgrößen.