LLM-Intuition: Was macht ein Sprachmodell? ========================================== **Recap:** In der Einführung in Generative KI haben wir gesehen, dass generative Modelle neue Inhalte erzeugen – bei Sprachmodellen heißt das: Text. **Warum dieses Kapitel:** Bevor wir Tokens, Prompting oder RAG verstehen, brauchen wir eine klare Vorstellung davon, *was* ein LLM überhaupt tut. In diesem Kapitel geht es darum, **ohne Formeln** zu verstehen, was ein Large Language Model (LLM) im Kern macht. Die zentrale Idee ----------------- Stellen wir uns vor: Wir lesen einen Satz und sollen das nächste Wort ergänzen – z. B. „Der Himmel ist …“. Wir wählen ein Wort, das **in den Kontext passt** (z. B. „blau“, „bewölkt“). Ein LLM macht im Kern genau das: Es sagt auf Basis des bisherigen Textes das **nächste Wort** (bzw. die nächste Einheit, den *Token*) vorher. .. code-block:: text Eingabe: "Maschinelles Lernen ist …" Modell: wahrscheinlich "ein" oder "eine" oder "die" … (nächster Token) Das Modell hat aus riesigen Textmengen gelernt, welche Fortsetzungen typisch sind. Es „versteht“ den Text nicht im menschlichen Sinne, aber es erfasst **statistische Muster** und Kontext. Warum „groß“ (Large)? --------------------- Je mehr Parameter und Trainingsdaten ein solches Modell hat, desto besser kann es längere und komplexere Abhängigkeiten nutzen – daher „Large“ Language Model. Für die Intuition reicht: Das Modell ist im Wesentlichen ein **Vorhersagegerät für den nächsten Token**. Beispiele bekannter LLMs (Praxis) --------------------------------- Genau dieses Prinzip steckt hinter den Modellen, die aus Produkten und Schlagzeilen bekannt sind: * **ChatGPT** (OpenAI) – baut auf Modellen wie GPT-3.5 und GPT-4 auf; Next-Token-Prediction in der Breite nutzbar. * **Claude** (Anthropic) – ebenfalls ein autoregressives Sprachmodell, z. B. für Assistenten und lange Kontexte. * **Gemini** (Google) – multimodales Modell mit starkem Fokus auf Text und Code; gleiche Grundidee: nächsten Token vorhersagen. * **Llama** (Meta) – Open-Weight-Modellreihe, oft für Forschung, lokale Installationen und angepasste Anwendungen. * **DeepSeek** (DeepSeek AI) – leistungsstarkes Modell u. a. für Code und Reasoning; Beispiel eines Anbieters außerhalb der „Big Tech“-Runde. Alle diese Systeme sind im Kern **Sprachmodelle**, die aus Kontext den nächsten Token erzeugen – nur Größe, Training und Produkteinbettung unterscheiden sie. Von der Vorhersage zum generierten Text --------------------------------------- * Wir geben einen **Prompt** ein (z. B. eine Frage oder einen Anweisungstext). * Das Modell erzeugt Token für Token den **nächsten** Token. * Dieser wird wieder zur Eingabe hinzugefügt, und so weiter – bis eine Antwort oder ein Abschluss entsteht. So entstehen ganze Sätze oder Absätze. Die Qualität hängt stark vom **Prompt** und von der **Kontextlänge** (wie viel vorheriger Text das Modell „sehen“ darf) ab. Wichtige Begriffe (kurz) ------------------------- * **Token:** Die kleinste Einheit, die das Modell verarbeitet (oft Teilwörter, nicht immer ganze Wörter). * **Prompt:** Der Text, den wir dem Modell als Eingabe geben. * **Kontext / Context Length:** Der Bereich des bisherigen Textes, den das Modell bei der Vorhersage berücksichtigt. Diese Begriffe werden in den folgenden Kapiteln (Tokenisierung, Prompt-Engineering) vertieft. Nächster Schritt ---------------- Das Modell arbeitet mit **Einheiten** (Tokens), nicht mit beliebigem Rohtext. Als Nächstes geht es um **Tokens und Tokenisierung** (:doc:`tokenization`): Wie aus Text genau die Einheiten werden, die das Modell verarbeitet – und warum Kontextlänge und Kosten in Token gemessen werden.