Was passiert eigentlich, wenn ChatGPT antwortet? Ein Blick unter die Motorhaube moderner KI
Formulierungen verbessern, Texte übersetzen, komplizierte Dokumente prüfen – KI-Tools erledigen das heute in Sekunden. Faszinierend, aber wie funktioniert das eigentlich? Die gute Nachricht: Man muss kein Informatikstudium absolviert haben, um die Grundidee zu verstehen.
Chatbot, LLM, Transformer: Was ist eigentlich was?
Wenn von ChatGPT, Claude oder Gemini die Rede ist, fallen viele Begriffe durcheinander. Was davon ist das Produkt, was die Technologie? Ein Chatbot ist zunächst die Anwendung, die Oberfläche, über die ihr mit der KI interagiert. Dahinter arbeitet ein sogenanntes Large Language Model, kurz LLM: ein Sprachmodell, das auf riesigen Mengen Text trainiert wurde und gelernt hat, Sprache zu verstehen und zu erzeugen.
Und der Transformer? Das ist die Architektur, nach der diese Sprachmodelle gebaut sind, ein 2017 von Google entwickelter Bauplan, den heute praktisch alle großen Sprachmodelle verwenden. Wenn der Chatbot das Auto ist und das LLM der Motor, dann ist der Transformer die Konstruktionszeichnung dieses Motors. Und genau um diese Konstruktionszeichnung geht es in dem neuen Kurs Transformer-basierte Large Language Models verstehen auf dem KI-Campus.
Es begann mit einer cleveren Idee
Die Geschichte der Transformer beginnt mit einer ganz konkreten Herausforderung: Wie bringt man einem Computer bei, eine Abfolge in eine andere zu verwandeln? Einen englischen Satz in einen deutschen zum Beispiel, oder eine Frage in eine passende Antwort.
Bis dahin arbeiteten die gängigen Systeme mit sogenannten Rekurrenten Neuronalen Netzen. Die funktionieren ein bisschen wie Flüsterpost: Jedes Wort wird der Reihe nach verarbeitet und die gesammelte Information an die nächste Station weitergereicht. Bei kurzen Sätzen klappt das gut. Aber wie bei der Flüsterpost gilt: Je länger die Kette, desto mehr geht auf dem Weg verloren.
Ein Forschungsteam bei Google hatte dann eine elegante Idee: Was wäre, wenn das Modell nicht mehr Wort für Wort weiterreicht, sondern alle Wörter gleichzeitig verarbeiten kann? Aus dieser Idee entstand der Transformer, und das zugehörige Paper trug einen Titel, der zum geflügelten Wort wurde: „Attention Is All You Need.”
Attention, oder: Wie Wörter einander Bedeutung geben
„Attention” wird im Deutschen mit dem Wort „Aufmerksamkeit“ übersetzt. Und genau so könnt ihr euch den Mechanismus vorstellen. Wenn ihr den Satz „Ich sitze auf einer alten Bank im sonnigen Garten” lest, wisst ihr sofort, dass „Bank” hier eine Sitzbank ist. Durch den Kontext ergibt sich die Bedeutung: Die Wörter „alten”, „sonnigen” und „Garten” machen klar, worum es geht.
Genau das tut der Attention-Mechanismus: Für jedes Wort im Satz berechnet er, wie stark es auf jedes andere Wort achten sollte. Das Ergebnis ist ein viel reicheres Bild davon, was ein Wort in seinem jeweiligen Kontext bedeutet. Der entscheidende Vorteil: All das geschieht parallel, nicht nacheinander. Der Transformer liest nicht Wort für Wort, wie ein langsamer Leser mit dem Finger, er erfasst den ganzen Satz auf einmal, wie ein schneller Blick auf eine Seite.
Diese Attention, dieser Trick, Wörter gleichzeitig zu verarbeiten und dabei kontextuelle Beziehungen zu gewichten, ist der Kern der Transformer-Architektur. Es ist die eine große Idee, auf der die meisten LLM-Produkte aufbauen, von GPT-5 über DeepSeek bis hin zu Claude.
Vom Spezialtrick zum Universalgenie
Was für die Umwandlung von Wortfolgen entwickelt wurde, erwies sich als erstaunlich vielseitig. Forschende stellten fest, dass der Transformer-Ansatz nicht nur übersetzen, sondern auch zusammenfassen, Fragen beantworten, Texte schreiben und sogar programmieren konnte, wenn man ihn nur mit genügend Daten fütterte und groß genug baute. So entstanden die Large Language Models, die heute unseren Alltag verändern. Die Grundarchitektur blieb dabei im Kern dieselbe. Was sich änderte: die Skalierung, die Trainingsmethoden und clevere Optimierungen am Attention-Mechanismus, etwa die Möglichkeit, mit mehreren „Aufmerksamkeitsköpfen” gleichzeitig auf verschiedene Aspekte eines Satzes zu achten.
Das ist ungefähr so, als hätte man 2017 einen überraschend leistungsfähigen Motor erfunden, und seitdem würden alle Hersteller darum wetteifern, daraus die besten Fahrzeuge zu bauen. Manche optimieren den Verbrauch, manche die Höchstgeschwindigkeit, manche die Alltagstauglichkeit. Aber der Motor ist im Prinzip derselbe.
LLMs einfach erklärt auf dem KI-Campus
Genau hier setzt der neue Kurs Transformer-basierte Large Language Models verstehen an. In kompakten Video-Einheiten erklären wir euch die zentralen Bausteine, von Positional Encoding über Self-Attention bis zur Block-Struktur – ohne Mathematik und Programmierung. Der Kurs richtet sich an alle, die LLMs nicht nur nutzen, sondern auch verstehen wollen. Denn wer den Motor kennt, fährt sicherer.
Johanna Ott verbindet fundierte technische Expertise mit der praxisnahen Anwendung von KI in der medizinischen Produktentwicklung. Sie unterstützt Unternehmen bei Data Science Projekten für Themen in der Konzeption, technische Umsetzung und Evaluierung. Als Senior Deep Learning Engineer bei Thirona Retina BV leitet sie die Entwicklung von Computer-Vision-KI für medizinisches Screening. Als Dozentin hat sie Erfahrung in der direkten Anleitung und im Coaching von über 100 Lernenden in diversen Weiterbildungsformaten, sowohl in Kleingruppen als auch im 1:1-Setting.