Wie funktioniert eine KI?

Worum es geht

Eine KI denkt nicht. Sie rechnet. Sie hat einmal sehr viel gelesen, daraus Muster gelernt - und schlägt jetzt bei jeder Frage Wort für Wort vor, was als nächstes plausibel kommen würde. Das ist die ganze Mechanik. Der Rest ist Größe.

Diese Seite ist ein Spaziergang durch die Schritte, in denen eine moderne KI arbeitet. Keine Formel, kein Code - sondern Bilder, die auch bleiben, wenn man die Seite längst weggeklickt hat. Wer am Ende sechsmal nickt, hat die Mechanik verstanden.

Erster Schritt

Lesen

Das Modell liest beim Training Milliarden Texte und merkt sich, welche Wörter typischerweise zusammenkommen.

→

Zweiter Schritt

Verstehen als Karte

Aus dem Gelesenen entsteht eine innere Landkarte, in der ähnliche Bedeutungen nahe beieinander liegen.

→

Dritter Schritt

Antworten

Wenn du fragst, wandert das Modell durch diese Karte und schreibt Wort für Wort die wahrscheinlichste Fortsetzung.

Eins

Eine KI lernt, indem sie Lückentexte löst.

Stell dir vor, jemand legt dir einen Roman vor, deckt jedes zehnte Wort ab und bittet dich, es zu erraten. Du wirst am Anfang oft danebenliegen. Nach dem hundertsten Buch wirst du besser. Nach dem millionsten ahnst du Wörter, ohne den Satz wirklich zu kennen - einfach, weil bestimmte Wörter in bestimmten Zusammenhängen praktisch immer auftauchen. Genau so wird eine KI trainiert.

Während des Trainings sieht das Modell Milliarden Sätze, immer mit einem fehlenden Stück, das es vorhersagen soll. Jedes Mal vergleicht es seine Vorhersage mit dem echten Wort. Lag es daneben, justiert es sich innerlich ein winziges bisschen nach. Das passiert Billionen Male. Am Ende ist das Modell extrem gut darin, das nächste Wort zu erraten - und genau diese Fähigkeit ist alles, was es kann.

Was dahintersteckt

Technisch heißt das Verfahren Next-Token-Prediction. Während des Trainings wandern die Texte durch ein riesiges neuronales Netz - ein mathematisches Konstrukt mit Milliarden kleiner Stellschrauben (sogenannten Parametern oder Gewichten). Jede falsche Vorhersage drückt diese Stellschrauben über das Verfahren der Backpropagation ein wenig in die richtige Richtung.

Das fertige Modell ist nichts anderes als das eingestellte Muster dieser Stellschrauben - eingefroren, kopierbar, abrufbar. Wenn du heute mit ChatGPT, Claude oder Gemini sprichst, redest du mit einer Datei, in der diese Milliarden Zahlen stehen. Das Modell lernt im Gespräch mit dir nichts dazu - das Training ist vorher passiert und bleibt von der Nutzung getrennt.

Zwei

Texte werden in kleine Bausteine zerlegt.

Bevor das Modell überhaupt mit einem Text arbeiten kann, muss es ihn in handhabbare Stücke schneiden. Das sind nicht immer ganze Wörter - oft sind es Silben, Wortteile, manchmal nur ein einzelner Buchstabe. Das deutsche Wort "Versicherungsschein" wird zum Beispiel in mehrere Stücke zerlegt, das englische "the" bleibt eins. Diese Stücke heißen Tokens, und für die KI ist eine Frage nichts anderes als eine Reihe von Tokens.

Diese Zerstückelung hat handfeste Folgen. Je länger ein Text, desto mehr Tokens - und desto mehr muss das Modell rechnen. Die Kosten, die ein KI-Anbieter abrechnet, hängen praktisch immer an dieser Token-Zahl. Auch die berühmten Längen-Grenzen ("dieses Modell kann 200.000 Tokens auf einmal verarbeiten") sind in dieser Einheit gemessen. Wer mit KI baut, lernt schnell: Tokens sind die Währung, in der KI bezahlt und gedacht wird.

Was dahintersteckt

Das Verfahren der Zerlegung heißt Tokenisierung. Es ist nicht in jedem Modell gleich - Englisch ist meist effizienter tokenisiert als Deutsch, weil das Trainingsmaterial historisch englischlastig war. Eine grobe Faustregel: 1.000 Tokens entsprechen etwa 700 bis 800 deutschen Wörtern.

Tokens sind auch der Grund, warum eine KI manchmal an scheinbar trivialen Aufgaben scheitert - etwa wenn man fragt, wie viele "r" in "Erdbeere" stecken. Das Wort liegt für das Modell nicht als Buchstabenkette vor, sondern als Token-Klumpen. Buchstaben zu zählen ist deshalb für eine KI unnatürlich schwer - eine Schwäche, die direkt aus dieser Mechanik folgt.

Drei

Bedeutung wird zu einem Ort im Raum.

Hier kommt das Bild, an das man sich am besten erinnert. Jedes Token bekommt im Modell einen Platz auf einer riesigen inneren Landkarte. "Hund" und "Katze" liegen nahe beieinander, weil beides Haustiere sind. "Hund" und "Bellen" liegen nahe, weil sie oft im selben Satz vorkommen. "Hund" und "Quadratwurzel" liegen weit voneinander entfernt. Diese Karte hat keine zwei Dimensionen wie eine Stadtkarte - sie hat tausende. Aber das Prinzip ist dasselbe: Bedeutung wird zu Entfernung.

Daraus folgt etwas Erstaunliches: Das Modell muss eine Frage nicht wortwörtlich kennen, um sie zu beantworten. Wenn du nach "einem treuen vierbeinigen Begleiter" fragst, findet die KI denselben Ort auf ihrer Karte wie bei "Hund". Genau das macht KI im Vergleich zur klassischen Suchmaschine so anders. Sie sucht nicht nach Wörtern, sie sucht nach Bedeutungen.

Was dahintersteckt

Diese Orte auf der inneren Landkarte heißen Embeddings. Technisch sind es lange Listen von Zahlen - typischerweise 1.000 bis 4.000 Stück pro Token. Jede Zahl beschreibt einen Aspekt der Bedeutung. Welcher Aspekt das jeweils ist, kann niemand klar in Worte fassen - das Modell hat sich diese Dimensionen während des Trainings selbst zurechtgelegt.

Embeddings sind auch die Grundlage für das Verfahren RAG (Retrieval Augmented Generation). Dabei bekommt jede deiner Dokumente einen solchen "Ort", und wenn du etwas fragst, holt das System aus deiner Dokumentenablage diejenigen Stücke heraus, die dem Ort deiner Frage am nächsten liegen. So bekommt eine KI Zugang zu deinem internen Wissen, ohne dass es ins Training gewandert wäre.

Vier

Aufmerksamkeit entscheidet, was zählt.

Eine KI liest deine Frage nicht von links nach rechts wie ein Mensch. Sie hat alle Wörter gleichzeitig vor sich und entscheidet für jedes einzelne, welche der anderen wichtig sind. Im Satz "Anna gab dem Hund das Würstchen, weil er Hunger hatte" muss die KI begreifen, dass sich "er" auf den Hund bezieht, nicht auf Anna. Dafür schaut sie aktiv "zurück" auf alle vorigen Wörter und gewichtet sie - manche stark, andere kaum.

Dieses gezielte Hin- und Hergucken ist der Durchbruch, der moderne KI von ihren Vorgängern unterscheidet. Es heißt Attention, Aufmerksamkeit - und es ist der Grund, warum eine KI heute lange Texte zusammenfassen, Bezüge über mehrere Absätze halten und Anspielungen erkennen kann. Was sie nicht hat, ist Aufmerksamkeitsspanne im menschlichen Sinn: Sie verteilt Aufmerksamkeit, sie spürt sie nicht.

Was dahintersteckt

Das Verfahren heißt Self-Attention und ist das Herzstück der Transformer-Architektur, die Google-Forscher 2017 in einem Aufsatz mit dem Titel "Attention is All You Need" vorgestellt haben. Alles, was heute unter dem Stichwort GPT, Claude, Gemini, LLaMA, Mistral oder DeepSeek läuft, ist im Kern eine Variante dieses einen Bauplans.

Praktisch begrenzt Self-Attention auch das, was eine KI auf einmal anschauen kann. Diese Grenze heißt Kontextfenster. Aktuelle Modelle haben Fenster von 100.000 bis mehreren Millionen Tokens - genug für hunderte Seiten Text. Was außerhalb des Fensters liegt, kennt das Modell in dem konkreten Gespräch nicht. Deshalb merkt sich eine KI standardmäßig auch nichts von einem Gespräch zum nächsten - es sei denn, die Anwendung gibt ihr aktiv die Erinnerung zurück.

Fünf

Die Antwort entsteht Wort für Wort.

Wenn die KI dir antwortet, hat sie keinen fertigen Text im Kopf, den sie nur noch ausgibt. Sie würfelt sich Wort für Wort weiter. Für jeden Schritt rechnet sie aus, welches Token als nächstes am wahrscheinlichsten wäre - dann das nächste, dann das nächste. Das Ganze passiert tausende Male in der Sekunde. Was du dabei auf dem Bildschirm Wort für Wort erscheinen siehst, ist nicht Animation - das ist tatsächlich die Reihenfolge, in der die KI denkt.

Und sie nimmt nicht immer das wahrscheinlichste Wort. Würde sie das tun, klänge sie steril und vorhersagbar. Stattdessen würfelt sie - gesteuert von einem Wert, der Temperatur heißt. Niedrige Temperatur: brave, konservative Antworten. Höhere Temperatur: kreativere, überraschendere Formulierungen, aber auch mehr Unfug. Das erklärt, warum dieselbe Frage zweimal nie ganz dieselbe Antwort bekommt - und warum eine KI manchmal mit voller Überzeugung Dinge erfindet, die nicht stimmen.

Was dahintersteckt

Das schrittweise Erzeugen heißt autoregressive Generation. Jeder neu erzeugte Token wird einfach hinten an die Frage angehängt, dann läuft das Modell erneut und produziert den nächsten. Genau deshalb wirken KI-Antworten so fließend - sie werden in genau dem Tempo gerechnet, in dem du sie lesen kannst.

Die Erfindungen heißen Halluzinationen. Sie sind keine Fehlfunktion, sondern eine Konsequenz aus dem Aufbau: Das Modell ist trainiert, immer eine plausible Fortsetzung zu liefern, auch wenn es die Antwort nicht weiß. Gegenmittel sind: Quellen anhängen (RAG), das Modell nach Belegen fragen, Antworten gegen ein zweites System prüfen. Mehr zu diesem Punkt steht unter Was KI nicht kann, auch wenn es so wirkt.

Sechs

Trainieren und Antworten sind zwei verschiedene Dinge.

Das eigentliche Lernen einer KI passiert einmal, mit gewaltigem Aufwand: Tausende Hochleistungs-Grafikkarten arbeiten Wochen bis Monate, Stromkosten in Millionenhöhe, Rechenzeit in der Größenordnung ganzer Kraftwerksabschnitte. Was dabei entsteht, ist die fertige Datei mit den Milliarden eingestellten Stellschrauben. Diese Phase heißt Training.

Wenn du danach mit dem Modell sprichst, lernt es nichts mehr dazu. Es liest deine Frage, rechnet die Antwort, vergisst alles wieder. Diese Phase heißt Inference - das laufende Nutzen. Das Modell, mit dem du heute redest, ist exakt dasselbe Modell, mit dem gestern jemand anderes geredet hat - und morgen wieder jemand anderes reden wird. Das ist auch der Grund, warum du einer KI nicht einfach im Gespräch deine Firmenwerte beibringen kannst: Sobald das Fenster zu ist, ist alles weg. Wer einer KI dauerhaft eigenes Wissen mitgeben will, muss das anders bauen - mit Datenbanken, RAG, oder einem speziellen Nachtraining.

Was dahintersteckt

Es gibt drei Wege, einer KI eigenes Wissen näherzubringen, und sie unterscheiden sich erheblich in Aufwand und Wirkung. Der einfachste ist Prompting - du gibst die relevanten Informationen einfach in jeder Anfrage mit. Der zweite ist RAG - das System holt sich vor der Antwort selbst die passenden Stücke aus deiner Wissensbasis. Der dritte ist Fine-Tuning - du trainierst das Modell mit deinen Daten nach, wodurch sich seine Stellschrauben dauerhaft ändern.

Für die allermeisten Mittelstandsprojekte ist RAG die richtige Antwort. Fine-Tuning lohnt sich erst, wenn ein klarer wiederkehrender Anwendungsfall die hohen Kosten rechtfertigt. Welcher Weg in deinem konkreten Projekt der passende ist, ist eine der Fragen, die wir im Vorgespräch klären - lange bevor irgendetwas gebaut wird.

Was diese sechs Punkte verbindet

Eine KI ist eine sehr gut gebaute Vorhersagemaschine für das nächste Wort. Lesen, Zerlegen, Verorten, Aufmerksamkeit, Vorhersagen, Trennung von Lernen und Antworten - mehr braucht es nicht, um die Mechanik im Großen zu verstehen.

Wer das Bild im Kopf hat, fällt nicht mehr auf jeden Werbespot herein. Er sieht, warum KI in manchen Aufgaben verblüffend gut ist und in anderen verblüffend daneben liegt. Und er versteht, warum eine seriöse Antwort auf "Können wir KI im Betrieb einsetzen?" immer mit einer Gegenfrage beginnt: Wofür genau? Mit welchen Daten? Wer prüft das Ergebnis? Diese Fragen sind die eigentliche Arbeit - und der Grund, warum gute KI-Projekte selten an der Technik scheitern.

Wenn du tiefer einsteigen willst

Die Mechanik ist die eine Seite. Auf den anderen Wissensseiten steht, was daraus folgt - für deine Daten, deine Möglichkeiten und deine Grenzen.

Was KI heute wirklich ist und woher die Begriffe kommen, steht unter Was ist eigentlich KI?. Welche Risiken mit dieser Mechanik einhergehen, steht unter Was KI nicht kann, auch wenn es so wirkt. Und welche Begriffe rund um KI dir sonst noch begegnen werden, findest du im KI-Glossar.

Lass uns reden ← Zur Wissensdatenbank