Was KI nicht kann, auch wenn es so wirkt

Worum es geht

KI ist nützlich, wenn man weiß, was sie nicht ist. Sie ist kein Orakel, kein Faktencheck und keine kleine Person im Computer. Sie ist ein statistisches Sprachmodell - sehr gut darin, plausibel zu klingen, nicht zwingend darin, richtig zu liegen.

Diese Seite ist keine Warnung vor KI. Wir setzen sie selbst täglich ein. Aber wer sie blind einsetzt, riskiert die Substanz seines Geschäfts. Hier stehen die sechs Risiken, die wir am häufigsten sehen - und wie wir sie in unseren Projekten einplanen, statt sie wegzureden.

Erste Familie

Inhaltliche Fehler

Halluzinationen, Bias, instabile Antworten - das, was KI inhaltlich danebenliegen lässt.

→

Zweite Familie

Strukturelle Risiken

Datenschutz, Black Box, Abhängigkeit - das, was sich erst nach längerer Nutzung zeigt.

→

Konsequenz

Mit Augenmaß

KI einsetzen, wo sie nützt - und absichern, wo sie täuschen kann.

Eins

KI klingt sicher, auch wenn sie rät.

Wenn ein Sprachmodell eine Antwort nicht weiß, schweigt es nicht. Es erfindet eine. Und es erfindet sie im gleichen souveränen Tonfall wie die richtigen Antworten - mit Quellen, die nicht existieren, Paragraphen, die nie geschrieben wurden, Studien, die nie publiziert wurden. Das nennt man Halluzination. Es ist kein Bug, sondern eine Eigenschaft der zugrundeliegenden Mathematik.

Das Risiko im Betrieb ist nicht, dass KI sich irrt - das passiert auch Menschen. Das Risiko ist, dass sie sich überzeugt irrt. Wer eine falsche Antwort mit Zögern bekommt, wird misstrauisch. Wer sie mit Selbstsicherheit bekommt, übernimmt sie. Genau deshalb darf KI in unseren Projekten nie als alleinige Quelle dienen, sondern immer mit einem Mechanismus, der ihre Behauptungen prüfbar macht: Quellenangaben, Originalbelege, Vier-Augen-Prüfung bei Folgenkritischem.

Was die Forschung dazu sagt

Der Fachbegriff ist Hallucination - in der akademischen Literatur etwa systematisch aufgearbeitet von Ji, Lee et al. in "Survey of Hallucination in Natural Language Generation" (ACM Computing Surveys, 2023). Der Befund: Bei aktuellen Modellen liegen die Halluzinationsraten in unkontrollierten Anwendungen je nach Domäne zwischen 3 und 27 Prozent - mit Spitzenwerten in Fachbereichen wie Recht und Medizin, in denen die Trainingsdaten dünn sind.

Spektakulär dokumentiert wurde der Effekt im Fall Mata v. Avianca (2023): Zwei New Yorker Anwälte ließen sich von ChatGPT Präzedenzfälle für einen Schadensersatz-Schriftsatz heraussuchen. Sechs der zitierten Urteile existierten nicht. Das Gericht verhängte Sanktionen. Die Anwälte hatten nicht geprüft - weil die Antwort so glaubhaft klang. Genau das ist das Halluzinationsproblem in einem Satz.

Zwei

Sie sagt dir, was du hören willst.

Sprachmodelle sind darauf trainiert, hilfreich zu wirken - und das heißt: dem Gesprächspartner möglichst zuzustimmen. Wenn du eine Frage mit einer Vermutung formulierst, wird die KI tendenziell deine Vermutung bestätigen, nicht ihr widersprechen. Wer fragt "Stimmt es nicht auch, dass...?", bekommt fast immer ein freundliches Ja - selbst wenn die Behauptung haarsträubend ist.

Im Betrieb wird das gefährlich, wenn KI für Entscheidungs-Vorbereitung eingesetzt wird. Wer den eigenen Lieblingsweg in die Frage einbaut, bekommt ihn bestätigt. Wer Risiken einer Idee abfragt, bekommt die Risiken, die zu seiner Stimmung passen. KI ist kein neutraler Berater - sie ist ein Spiegel, der freundlich nachzeichnet. Wer sie als Sparringspartner nutzt, muss bewusst gegenfragen. Wir bauen deshalb in KI-gestützte Entscheidungsprozesse immer explizit eine Gegenposition ein: Die KI darf zustimmen - aber sie muss auch widersprechen, in einem zweiten, klar getrennten Schritt.

Was die Forschung dazu sagt

Der Effekt heißt im KI-Kontext Sycophancy - beschrieben unter anderem in Anthropics Forschung "Towards Understanding Sycophancy in Language Models" (2023). Das Paper zeigt experimentell, dass führende Sprachmodelle ihre Antworten in über 60 Prozent der Fälle anpassen, wenn der Nutzer Widerspruch andeutet - selbst bei objektiv überprüfbaren Fakten.

Verwandt ist der ältere Confirmation Bias (Peter Wason, 1960) aus der Kognitionspsychologie: Menschen suchen bevorzugt nach Informationen, die ihre Hypothesen bestätigen. KI verstärkt diesen Effekt, weil sie auf Hilfsbereitschaft trainiert ist - sie liefert zuverlässig die bestätigende Information. Wer den Bias kennt, kann ihn ausschalten. Wer ihn nicht kennt, baut sich mit KI eine Echokammer in Lichtgeschwindigkeit.

Drei

Die gleiche Frage. Zwei verschiedene Antworten.

Wer dieselbe Frage zweimal an ein Sprachmodell stellt, bekommt oft zwei unterschiedliche Antworten. Manchmal nur in der Formulierung, manchmal aber auch im Inhalt. Das ist kein Defekt - es ist die Funktionsweise: Sprachmodelle wählen aus mehreren plausiblen Fortsetzungen aus, und welche sie wählen, ist nicht vollständig festgelegt.

Im Betrieb hat das Konsequenzen. Wer ein Angebot kalkulieren lässt, bekommt zweimal hintereinander zwei Preise. Wer eine Vertragsklausel prüfen lässt, bekommt einmal "rechtssicher" und einmal "bedenklich". KI ist nicht deterministisch - das gleiche Geschäft mit zwei verschiedenen Ergebnissen ist möglich. Konsequenz: Überall, wo Verbindlichkeit zählt, darf KI nicht das letzte Wort haben. Sie kann vorbereiten, vorschlagen, prüfen. Aber die Entscheidung trifft ein Mensch, mit einem festen Verfahren und einem Protokoll.

Was die Forschung dazu sagt

Der Fachbegriff ist stochastische Generierung: Sprachmodelle wählen jedes nächste Wort über eine Wahrscheinlichkeitsverteilung, gesteuert durch einen Parameter, der "Temperatur" heißt. Die mathematische Grundlage steht in Holtzman et al., "The Curious Case of Neural Text Degeneration" (ICLR 2020). Die Empirie zeigt: Selbst bei niedriger Temperatur können sich Antworten zur gleichen Frage in zentralen Punkten unterscheiden.

Eine viel beachtete Stanford-Studie von 2023 hat das Verhalten von GPT-Modellen über mehrere Monate gemessen - und festgestellt, dass selbst die gleichen Aufgaben unter identischen Bedingungen zu unterschiedlichen Zeitpunkten unterschiedliche Ergebnisse liefern. Für reproduzierbare Geschäftsprozesse ist das ein hartes Problem. Konsequenz in der Praxis: KI für Entwurfsarbeit ja - für rechtssichere, prüfbare, wiederholbare Aussagen nein, oder nur in einer Kette, die das Ergebnis am Ende wieder reproduzierbar macht.

Vier

Du siehst, was passiert - aber nicht, warum.

Wenn ein Mitarbeiter eine Entscheidung trifft, kannst du ihn fragen, warum. Du bekommst eine Begründung, die du wiegen kannst. Bei einem Sprachmodell bekommst du zwar auch eine Begründung - aber die ist nachträglich erfunden, nicht die echte. Die echte liegt in Milliarden von Modellgewichten und ist nicht für Menschen lesbar.

Das ist die Black-Box-Frage, und sie ist im Mittelstand wichtiger als im Hype zu vermuten. Wer KI im Kundenkontakt einsetzt, muss erklären können, warum sie was getan hat - bei Beschwerden, bei Schäden, bei rechtlichen Anfragen. "Die KI hat das so entschieden" ist keine Antwort, die ein Kunde, ein Geschäftspartner oder ein Richter akzeptiert. Wir bauen KI deshalb dort ein, wo der Mensch die Entscheidung übernimmt und die KI die Arbeit vereinfacht - nicht umgekehrt.

Was die Forschung dazu sagt

Das Feld heißt Explainable AI oder kurz XAI. Aufgearbeitet etwa in Doshi-Velez und Kim, "Towards A Rigorous Science of Interpretable Machine Learning" (2017). Der Befund: Bei klassischen statistischen Verfahren kann man die Entscheidung mathematisch nachvollziehen. Bei neuronalen Netzen, besonders bei Sprachmodellen, ist das mit dem heutigen Stand der Forschung praktisch nicht möglich.

Politisch hat die EU darauf reagiert. Im EU AI Act (2024) ist Transparenz eine Kernpflicht für viele KI-Anwendungen - mit unterschiedlichen Anforderungen je nach Risikoklasse. Für Betriebe heißt das: Wer KI im Personalbereich, in der Kreditvergabe, in Sicherheitsfragen einsetzt, ist gesetzlich zu nachvollziehbaren Entscheidungen verpflichtet. "Die KI hat es so vorgeschlagen" reicht nicht mehr aus - weder fachlich noch juristisch.

Fünf

Was du eingibst, bleibt nicht immer bei dir.

Wenn du in ein öffentliches KI-Tool einen Kundennamen, einen Vertragsentwurf oder eine Kalkulation tippst, schickst du diese Daten an einen Server, der nicht dir gehört. Was der Anbieter damit macht, steht in seinen AGB - manchmal werden die Daten zum Training weiterer Modelle genutzt, manchmal nicht, manchmal nicht offiziell, aber faktisch doch.

Im Betrieb heißt das: Personenbezogene Daten, Geschäftsgeheimnisse, Pricing - alles, was nicht raus soll, gehört nicht in eine unkontrollierte KI. Die DSGVO macht da keinen Spaß, und die Schäden sind real: Samsung-Ingenieure haben 2023 mit ChatGPT Source-Code ausgetauscht, der dadurch in Trainingsdaten gelangte. Wir setzen KI deshalb in zwei klar getrennten Modi ein: Für unkritische Inhalte in den marktführenden Tools - dort, wo sie am besten sind. Für sensible Inhalte in dedizierten, vertraglich abgesicherten Umgebungen, die keine Daten weitergeben, kein Training zulassen, und in der EU stehen.

Was die Forschung dazu sagt

Die rechtliche Grundlage in Europa ist die DSGVO (seit 2018), ergänzt seit 2024 durch den EU AI Act. Beide stellen klar: Personenbezogene Daten dürfen nur unter strengen Bedingungen an Dritt-Verarbeiter - und ein US-amerikanischer KI-Anbieter ist im Sinne des Datenschutzrechts ein Dritt-Verarbeiter. Die Datenschutzkonferenz der Länder hat 2024 in ihrer Orientierungshilfe für KI ausdrücklich gewarnt, dass die naive Nutzung öffentlicher KI-Tools mit personenbezogenen Daten in der Regel rechtswidrig ist.

Praktisch wurde das Risiko mehrfach sichtbar. Die Samsung-Affäre 2023: Ingenieure tippten internen Code in ChatGPT - der landete in den Trainingsdaten und wurde später bei Anfragen anderer Nutzer wieder ausgegeben. Samsung verbot daraufhin firmenintern die Nutzung. Eine Cyberhaven-Studie von 2023 zeigt: 11 Prozent der Daten, die Mitarbeiter in öffentliche KI-Tools eingeben, sind firmenintern als vertraulich klassifiziert. Die wenigsten Betriebe haben dafür ein Schutzkonzept.

Sechs

Wer aufhört zu denken, denkt am Ende nicht mehr.

Das stillste Risiko der KI ist nicht, dass sie falsch antwortet, sondern dass man irgendwann aufhört zu prüfen. Wenn ein Werkzeug zu 99 Prozent richtig liegt, fängt der Mensch an, die letzten Prozent nicht mehr zu kontrollieren - bis ein Fehler durchrutscht, der sichtbar wird. Bei KI ist diese Schwelle besonders niedrig, weil die Antworten so flüssig und so selbstbewusst klingen.

Im Betrieb heißt das: Mitarbeiter, die KI nutzen, müssen lernen, nicht in den Automatik-Modus zu verfallen. Das ist eine Schulungsfrage, keine Software-Frage. Und es ist ein Designprinzip: Wir bauen KI-gestützte Werkzeuge so, dass der Mensch gefordert bleibt - mit sichtbarer Quellenangabe, mit Bestätigungsschritten an kritischen Stellen, mit gelegentlichen "prüf das nochmal bewusst"-Momenten. KI soll dich klüger arbeiten lassen, nicht dich entwöhnen.

Was die Forschung dazu sagt

Der Effekt heißt Automation Bias - beschrieben unter anderem von Linda Skitka et al., "Does Automation Bias Decision-Making?" (International Journal of Human-Computer Studies, 1999). Studien aus der Luftfahrt und Medizin zeigen: Sobald ein System als "intelligenter Assistent" angesehen wird, übernehmen Menschen seine Empfehlungen auch dann, wenn andere Informationen klar dagegen sprechen. Die Fehlerquote der Maschine wird zur Fehlerquote des Menschen multipliziert.

Verwandt ist die Skill-Atrophy-Forschung: Wenn eine Fähigkeit lange nicht aktiv eingesetzt wird, verkümmert sie. Eine viel zitierte MIT-Studie von 2025 hat untersucht, wie sich der intensive Einsatz von Sprachmodellen auf eigene Schreib- und Argumentationskompetenzen auswirkt - und messbare Rückgänge gefunden, schon nach wenigen Wochen. Die Konsequenz ist nicht, KI zu vermeiden. Sondern sie so einzubauen, dass die menschliche Kompetenz wach gehalten wird - und nicht wegrationalisiert.

Was diese sechs Risiken verbindet

KI ist mächtig genug, dass sich der ehrliche Umgang lohnt. Und zerbrechlich genug, dass der naive Umgang Schaden anrichtet.

Wir verkaufen keine KI um der KI willen. Wir setzen sie da ein, wo sie echte Zeit spart, und wir bauen die Mechanismen dazu, die ihre Risiken in den Griff bekommen: Quellenangaben gegen Halluzinationen, Gegenfragen gegen Sycophancy, Reproduzierbarkeits-Hüllen gegen Stochastik, Mensch in der Entscheidung gegen Black Box, EU-Hosting gegen Datenschutz, bewusste Prüfschritte gegen Automation Bias. Diese Mechanismen sind nicht das, was die KI-Demo zeigt. Aber sie sind das, was den Unterschied macht zwischen "wir nutzen KI" und "wir setzen sie verantwortlich ein".

Wenn du KI ernsthaft im Betrieb einsetzen willst

Wir bauen sie so ein, dass du danach klüger bist - nicht abhängiger. Und wir sagen ehrlich, wo wir sie heute nicht einsetzen würden.

Warum wir KI immer erst nach der digitalen Grundlage einbauen, steht unter Erst die Werkzeuge, dann die KI. Wie wir vor einem Projekt das eigentliche Problem klären, steht unter Bevor wir bauen, klären wir, was kaputt ist. Was die größten Hürden bei der Einführung sind, findest du unter Die größten Hürden liegen selten in der Technik.

Lass uns reden ← Zur Hauptseite

Was KI nicht kann, auch wenn sie so wirkt.

Worum es geht

KI klingt sicher, auch wenn sie rät.

Sie sagt dir, was du hören willst.

Die gleiche Frage. Zwei verschiedene Antworten.

Du siehst, was passiert - aber nicht, warum.

Was du eingibst, bleibt nicht immer bei dir.

Wer aufhört zu denken, denkt am Ende nicht mehr.

Was diese sechs Risiken verbindet

Wenn du KI ernsthaft im Betrieb einsetzen willst