Warum KI-Code aus dem Ruder läuft – und Contract-Driven Development das stoppt
Die dunkle Seite der AI-Geschwindigkeit
Jeder kennt das. Der Einstieg mit Tools wie Claude oder Cursor fühlt sich an wie Zauberei. Code entsteht im Nu, Features landen blitzschnell, Routinearbeit löst sich in Luft auf. Doch nach dem zweiten Monat stimmt etwas nicht mehr. Der Code kompiliert, Tests laufen durch, Deployments klappen. Aber das Ergebnis passt nicht zu deiner Vision.
Das ist keine Faulheit. Das ist Drift.
Neuere Untersuchungen zeigen das Problem klar. Die SlopCodeBench-Studie aus März 2026 meldet: Fast 90 Prozent der AI-Prozesse werden bei langen Aufgaben wortreicher und verlieren an Qualität. Forscher an der CMU stellten fest, dass der anfängliche Speed-Boost von 3- bis 5-fach nach zwei Monaten weg ist – stattdessen 30 Prozent mehr Warnungen und 41 Prozent höhere Komplexität. Schlimmer: 22,7 Prozent der AI-Fehler bleiben bis zur finalen Version bestehen, über Hunderttausende Commits hinweg.
AI funktioniert. Das Steuerungsmodell nicht.
Drei heimliche Fallen
Semantischer Drift
Deine Anforderung lautet „leicht und benutzerfreundlich“. Nach drei Monaten und 50 Prompts steht eine 5-MB-Lösung mit drei Microservices da. Technisch passt sie noch – aber die Idee hat sich verändert. Niemand hat das abgenickt. Im Prod merkt es erst der User.
Unsichtbare Entscheidungen
Woher kam diese Architektur-Idee? Aus dem Chat-Verlauf. Auf welcher Spec-Version basiert sie? Schau in Slack nach. Wer hat den API-Wechsel zu verschachtelten Objekten entschieden? Wahrscheinlich der Entwickler im Vorbeiflug. Kein Protokoll, keine Spur – fatal bei Audits oder Regulierungen.
Zerfranstes Wissen
Dein Codebase passt seit Sprints nicht mehr in ein AI-Context-Fenster. Kein Agent sieht das Gesamtbild. Eigentümerschaft wird vage, dann Raten. Plötzlich laufen zehn verschiedene Architektur-Versionen parallel in Branches – alle „freigegeben“, weil niemand den Überblick hatte.
Der Moment der Erkenntnis
Anfang 2026 tauchte das Problem unter sechs Namen auf:
- Intent debt (Storey, Canada Research Chair)
- Cognitive debt (MIT Media Lab)
- Paradox of supervision (Anthropic)
- Scaffolding fragility (viral auf HN)
- Comprehension debt (O'Reilly)
- AI slop (Baltes et al.)
Alle beschrieben dieselbe Schwäche. Keiner lieferte eine Lösung.
Bis Contract-Driven Development kam.
Vertrag statt bloße Spezifikation
Spec-Driven Development war ein Fortschritt. Du beschreibst, was du willst, AI baut es, alle shippen. Es packte die einfachen Fälle.
Aber Specs veralten unbemerkt im Wiki. Niemand prüft, ob Code noch passt – kein automatischer Link.
Contract-Driven dreht das um. Code entsteht und wird geprüft gegen einen lebendigen Vertrag:
- Intent: Der Zweck des Systems (du definierst und genehmigst)
- Product & UX: Das User-Erlebnis (aus Intent abgeleitet, du setzt die Freigabe)
- System: Die technische Umsetzung (aus Intent und Product, du entscheidest)
Jede Schicht wird gehasht und nachverfolgbar. Bei Drift passiert:
- Erkennung: Fingerprints machen Abweichungen sofort sichtbar
- Behebung: Klare Schritte statt Chaos
- Neubewertung: Code wird gegen den Vertrag geprüft, nicht isoliert
Struktur mit Spielraum
VibeLoom und ähnliche Systeme bieten fünf Modi, passend zur Projekt-Reife:
Vibe – Prototyping pur. Nur Intent-Freigabe. Rest läuft auto. Schnell lernen, schnell shippen.
Product-led – Du steuerst Intent und Product. System folgt. Ideal für designstarke Teams.
Tech-led – Intent und System bei dir. Product auto. Passt zu Infra-Projekten.
Design-led – Intent und UX deins. Mockups lenken Product. User-fokussiert.
Expert – Alles explizit. Kein Auto-Advance. Null-Trust-Modus für Regulierte oder kritische Bereiche.
Fang mit Vibe an. Baue auf, wenn der Code reift.
Warum das jetzt zählt
Dark-Factory-Development naht. Agenten bauen komplette Systeme mit wenig Mensch. Die Frage ist nicht, ob du AI nutzt – sondern ob du Kontrolle und Sichtbarkeit behältst.
Specs halten Intent fest. Contracts schützen ihn.
Das wirkt sich exponentiell aus. Bei steigender AI-Power gewinnt ein kohärentes, drift-sicheres System meilenweit gegen schuldenbeladenes Spec-Driven.
Ein Codebase, der seinen Zweck kennt, Drift erkennt und behebt – der skaliert mit AI.
Der Kernpunkt
Shippst du AI-Code in Prod? Frag dich:
- Kann ich nachvollziehen, warum diese Entscheidung fiel?
- Wüsste ich, wenn Code vom Intent abweicht?
- Hab ich einen Plan zur Korrektur?
Bei „eher nicht“ brauchst du einen Contract-Layer. Heute, nicht morgen.
Mehr erfahren? VibeLoom ist Open Source, läuft mit Claude Code und Python 3.10+. Keine Runtime-Abhängigkeiten. MIT-Lizenz. Perfekt für Teams, die über Specs hinaus wollen.
AI-Speed ist echt. Ihn kohärent zu halten, ist die neue Herausforderung.