KI soll keine Tokens verschwenden – wo Code die bessere Wahl ist

Mai 25, 2026 ai development token optimization deterministic workflows ai coding agents developer productivity prompt engineering llm efficiency

Das AI-Coding-Paradox

In vielen Entwickler-Teams passiert derzeit etwas seltsam Ineffizientes. Man lässt Sprachmodelle Entscheidungen treffen, die eigentlich feststehen – etwa einen Befehl ausführen oder eine definierte Prüfung durchlaufen. Dabei verbrauchen die Modelle Token, liefern unterschiedliche Ergebnisse und brauchen ständige Aufsicht. Ein Schritt wird übersprungen, ein Tool falsch gewählt – und schon ist die Session im Eimer.

Das ist, als würde man einen Berater engagieren, nur um Lichtschalter zu bedienen.

Warum blinde Delegation nicht funktioniert

Wenn man ein LLM auffordert, SonarQube zu starten, die Ergebnisse zu interpretieren und Fixes vorzuschlagen, lädt man es mit zu vielen Aufgaben. Es muss:

Den Stack und die eigenen Konventionen kennen
Die richtige Befehlssyntax finden
Ausgaben verstehen, die nie für Menschen gedacht waren
Selbstständig nächste Schritte ableiten
Hoffen, dass es kein Tool erfindet, das gar nicht existiert

Jede dieser Aufgaben birgt Fehlerpotenzial. Und jeder Fehler kostet Token und Nacharbeit.

Determinismus zurück ins Code

Die Lösung klingt zunächst langweilig: Alles, was vorhersehbar ist, sollte wieder im echten Code liegen.

Statt das Modell zu bitten, ein Review zu „machen“, baut man besser eine Erweiterung, die:

Die Projektstruktur bereits kennt
Immer gleich abläuft
Berechenbare Ressourcen verbraucht
Dem Modell anschließend saubere, geprüfte Daten liefert

Das Modell wird dadurch nicht ersetzt – es bekommt nur Aufgaben, bei denen es wirklich glänzen kann: analysieren, bewerten, kreative Vorschläge machen.

Eigene Workflows statt Kopien

Was bei anderen funktioniert, passt selten eins zu eins. Tech-Stack, Anforderungen und Eigenheiten unterscheiden sich. Deshalb lohnt es sich, fremde Setups nur als Anregung zu nutzen – und dann das eigene System zu bauen.

Ein minimalistischer Rahmen mit Lese-, Schreib- und Shell-Funktionen reicht oft aus. Alles Weitere – spezielle Handler, Logik, Regeln – sollte man selbst verstehen und warten können. Bei Fehlern will man genau wissen, wo es hakt.

Drei konkrete Wege, Token zu sparen

Caching konsequent nutzen. System-Prompts und Tool-Definitionen werden bei jeder Nachricht erneut gesendet. Mit gezieltem Caching und Tools wie Caveman lässt sich der Overhead deutlich senken, ohne Kontext zu verlieren.

Befehlsmenüs verkleinern. Zu viele verfügbare Tools verwirren das Modell. Weniger Optionen bedeuten weniger Fehlentscheidungen und mehr Fokus auf die eigentliche Aufgabe.

Lokal komprimieren. Statt das Modell zu bitten, Prompts kürzer zu machen, kann man das vorher mit lokalen Tools erledigen. VCC normalisiert Strukturen ohne API-Aufruf und ohne zusätzliche Token.

Der eigentliche Gewinn

Ein Entwickler, der von komplexen Agenten-Workflows auf deterministische Erweiterungen umgestiegen ist, landete plötzlich weit unten auf der internen Token-Verbrauchsliste. Nicht weil weniger gemacht wurde – sondern weil weniger verschwendet wurde.

Genau darum geht es: KI dort einzusetzen, wo menschliches Denkvermögen wirklich nötig ist. Alles andere sollte durch Code geregelt sein.

Read in other languages:

RU BG EL CS UZ TR SV FI RO PT PL NB NL HU IT FR ES DA ZH-HANS EN