Reality-Check-Woche: KI-Coding stößt an Sicherheitsgrenze

Apr 30, 2026 ai-assisted development secure coding vibe coding vulnerability research cloud security software supply chain code generation security benchmarks

Reality-Check-Woche: AI-Coding stößt an Sicherheitsgrenzen

Ende April 2026 gab es einen harten Weckruf für alle, die mit AI coden. Die Tools sind stark, aber sicher sind sie noch lange nicht. Fünf große News und Studien zeigten: Innovation rast voraus, Sicherheit hinkt hinterher.

Die alarmierenden Zahlen

Der Hammer kommt zuerst: 20 Prozent der Apps aus AI-Coding-Tools haben schwere Sicherheitslücken. Das sind keine Labortests – die Dinger laufen live in Produktion, sagt Wiz Research auf der Google Cloud Next.

Dazu gehören kaputte Zugriffsrechte, offene Datenpfade und leckende Credentials im Code. Tausende Apps tragen diese Erbsünde von ihren AI-Helfern. Und Achtung: Die 20 Prozent könnten noch zu rosig sein. Andere Studien deuten auf noch mehr Probleme hin.

Der Benchmark-Schock: Nur 23,8 Prozent

Die SecureVibeBench-Studie testete 105 echte Coding-Aufgaben aus dem OSS-Fuzz-Archiv. Jede Aufgabe forderte AI-Agenten auf, ein Problem zu lösen – ohne die alte CVE-Lücke zu wiederholen.

Fünf Top-Agenten wie OpenHands oder Claude Sonnet 4.5 standen im Rennen. Bester Wert: 23,8 Prozent funktionaler und sicherer Code. In 76,2 Prozent der Fälle kam entweder defekter Code raus, die Lücke kam zurück – oder beides.

Kein Fake: Echte Fuzzing-Tests mit dynamischer Analyse jagten Integer-Overflows, Buffer-Fehler und Race Conditions. Solche Bugs, die zu echten CVEs führen.

Gründe für den Abstand

Die Woche hatte ein klares Muster. Wiz packt Scanner direkt in die IDE. Red Gate listet fünf Fail-Patterns bei AI-Datenbankcode auf, mit Replit als blutiges Beispiel. Lovable gibt zu: 10 Prozent ihres eigenen AI-Codes sind unsicher.

Die Player leugnen nichts. Sie bauen Schutzschichten drauf. Aber: Große Firmen wie Wiz oder Vercel können das stemmen. Was ist mit dem Solo-Gründer im Cursor? Oder dem CEO, der interne Tools mit AI bastelt?

(Dazu passt: The New Stack porträtierte C-Level-Typen mit "LLM-only"-Entwicklung. Ein CEO hat einen BBS mit 23 MByte RAM und null Incidents laufen. Cool, aber Überlebensbias oder Glück?)

Der Vertrauensbruch

Forrester nannte den Vercel/Context.ai-Hack kein Einzelfall, sondern Folge kaputter Shared-Responsibility-Modelle. Kritik: Optionale Labels für sensible Env-Vars schieben Last auf Entwickler – und scheitern systematisch.

Tiefer: SaaS-Perimeter war Illusion. Wenn Plattformen Code-Generierung, Secrets, Logging mischen und AI drauf codet, wird der Trust-Boundary zur Farce.

Auswirkungen auf deinen Stack

AI-Coding? Zeit für neuen Plan:

1. Nimm Bugs als gegeben. Teste AI-Code wie von nem Azubi. SAST, dynamische Tests, Fuzzing – alles ran.

2. Kartiere deine AI-Tools. Wiz' AI-BOM ist Standard: Welche Modelle (Claude, Copilot, Cursor) läuft wo? Jeder hat andere Sicherheits-Schwächen.

3. Fordere bessere Defaults. Manuelle "sensitive"-Labels? Rotflagge. Security muss default on sein, Scanner automatisch.

4. Plane für die 76 Prozent. AI versagt oft bei Security – ergänze mit Reviews, Static Analysis, Runtime-Schutz.

5. Priorisiere Risiko-Bereiche. Datenbanken, Auth, APIs: Hier explodiert AI-Fehler am meisten. Hier zuerst zuschrauben.

Der positive Spin

Kein AI-Verbot. CEOs wie Moshe Bar oder OutSystems zeigen: Mit Design geht's. A/B-Tests beweisen: Schneller und sicher.

Wichtig: Design for it.

Scanner in IDE vor Commit
Auto-Remediation per Extension
Live-Inventar von AI-Modellen
Tests wie bei Drittanbieter-Code
Vendor-Druck: Security default

Wiz' Red Agent, Red Gates Analyse, SecureVibeBench – das sind Bausteine, die wir eh brauchten. Nur: Jetzt nach AI-Massen-Einsatz.

Muster der Woche: Späte Einsicht, schnelle Fixes. Frage: Wie viele der 20-Prozent-Apps laufen weiter so?

Die News im Überblick

Wiz auf Google Cloud Next: Red Agent (Offensive-Tests), AI-BOM (Inventar), IDE-Scanner. Remediation-Skills in Claude und Cursor. 20 Prozent AI-Apps unsicher.

SecureVibeBench: 105 C/C++-Challenges aus 41 OSS-Fuzz-Projekten. Funktional + sicher? Top: 23,8 Prozent. Rest: Fail oder Lücken.

Red Gate zu Datenbanken: Fünf Fail-Muster in AI-Code. Beispiele: Replit-Löschung, Lovables 10-Prozent-Rate.

CEO-Vibe-Coding: Codenotary-CEO baut BBS mit 500 Usern, 23 MByte, null Vorfälle. OutSystems-CEO testet Plattform vs. Claude.

Forrester zum Vertrauensbruch: Vercel-Hack Ende der SaaS-Perimeter-Idee. Gemischte Plattformen killen Shared Responsibility.

Diese Woche hat's gezeigt: AI-Coding rockt, produziert – und wir lernen sicher zu machen. Manchmal schmerzhaft.

Read in other languages:

RU BG EL CS UZ TR SV FI RO PT PL NB NL HU IT FR ES DA ZH-HANS EN