Varför AI-kod glider iväg – och hur kontraktstyrd utveckling fixar det
Den smutsiga sanningen om AI-hastighet
Du har känt det. Första månaden med Claude eller Cursor känns som ren magi. Funktioner byggs på nolltid. Grundkoden poppar upp över natt. Slentrian sluts. Sedan kommer månad två. Koden kompilerar. Tester går igenom. Deployment funkar. Men det du byggt matchar inte längre din vision.
Det här är inte lathet. Det är drift.
Ny forskning visar det svart på vitt. SlopCodeBench-studien från mars 2026 visar att nästan 90 procent av AI-agents långa uppgifter blir ordrikare och sämre över tid. CMU:s Cursor-rapport bekräftar: de tidiga 3–5x-hastighetsökningarna försvinner efter två månader. Istället får du 30 procent fler varningar och 41 procent högre komplexitet. Värst: 22,7 procent av AI-felen hänger kvar i de senaste versionerna – över miljontals commits.
AI är inte trasigt. Det är styrningsmodellen som brister.
Tre tysta felmodeller
Semantisk drift
Produktkraven säger "lättviktig och intuitiv". Efter tre månader och femtio prompts är det fortfarande tekniskt rätt – men nu väger det 5 MB och behöver tre microservices. Begreppen har förvrängts i smyg. Ingen godkände det. Koden kompilerar. Problemet syns först i produktion.
Osynlig styrning
Var kom det arkitekturvalet ifrån? Chathistoriken. Vilken specversion låg till grund? Kolla Slack. Vem bestämde att API:et ska returnera nested objects istället för flat? Troligen ingen som minns. Inga spårbara recensioner. Inga godkännanden. Kaos när revisorer knackar på.
Kontextspridning
Din kodbas sprängde AI:ns context window för sprints sen. Ingen agent har hela bilden. Ägandeskapet blev löst. Sen gissningar. Nu lever tio olika tolkningar av arkitekturen i parallella branches. Alla "godkända" – för att ingen kunde granska helheten.
När alla vaknade
Under fem månader i början av 2026 dök problemet upp med sex olika namn:
- Intent debt (Storey, Canada Research Chair)
- Cognitive debt (MIT Media Lab)
- Paradox of supervision (Anthropic)
- Scaffolding fragility (viral på HN)
- Comprehension debt (O'Reilly)
- AI slop (Baltes et al.)
Alla såg såret. Ingen löste det.
Tills contract-driven development dök upp.
Contract slår spec
Spec-driven var ett steg framåt. Skriv vad du vill ha. Låt systemet generera. Skicka iväg. Det plockade lågt hängande frukt.
Men specs ruttnar i wiki-filer. De blir gamla. Ingen vet om koden fortfarande stämmer – ingen kontinuerlig koppling.
Contract-driven vänder på det.
Koden genereras och bedöms mot ett levande contract – en lager-på-lager-struktur med:
- Intent: Vad systemet ska göra (du äger och godkänner)
- Product & UX: Vad användaren ser (genereras från intent, du sätter godkännandesteg)
- System: Hur det är byggt (genereras från intent och product, du sätter godkännandesteg)
Varje lager hashas. Varje lager spåras. Vid drift – och det kommer – får du:
- Upptäckt: Allt godkänt fingerprinted; drift syns direkt nästa gång
- Rättelse: Tydlig väg framåt, ingen gissning
- Ombedömning: Koden prövas mot contract, inte isolerat
Rigor med flex
VibeLoom (och liknande contract-system) kör i fem lägen, beroende på projektfas:
Vibe – Prototypfart. Ett godkännande (intent). Resten auto. Skeppa snabbt, lär snabbt.
Product-led – Du styr intent och product. System auto. Passar designfokuserade team.
Tech-led – Du styr intent och system. Product auto. Bra för infra-tunga grejer.
Design-led – Du styr intent och UX. Mockups driver product. För användarcentrerade shops.
Expert – Allt explicit. Inget auto. Noll förtroende. För reglerade eller kritiska system.
Börja inte med allt. Vibe först. Skala upp när koden mognar.
Varför det brinner nu
Dark factory-utveckling närmar sig. Hela system byggs av agenter med minimal mänsklig input. Frågan är inte om du ska använda AI för kod – utan om du har synlighet och kontroll när det händer.
Spec fångar intent. Contract bevarar det.
Skillnaden växer exponentiellt. Med modeller som accelererar vinner contract-driven (stramare över tid) mot spec-driven (skuld som byggs i smyg) med flera ordnar.
Kod som vet vad den ska vara. Som upptäcker drift. Som har fix-väg. Det är koden som skalar med AI.
Slutsatsen
Shippar du AI-genererad kod till produktion? Fråga dig:
- Kan jag spåra varför det beslutet togs?
- Vet jag om koden glidit från intent?
- Har jag process för att fixa det?
Svarar du "nej" på någon? Skaffa contract-nivå. Inte imorgon. Nu.
Vill du testa? VibeLoom är open source. Funkar med Claude Code och Python 3.10+. Inga runtime-beroenden. MIT-licens. Koden väntar på team som vill lämna spec-driven bakom sig.
AI-hastigheten är äkta. Att hålla den sammanhängande är nästa gräns.