Por que o Código Gerado por IA Desanda (e Como o Desenvolvimento por Contratos Resolve)

Mai 13, 2026 ai coding contract-driven development code drift detection semantic versioning ai governance developer tools ai engineering best practices

A Verdade Oculta Sobre a Velocidade do AI no Código

Todo mundo vive isso. No começo, usar Claude ou Cursor parece feitiçaria. Código surge do nada. Projetos voam. Templates somem em segundos. Aí chega o segundo mês. O código roda. Testes aprovam. Deploy sobe. Mas o resultado final não bate com o que você planejou.

Não é preguiça. É drift puro.

Pesquisas recentes confirmam o caos. O estudo SlopCodeBench (março de 2026) mostra que 90% dos fluxos de AI agents incham em verbosidade e perdem foco em tarefas longas. Na pesquisa do CMU com Cursor, o ganho inicial de 3-5x some depois de dois meses, trocado por 30% mais warnings e 41% de complexidade extra. Pior: 22,7% dos bugs gerados pelo AI sobrevivem até a revisão final, em milhões de commits.

O AI funciona. O problema é o governance.

Três Problemas que Ninguém Discute

Desvio Semântico
Sua spec pede algo "leve e simples". Após meses de prompts, o sistema ainda segue a spec tecnicamente — mas agora come 5MB e precisa de três microservices. As ideias mudaram devagar. Ninguém votou nisso. O código compila. Só no production o erro explode.

Governança Invisível
De onde veio essa escolha de arquitetura? Do histórico de chat. Qual versão da spec usou? Veja no Slack. Quem mandou o API vir com objetos aninhados em vez de flat? Provavelmente o dev que perguntou. Sem rastro de aprovação, sem histórico claro. Auditoria ou regulador chega e você tá ferrado.

Fragmentação de Contexto
Seu codebase já passou do limite de contexto de um AI há sprints. Nenhum agent vê o todo. Donos viram informais. Depois, chutes. Agora, dez visões diferentes da arquitetura rodam em branches paralelas, todas "aprovadas" por falta de revisão unificada.

O Momento da Descoberta

No início de 2026, em cinco meses, o problema ganhou seis nomes diferentes:

Intent debt (Storey, Canada Research Chair)
Cognitive debt (MIT Media Lab)
Paradox of supervision (Anthropic)
Scaffolding fragility (viral no HN)
Comprehension debt (O'Reilly)
AI slop (Baltes et al.)

Todos viram a ferida. Ninguém entregou remédio.

Aí surgiu o contract-driven development.

Contrato Acima de Spec

Specs foram um avanço. Escreva o que quer, gere código, shippe. Pegou as frutas fáceis.

Mas specs apodrecem no wiki. Ficam defasadas. Sem laço vivo com o código, ninguém sabe se ainda casam.

Contract-driven muda o jogo.

O código não é só checado contra spec. Ele nasce e é validado por um contrato vivo, em camadas:

Intent: Pra quê serve (você aprova)
Product & UX: O que o user vê (gerado do intent, você aprova)
System: A arquitetura (gerado das camadas acima, você aprova)

Cada camada tem hash. Tudo rastreável. Drift detectado? Você ganha:

Detecção: Fingerprint em itens aprovados; desvio pula na próxima rodada
Correção: Caminho claro pra consertar, sem adivinhação
Reavaliação: Código julgado pelo contrato todo, não isolado

Rigor com Flexibilidade

VibeLoom (e sistemas contract-driven) rodam em cinco modos, pelo estágio do projeto:

Vibe — Velocidade de protótipo. Só aprova intent. Resto avança sozinho. Shippe e aprenda.

Product-led — Você manda em intent e product. System auto. Ideal pra times de design.

Tech-led — Você em intent e system. Product auto. Perfeito pra infra pesada.

Design-led — Você em intent e UX. Mockups guiam product. Foco no user.

Expert — Tudo explícito. Nada auto. Zero confiança. Pra indústrias reguladas ou críticas.

Comece leve em vibe. Evolua quando o código pedir.

Por Que Isso Importa Hoje

Fábricas escuras de código vêm aí. Sistemas inteiros feitos por agents, com pouco toque humano. Não é se usar AI pra gerar código — é ter visibilidade e controle nisso.

Specs capturam intent. Contracts mantêm ele vivo.

Essa diferença explode com o tempo. Com models acelerando, um sistema que fica mais coeso (contract-driven) esmaga o que acumula dívida (spec-driven) por ordens de magnitude.

Um codebase que sabe seu propósito, detecta desvios e corrige com plano claro — esse escala com o AI.

O Recado Final

Se você manda código de AI pra production, pergunte:

Posso rastrear por que essa decisão rolou?
Saberia se o código fugiu do intent?
Tenho plano pra consertar se sim?

"Não sei" em qualquer uma? Implante um contrato. Já.

Quer testar? VibeLoom é open-source, roda com Claude Code e Python 3.10+. Sem dependências em runtime. Licença MIT. Baixe pro time e saia do spec-driven.

Ganhos de velocidade com AI são reais. Manter coerência é o próximo passo.

Read in other languages:

RU BG EL CS UZ TR SV FI RO PL NB NL HU IT FR ES DE DA ZH-HANS EN