Por que o Código Gerado por IA Desanda (e Como o Desenvolvimento por Contratos Resolve)
A Verdade Oculta Sobre a Velocidade do AI no Código
Todo mundo vive isso. No começo, usar Claude ou Cursor parece feitiçaria. Código surge do nada. Projetos voam. Templates somem em segundos. Aí chega o segundo mês. O código roda. Testes aprovam. Deploy sobe. Mas o resultado final não bate com o que você planejou.
Não é preguiça. É drift puro.
Pesquisas recentes confirmam o caos. O estudo SlopCodeBench (março de 2026) mostra que 90% dos fluxos de AI agents incham em verbosidade e perdem foco em tarefas longas. Na pesquisa do CMU com Cursor, o ganho inicial de 3-5x some depois de dois meses, trocado por 30% mais warnings e 41% de complexidade extra. Pior: 22,7% dos bugs gerados pelo AI sobrevivem até a revisão final, em milhões de commits.
O AI funciona. O problema é o governance.
Três Problemas que Ninguém Discute
Desvio Semântico
Sua spec pede algo "leve e simples". Após meses de prompts, o sistema ainda segue a spec tecnicamente — mas agora come 5MB e precisa de três microservices. As ideias mudaram devagar. Ninguém votou nisso. O código compila. Só no production o erro explode.
Governança Invisível
De onde veio essa escolha de arquitetura? Do histórico de chat. Qual versão da spec usou? Veja no Slack. Quem mandou o API vir com objetos aninhados em vez de flat? Provavelmente o dev que perguntou. Sem rastro de aprovação, sem histórico claro. Auditoria ou regulador chega e você tá ferrado.
Fragmentação de Contexto
Seu codebase já passou do limite de contexto de um AI há sprints. Nenhum agent vê o todo. Donos viram informais. Depois, chutes. Agora, dez visões diferentes da arquitetura rodam em branches paralelas, todas "aprovadas" por falta de revisão unificada.
O Momento da Descoberta
No início de 2026, em cinco meses, o problema ganhou seis nomes diferentes:
- Intent debt (Storey, Canada Research Chair)
- Cognitive debt (MIT Media Lab)
- Paradox of supervision (Anthropic)
- Scaffolding fragility (viral no HN)
- Comprehension debt (O'Reilly)
- AI slop (Baltes et al.)
Todos viram a ferida. Ninguém entregou remédio.
Aí surgiu o contract-driven development.
Contrato Acima de Spec
Specs foram um avanço. Escreva o que quer, gere código, shippe. Pegou as frutas fáceis.
Mas specs apodrecem no wiki. Ficam defasadas. Sem laço vivo com o código, ninguém sabe se ainda casam.
Contract-driven muda o jogo.
O código não é só checado contra spec. Ele nasce e é validado por um contrato vivo, em camadas:
- Intent: Pra quê serve (você aprova)
- Product & UX: O que o user vê (gerado do intent, você aprova)
- System: A arquitetura (gerado das camadas acima, você aprova)
Cada camada tem hash. Tudo rastreável. Drift detectado? Você ganha:
- Detecção: Fingerprint em itens aprovados; desvio pula na próxima rodada
- Correção: Caminho claro pra consertar, sem adivinhação
- Reavaliação: Código julgado pelo contrato todo, não isolado
Rigor com Flexibilidade
VibeLoom (e sistemas contract-driven) rodam em cinco modos, pelo estágio do projeto:
Vibe — Velocidade de protótipo. Só aprova intent. Resto avança sozinho. Shippe e aprenda.
Product-led — Você manda em intent e product. System auto. Ideal pra times de design.
Tech-led — Você em intent e system. Product auto. Perfeito pra infra pesada.
Design-led — Você em intent e UX. Mockups guiam product. Foco no user.
Expert — Tudo explícito. Nada auto. Zero confiança. Pra indústrias reguladas ou críticas.
Comece leve em vibe. Evolua quando o código pedir.
Por Que Isso Importa Hoje
Fábricas escuras de código vêm aí. Sistemas inteiros feitos por agents, com pouco toque humano. Não é se usar AI pra gerar código — é ter visibilidade e controle nisso.
Specs capturam intent. Contracts mantêm ele vivo.
Essa diferença explode com o tempo. Com models acelerando, um sistema que fica mais coeso (contract-driven) esmaga o que acumula dívida (spec-driven) por ordens de magnitude.
Um codebase que sabe seu propósito, detecta desvios e corrige com plano claro — esse escala com o AI.
O Recado Final
Se você manda código de AI pra production, pergunte:
- Posso rastrear por que essa decisão rolou?
- Saberia se o código fugiu do intent?
- Tenho plano pra consertar se sim?
"Não sei" em qualquer uma? Implante um contrato. Já.
Quer testar? VibeLoom é open-source, roda com Claude Code e Python 3.10+. Sem dependências em runtime. Licença MIT. Baixe pro time e saia do spec-driven.
Ganhos de velocidade com AI são reais. Manter coerência é o próximo passo.