Pourquoi les agents IA de code ont besoin de meilleurs plans (pas de meilleurs modèles)
Le paradoxe du développement assisté par l'IA
En 2024-2025, si vous codez avec Claude, ChatGPT ou d'autres modèles avancés, vous avez vu du spectacle. Ces outils pondent du code fonctionnel plus vite que la plupart des humains. Ils gèrent des refactorings multi-fichiers, créent des suites de tests et suivent des instructions pointues sur des bases de code inconnues. Le premier PR d'un agent IA sort nickel.
Puis vous en fusionnez dix de plus.
C'est là que ça dérape. Pas de crash spectaculaire.
Le code tourne toujours. Les tests passent. Mais l'ensemble s'effrite. La gestion d'erreurs vire à l'optimiste. Les conventions de nommage partent en vrille. Des abstractions dupliquées squattent à côté des existantes. Chaque modif est cohérente seule. Cumulée, elle ruine l'harmonie du codebase.
Pas une faille des modèles. Un problème de fond dans notre usage.
Le vrai frein : la spécification, pas la puissance
La recherche récente le confirme sans ambages : au-delà d'un seuil de capacité, la qualité du code dépend à 100 % de la précision des specs, plus de l'intelligence du modèle.
Imaginez. Fournissez une spec ultra-détaillée – erreurs, naming, patterns architecturaux, gestion d'état, cas limites. L'IA livre du code pro. Balancez un prompt vague genre "ajoute l'authentification utilisateur". Vous obtenez du code qui marche, passe les tests basiques, et sème de la dette technique en douce.
Le modèle n'a pas régressé. La consigne ne l'a pas briefé complètement.
Les fuites de précision
L'écart entre langage naturel et code exécutable crée un gouffre qui s'élargit vite :
Le naturel est flou par essence. "Ajoute l'authentification" masque des dizaines de choix : quel modèle d'identité ? Gestion des tokens expirés ? Contrôle d'accès par rôles ou attributs ? Où placer les checks de perms ? Quels logs ? Quelles erreurs exposer au client ? Intégration avec la DB, l'API et les tests existants ?
Un dev humain pose des questions. L'IA comble avec ses priors d'entraînement – des paris solides isolés, mais qui gravent des engagements invisibles.
L'environnement code force la rigueur ; les prompts, non. Compiler, type checker, tests rejettent l'ambiguïté. Pas de ship sans compile. Les prompts tolèrent le flou. L'IA ne dit jamais "spec insuffisante". Elle avance, transforme les trous en choix non documentés.
Résultat : inversion bizarre. Du strict (code) au permissif (prompt), retour au strict. Le flou s'incruste comme décisions cachées.
L'échelle tue la cohérence. Même specs parfaites : maintenir la fidélité sur des dizaines de fichiers, centaines de fonctions, milliers de lignes ? Dur. Contextes limités aident, mais pas infinis. L'IA priorise, oublie. Ça s'accumule.
Les preuves : l'étude longue d'Alibaba
Pas de théorie pure. L'étude SWE-CI d'Alibaba a suivi 18 modèles IA sur 100 vrais codebases, 233 jours, 71 commits successifs. Verdict : 75 % des agents accélèrent leur dérive. Chaque commit OK. Tests verts. Mais le taux de casse des tests anciens grimpe.
Modèles stables. Codebases qui pourrissent. Local OK, global naze.
Impacts sur votre workflow dev
Vous déployez des agents IA en prod ? Ou y pensez ? Ça change tout :
Traitez l'IA comme un junior à guider, pas un architecte senior. Specs détaillées = résultats top. Donc :
- Rédigez des docs architecturaux avant prompt
- Définissez gestion erreurs explicitement
- Notez naming et patterns
- Précisez réutilisations d'abstractions
- Expliquez état et cas limites dès le départ
- Intégrez stratégie tests et couverture
L'IA booste votre archi, en bien ou en mal. Codebase clair et docu ? Elle l'étend proprement. Chaos existant ? Elle empire – plus vite.
Review humain obligatoire. Les devs humains traquent les assomptions invisibles avant accumulation.
Git comme historique de specs. En dev IA, les commits narrent l'intention architecturale, pas juste le code. Facilite debug futur.
L'opportunité
Côté positif : pas un défaut des modèles. Le plafond qualité est haut. Les frontier models excellent avec specs complètes.
Avantage compétitif ? Pas le modèle le plus cher. Mais des pratiques specs au top : docs clairs, prompt engineering affûté, reviews stricts. Compétences apprenables, qui s'amplifient.
Vos agents ne sont pas cassés. Sous-spécifiés. Corrigez, et observez.
Pour les utilisateurs NameOcean
Vous montez des services sur l'infra cloud NameOcean avec dev IA ? Ça pèse lourd. À l'échelle distribuée, specs claires sur domain routing, DNS propagation, SSL management et API design sont vitales. Documentez avant tout prompt. Précision infra = code IA qui s'intègre nickel à votre pipeline deploy.