La verdad sobre los agentes de IA para programar: lo que revelan +6.000 sesiones reales de developers
La verdad sobre los agentes de IA para programar: Lo que revelan más de 6.000 sesiones reales de desarrolladores
Todos prometen lo mismo: los agentes de IA revolucionarán la programación. Menos código manual. Envíos más rápidos. Deja que la máquina se encargue de lo repetitivo.
Pero nadie medía de verdad qué hacen los desarrolladores con estas herramientas. Hasta ahora.
El dataset SWE-chat analizó más de 6.000 sesiones reales en entornos de producción. Los resultados sorprenden, incomodan y tumban mitos sobre cómo humanos y IA trabajan juntos en el código.
El auge del "vibe coding" y el alerta de los expertos en seguridad
SWE-chat identifica tres formas principales de colaboración:
- Solo humano (22,7%): La IA explica, pero el desarrollador escribe el código.
- Colaborativo (36,5%): Intercambio constante, refinando juntos.
- Vibe coding (40,8%): La IA genera casi todo; el humano solo aprueba.
El vibe coding crece a pasos agigantados. Se duplicó en tres meses y ya es el modo dominante.
El problema: los commits de vibe coding tienen 9 veces más vulnerabilidades de seguridad que el código escrito solo por humanos.
Piénsalo. Delegar todo a la IA acelera, sí, pero multiplica los errores graves. Ningún modo reduce vulnerabilidades netas, pero este es el peor.
La realidad incómoda: La mayoría del código de IA termina en la basura
Si los desarrolladores adoran estos agentes, ¿por qué el 55,7% del código generado nunca llega a producción?
Porque rechazan mucho. El 44% de las interacciones incluyen interrupciones o descartes. Los agentes casi nunca piden aclaraciones (solo 1,4% de los turnos).
Es como un monólogo. El humano corrige o ignora.
La clave: usan la IA para explorar ideas rápido y probar opciones, no para copiar y pegar. Es un pato de goma turbo, descartando lo malo y puliendo lo bueno.
Lo que de verdad buscan los desarrolladores en la IA
Sorpresa: el motivo principal para usar agentes no es generar código, sino entenderlo.
El 19% de los prompts pide explicaciones de código existente, superando las solicitudes de generación. Sirve para desentrañar legacy code, generar docs o ramp-up en proyectos nuevos.
Vendemos "escribe menos", pero ellos quieren "entiende más".
El dilema del "nitpicker experto"
El 47% de los vibe-coders son "nitpickers expertos": revisan todo, corrigen detalles mínimos.
Es contraproducente. Si vas a editar línea por línea, ¿para qué vibe coding? Los datos muestran que el modo colaborativo es más eficiente y seguro.
Gastan energía en revisar lo que podrían escribir solos, solo que más lento.
Ejemplos reales de tropiezos
SWE-chat incluye sesiones fallidas. Un caso: pedir arreglar animaciones lentas en iOS. La IA tocaba el stagger de tarjetas en vez del contenedor. Varias correcciones, cero commits. No captó el contexto espacial.
Otro: un nitpicker obsesionado. "No hagas función aparte", "pon UUID inline", "cambia el nombre". El humano actúa de revisor, no de programador.
Lecciones para tu equipo
Evalúas agentes de IA? Toma nota:
Prioriza entender, no generar: Explican mejor que crean. Docs > código nuevo.
Apunta al colaborativo: Ese 36,5% equilibra seguridad, velocidad y satisfacción. Vibe coding tienta, pero arriesga mucho.
Calcula tiempo de revisión: Usa Semgrep o Snyk en código de IA. El riesgo 9x es real, ya pasa en prod.
Mide lo que se deploya: Descartarás 55% de sugerencias. No es fallo, es el uso correcto. Evalúa aciertos, no volumen.
La visión completa
Lo valioso de SWE-chat es su crudeza. Captura desarrolladores reales, flujos reales, decisiones reales.
Desmonta el hype. No hay IA escribiendo sola. Hay humanos usando IA como herramienta de pensamiento interactiva, descartando mucho, controlando todo.
Son potentes, no mágicas. Ganarán quienes las traten como socios, con escepticismo y manos en la masa.
Los datos lo confirman.
¿Quieres más? SWE-chat es público. Si desarrollas sobre agentes de IA, estos patrones guían tu roadmap. Entender el uso real vale oro.