Capturas de pantalla vs texto estructurado: qué funciona mejor con tu asistente de código IA
El Problema con las Capturas de Pantalla
Imagina esto. Son las 2 de la mañana. Llevas una hora lidiando con el mismo problema de CSS. Finalmente sacas una captura, la pegas en tu terminal y escribes: "arregla este botón que no está alineado."
Tu asistente de IA hace lo que puede con los píxeles, interpreta como puede lo que ve, y —con suerte— te da algo útil. Pero lo que pasó ahí abajo en las entrañas del modelo es esto: consumió tokens solo para ver tu pantalla, luego quemó más tokens para entender lo que estaba mirando, y después adivinó cuál de los 47 elementos de tu pantalla 1440p era el que querías cambiar.
Un montón de adivinanzas para una sesión de debugging a las 2 de la mañana.
La Matemática de los Tokens que Nadie Menciona
Hay algo que los vendedores de asistentes de IA para código no te dicen de entrada: cada captura de pantalla que pegas cuesta dinero real y ocupa espacio en tu context window. Una captura retina típica en Claude consume unas 1.500+ tokens solo para procesarla visualmente. En GPT-4o rondas los 1.100 tokens. ¿Gemini 2.5? Cerca de 1.550.
Ahora multiplícalo por una sesión iterativa. Muestras el estado de tu pantalla cada pocos mensajes —si eres como yo arreglando problemas de UI complejos, fácilmente 15-20 veces por sesión.
De pronto te has dejado 22.000 a 31.000 tokens solo en visión antes de que el asistente haya hecho algo útil. En un context window de 200k, es espacio que no recuperas. ¿Y si estás usando Opus 4.7 u 8? Prepárate para aproximadamente 96.000 tokens de visión en la misma sesión.
La alternativa? JSON estructurado que describa tus elementos de UI: posiciones, colores, contenido de texto, roles semánticos. ¿El mismo estado de pantalla en JSON? Cerca de 700 tokens. En una sesión de 20 intercambios: unas 14.000 tokens en total.
Eso no es una mejora marginal. Es la diferencia entre terminar tu refactor y que te saquen de la sesión porque se llenó el contexto.
La Estructura Vence a los Píxeles: La Victoria Real
Pero aquí está lo que importa más allá de la matemática de tokens —y esto es lo que sigo pensando cada vez que uso estas herramientas.
Cuando pegas una captura, el asistente tiene que reinterpretar todo en cada turno. Los píxeles en bruto no son estado de razonamiento persistente. Haz una pregunta de seguimiento seis mensajes después, y el modelo vuelve a entrecerrar los ojos frente a los píxeles, reinterpretando, radivinando.
El JSON estructurado cambia toda la dinámica. En lugar de "aquí está lo que los píxeles podrían representar," le estás dando al asistente hechos que puede consultar y sobre los que puede construir: "El elemento e4 es un botón en la posición [0.34, 0.60, 0.32, 0.07], de color #3B82F6, etiquetado 'Registrarse.'"
El asistente no tiene que adivinar a qué input te refieres. El esquema ya lo sabe. El razonamiento está anclado en las mismas primitivas que el siguiente turno usará. No estás mostrando; estás diciendo.
Por Qué Esto Importa para el Vibe Coding
Aquí es donde todo esto se conecta con el cambio más grande que está pasando en el desarrollo asistido por IA —lo que algunos llaman "vibe coding."
El punto central del vibe coding es que deberías poder describir lo que quieres, iterar rápido, y confiar en que la IA maneje los detalles de implementación. Pero el vibe coding solo funciona cuando la IA tiene información precisa sobre lo que está trabajando.
Una captura es compressión con pérdida. Una anotación en un PNG son solo píxeles rojos sobre un rectángulo. Pero una anotación en JSON estructurado tiene intención: qué elemento targeting, qué está tratando de destacar, qué le pides al asistente que haga con eso.
Cuando eliminas las adivinanzas, eliminas la fricción. Y eliminar la fricción es de lo que trata el vibe coding.
El Consejo Práctico
Mirá, no estoy diciendo que nunca pegues una captura. A veces solo necesitas mostrar algo rápido. Pero si estás haciendo trabajo iterativo serio con un asistente de IA para código —refactors, debugging, construir features con UI compleja— los datos estructurados son el camino.
Las herramientas que entienden esto se están volviendo más inteligentes. Las que no, están por quedarse atrás. Porque al final del día, tu asistente de IA no está realmente "viendo" cuando pegás una imagen. Está interpretando. Y la interpretación es cara, con pérdida, e inconsistente.
Dale algo que pueda realmente leer en su lugar.
¿Qué opinás? ¿Notaste la presión del context window en sesiones largas de coding con IA? Dejá tu comentario abajo —estamos construyendo esto en tiempo real, y tu experiencia cuenta.