Más allá del ruido de la IA: Lo que Google Cloud Next '26 cambia en tu infraestructura
Más allá del ruido de la IA: Lo que Google Cloud Next '26 cambia en tu infraestructura
Cada primavera, Google Cloud Next acapara el calendario tech con keynotes llenos de sorpresas, lanzamientos y demos de IA por doquier. Pero si manejas infraestructura o tomas decisiones técnicas, olvídate de los shows. Lo que cuenta son los detalles de chips, redes y benchmarks que van a definir tus costos y rendimiento en los próximos dos años.
En abril, el evento en Las Vegas reunió a más de 32.000 personas y soltó 260 novedades. Yo filtré lo superfluo para traerte lo clave en tu estrategia de infra.
Chips a medida: Entrenamiento vs. Inferencia
Google apostó fuerte con sus TPUs de octava generación. Crearon dos chips distintos para dos retos distintos.
El TPU 8t brilla en entrenamiento masivo. Es ideal para fundar modelos o ajustar LLMs gigantes. Un superpod mete 9.600 chips con 2 PB de memoria compartida de alta velocidad, alcanzando 121 exaflops —casi el triple de la generación pasada—. Lo revolucionario: escalado casi lineal hasta 1 millón de TPUs en varios data centers. Tus plazos de ML se acortan en serio.
El TPU 8i va por el otro lado: inferencia y serving en tiempo real. Trae 384 MB de SRAM en chip (3x más que antes), 288 GB de HBM y un nuevo motor que corta la latencia de comunicación hasta 5x. El dato estrella: 80% más rendimiento por dólar. Para hosting y SaaS con features de IA, eso engorda márgenes directo.
Además, liberan acceso temprano a instancias A5X con NVIDIA Vera Rubin NVL72, hasta 80.000 GPUs por data center. Si estás atado a NVIDIA, Google te da densidad y precios agresivos.
Redes: El cuello de botella que nadie ve
Hardware top no vale nada sin redes que lo soporten. El TPU más rápido del mundo es inútil si los datos no fluyen.
Por eso lanzaron Virgo, una arquitectura de fabric para data centers. Ofrece 4x más ancho de banda y aguanta 134.000 TPUs en un solo sitio. El truco: diseño "collapsed fabric" que acaba con el "impuesto de escalado" —esa pérdida de eficiencia en clusters grandes—. Escalas lineal a lo bestia.
Para setups híbridos o multi-cloud, las mejoras en Cloud Interconnect son oro. Ahora 400 Gbps por conexión, hasta 3.2 Tbps en una lógica. Menos latencia y costo por GB al mover datos entre on-prem, Google Cloud o rivales. Si tienes reglas estrictas de datos o migraciones por fases, esto hace viable lo imposible.
Almacenamiento a full: Cifras que impresionan
Managed Lustre, su sistema paralelo de alto rendimiento, ahora escupe 10 TB/s de throughput. Repítelo dos veces.
En comparación: NAS empresariales rondan 1-2 GB/s. Esto es para simus científicas, genómica, clima o pipelines de ML con petabytes. No es lujo. En finanzas, pharma o big data, el storage decide si terminas en horas o días. Google va por los jobs más duros.
Impacto real en tu setup
No son parches. Son cambios de base en lo que Google Cloud banca:
Equipos de ML: Entrenamientos más rápidos. Costos por modelo bajan, sobre todo con modelos enormes.
SaaS y servicios hosted: Inferencia más rentable. Tus features de IA mejoran la economía unitaria.
Híbridos y multi-cloud: Redes baratas y rápidas. Diseños marginales ahora rentables.
Workloads intensivos: Storage deja de limitar. Diseña por compute y red.
La lección clave
Next '26 vendió entradas con IA, pero lo que mueve la aguja son specs que bajan costos y suben techos. Si miras Google Cloud para tu próximo proyecto, ignora videos y pide datos: disponibilidad de TPUs, Virgo para tu caso, throughput de Lustre en tus pipelines.
El mundo cloud se especializa más. Google cree que ganan los que sudan specs de hardware, redes y números crudos. Si construyes en serio, únete al club.