Blackwell el hardware que potencia la IA

JUE, 24 / ABR / 2025

La arquitectura Blackwell de NVIDIA representa un nuevo salto evolutivo en hardware para inteligencia artificial, diseñada para enfrentar los desafíos técnicos de modelos de lenguaje a gran escala, con mejoras en rendimiento, eficiencia energética y escalabilidad para centros de datos y entornos de cómputo acelerado.

Autor: Pier Ciccariello

Características de la arquitectura Blackwell

Lanzada en la GTC de marzo de 2024 como sucesora de Hopper, Blackwell está optimizada para la computación en IA moderna. Introduce un diseño con mayor cantidad de núcleos por GPU, compatibilidad con formatos de precisión ultrabaja como FP4 y FP6, y un sistema de interconexión NVLink 5.0 que duplica el ancho de banda respecto a su predecesora.

Por su parte, el uso del NVSwitch 4.0 permite interconectar múltiples GPUs sin cuellos de botella, habilitando cargas distribuidas de gran volumen, fundamentales para el entrenamiento de modelos avanzados como LLMs.

El chip estrella, GB200, combina dos GPUs Blackwell con una CPU Grace, apoyado por memoria HBM3e de alta velocidad y motores especializados para descompresión de datos. La arquitectura también se distingue por incorporar un nuevo Tensor Core rediseñado, soporte para computación confidencial con TEE-I/O y un Transformer Engine de segunda generación que optimiza modelos como MoE.

Gracias a la capacidad de seleccionar dinámicamente el formato de punto flotante según la tarea, permite un balance más preciso entre consumo, velocidad y calidad.

El sistema GB200 NVL72 alcanza 130 TB/s de ancho de banda NVLink, integrando 72 GPUs Blackwell con 36 CPUs Grace en un sistema unifi cado para inferencia a escala.

Implementación en OpenAI y Proyecto Stargate

OpenAI fue uno de los primeros en adoptar esta arquitectura a través del sistema DGX B200, conformado por ocho GPUs Blackwell con 1,4 TB de memoria HBM3 y un rendimiento pico de hasta 144 petaFLOPS para inferencia.

En este entorno, el compilador Triton, desarrollado por OpenAI, ha sido actualizado para aprovechar las capacidades de precisión mixta y los Tensor Cores de Blackwell, eliminando la necesidad de codificación en CUDA. A través de Triton, las tareas en FP4 y FP8 alcanzan un rendimiento más alto sin comprometer la precisión en el entrenamiento.

A partir de enero de 2025, OpenAI, NVIDIA, Oracle, SoftBank y MGX lanzaron el Proyecto Stargate, una infraestructura global de entrenamiento distribuido que utilizará exclusivamente hardware Blackwell. Su etapa inicial contempla la construcción de diez centros de datos en Texas, para luego expandirse a Europa y Asia.

Esta red usará NVLink 5.0, NVSwitch 4.0 y conexiones Infiniband HDR, permitiendo soportar modelos como GPT-6 o Gemini Ultra, que requieren transferencia de datos masiva con eficiencia energética.

Las tecnologías Blackwell permiten el diseño de centros de datos altamente especializados en IA, preparados para modelos con billones de parámetros y fl ujos de datos masivos.

Comparación con Hopper y adelanto de Rubin

La arquitectura Hopper, lanzada en 2022 con la GPU H100, fue pionera en acelerar el entrenamiento de modelos como GPT-4 mediante memoria HBM3, interconexión NVLink 4.0 y soporte para precisión mixta. Sin embargo, Blackwell duplica el ancho de banda y mejora la eficiencia al permitir el uso extendido de formatos como FP4 y FP6.

Con la vista en el futuro, NVIDIA ya proyecta Rubin para 2026, la próxima evolución que incluirá memoria HBM4 de hasta 12 capas y una nueva CPU llamada Vera, destinada a reemplazar a Grace.

Rubin integrará NVLink 6.0, capaz de alcanzar 3.600 GB/s, y conectividad CX9 SuperNIC para flujos internos ultrarrápidos. También incorporará nuevos formatos de punto flotante como FP3 y FP2, pensados para maximizar el rendimiento en escenarios multimodales densos sin incrementar el consumo.

De esta manera, NVIDIA consolida una línea evolutiva que avanza con consistencia hacia una IA más eficiente, escalable y preparada para modelos con billones de parámetros.

CUDA y Triton permiten a los desarrolladores aprovechar el paralelismo de las GPUs de NVIDIA. Con Blackwell, Triton automatiza la ejecución sobre Tensor Cores optimizados para nuevas precisiones como FP4 y FP8.

Encuentra la versión completa de la publicación en la que se basa este resumen, con todos los detalles técnicos en RedUSERS PREMIUM

RYZEN 9900X3D y 9950X3D MAS PODER Y MENOS LIMITES

Los nuevos procesadores AMD Ryzen 9 9900X3D y 9950X3D potencian la experiencia de gaming y creación de contenido con tecnologías de última generación, pensadas para usuarios exigentes y entornos de alto rendimiento.