AMD Instinct MI350 Series: Así consigue la arquitectura CDNA 4 multiplicar por 4 el rendimiento en IA

AMD Instinct MI350 Series: Así consigue la arquitectura CDNA 4 multiplicar por 4 el rendimiento en IA 4qs8

por Antonio Delgado Actualizado: Ayer a las 08:52

Introducción y Especificaciones Técnicas de las AMD Instinct MI350 Series 5h3k55

4o4f33

Hoy es el día escogido por AMD para lanzar su nueva generación de tarjetas aceleradoras basadas en la nueva arquitectura CDNA 4 bajo el nombre de AMD Instinct MI350 Series. Se trata de unos modelos que incluyen la última tecnología de la compañía para procesamiento avanzado de datos y, sobre todo, de Inteligencia Artificial, con soporrte para los nuevos tipos de datos de precisión FP4 y FP6, el uso de memorias HBM3E de alto ancho de banda y de procesos de fabricación avanzados como el nodo de 3 nanómetros de TSMC en un diseño de chiplets que combina distintos módulos y procesos.

Geeknetic AMD Instinct MI350 Series: Así consigue la arquitectura CDNA 4 multiplicar por 4 el rendimiento en IA  1

A lo largo de este artículo, descubriremos sus especificaciones técnicas y de lo que son capaces, además de entrar en detalle en todas las novedades y entresijos de la nueva arquitectura CDNA 4 que estrenan estas tarjetas.

Esta nueva línea de tarjetas aceleradoras se estrena con dos modelos, la AMD Instinct MI350X y la Instinct MI355X, ambas con la friolera de 288 GB de memoria HBM3E. Ambos modelos tienen la misma GPU, pero se diferrencian en que la AMD Instinct MI350X está preparada para funcionar con refrigeración por aire, y la AMD Instinct MI355X está optimizada para refrigeración líquida puediendo alcanzar mayores potencias.

Eso sí, su consumo no será bajo, con TBP de 1.000 W para la MI350X y de máximos de 1.400 W para la MI355X.

Además de las propias aceleradoras independientes, será posible combinar 8 de estas GPUs en una misma plataforma con sistemas de refrigeración líquida o por aire, para, a su vez, combinarlas en servidores con hasta 128 GPUs, con 36 TB de memoria HBM3E.

Geeknetic AMD Instinct MI350 Series: Así consigue la arquitectura CDNA 4 multiplicar por 4 el rendimiento en IA  2

Geeknetic AMD Instinct MI350 Series: Así consigue la arquitectura CDNA 4 multiplicar por 4 el rendimiento en IA  3

 

Geeknetic AMD Instinct MI350 Series: Así consigue la arquitectura CDNA 4 multiplicar por 4 el rendimiento en IA  4

Especificaciones Técnicas de las AMD Instinct MI350X y AMD Instinct MI350X 381l3d

  Instinct™ MI350X Instinct™ MI355X
Memoria 288 GB HBM3E 288 GB HBM3E
Ancho de banda de memoria 8 TB/s 8 TB/s
Transistores 185.000 millones
Unidades de Cómputo 256 CUs
AMD Infinity Caché 256 MB (128 x 2)
Caché L2 32MB
PCIe 5.0  5.0
Rendimiento pico FP64 72 TF 79 TF
Rendimiento pico FP16 4.6 PF 5 PF
Rendimiento pico FP8 9.2 PF 10 PF
Rendimiento pico FP6 18.4 PF 20 PF
Rendimiento pico FP4 18.4 PF 20 PF
Consumo TBP Hasta 1000W Hasta 1400W

 

Especificaciones Técnicas de las plataformas basadas en 8 AMD Instinct MI350 Series 6d451c

 

Especificaciones

(Teóricas Máximas)

AMD Instinct™

MI350X GPU

AMD Instinct™

MI350X Plataforma

AMD Instinct™

MI355X GPU

AMD Instinct™

MI355X Plataforma

GPUs Instinct MI350X OAM 8 × Instinct MI350X OAM Instinct MI355X OAM 8 × Instinct MI355X OAM
Arquitectura GPU CDNA 4 CDNA 4 CDNA 4 CDNA 4
Memoria dedicada 288 GB HBM3E 2.3 TB HBM3E 288 GB HBM3E 2.3 TB HBM3E
Ancho de banda de memoria 8 TB/s 8 TB/s por OAM 8 TB/s 8 TB/s por OAM
Rendimiento FP64 72 TFLOPs 577 TFLOPs 78.6 TFLOPs 628.8 TFLOPs
Rendimiento FP16* 4.6 PFLOPs 36.8 PFLOPs 5 PFLOPs 40.2 PFLOPs
Rendimiento FP8* 9.2 PFLOPs 73.82 PFLOPs 10.1 PFLOPs 80.5 PFLOPs
Rendimiento FP6* 18.45 PFLOPs 147.6 PFLOPs 20.1 PFLOPs 161 PFLOPs
Rendimiento FP4* 18.45 PFLOPs 147.6 PFLOPs 20.1 PFLOPs 161 PFLOPs

 

Geeknetic AMD Instinct MI350 Series: Así consigue la arquitectura CDNA 4 multiplicar por 4 el rendimiento en IA  5

Rendimiento de las AMD Instinct Mi 350 Series: hasta un 40% más tokens por dolar que la competencia 3793t

AMD promete un salto de rendimiento considerable en estas nuevas MI350X y MI 355X. Hablamos de cuatro veces más rendimiento que la pasada generación en procesamiento de tareas de Inteligencia Artificial.

Geeknetic AMD Instinct MI350 Series: Así consigue la arquitectura CDNA 4 multiplicar por 4 el rendimiento en IA  6

El rendimiento en inferencia desde la pasada generación supera en 35 veces el que se obtenía en la generación anterior en tareas como la ejecuicoón de inferencia en el modelo Llama 3.1-405B con FP4. permitiendo la creación de nuevos centros de datos y sistemas de IA en la nube mucho más potentes con el mismo espacio y con un coste por token sensiblemente inferior. Este aumento de 35 más rendimiento es, principalmente, debido a que las generaciones anteriores no soportaban FP4 y tenían que ejecutar en FP8 más lento por definición (más complejo).

AMD asegura que la AMD Instinct MI355X ofrece un 40% más de tokens procesador por cada dólar gastado que la alternativa de NVIDIA.

Geeknetic AMD Instinct MI350 Series: Así consigue la arquitectura CDNA 4 multiplicar por 4 el rendimiento en IA  7

El rendimiento de las nuevas Instinct MI355X respecto de las MI300X alcanza hasta 4,2 veces más en chatbots de IA, 2,9 veces más rendimiento en generación de contenido, 3,8% en resumen de datos y 2,6 veces más rapidez en IAs conversacionales.

Geeknetic AMD Instinct MI350 Series: Así consigue la arquitectura CDNA 4 multiplicar por 4 el rendimiento en IA  8

Geeknetic AMD Instinct MI350 Series: Así consigue la arquitectura CDNA 4 multiplicar por 4 el rendimiento en IA  9

Geeknetic AMD Instinct MI350 Series: Así consigue la arquitectura CDNA 4 multiplicar por 4 el rendimiento en IA  10

Los datos de rendimiento muestran un posicionamiento considerablemente por encima de las soluciones de la competencia. AMD compara a la Instinct MI355X contra las soluciones GB200 y B200 de NVIDIA, prometiendo hasta el doble de rendimiento pico en procesamiento FP6 FP32 y FP64, además de contar con un 60% más de memoria.

Geeknetic AMD Instinct MI350 Series: Así consigue la arquitectura CDNA 4 multiplicar por 4 el rendimiento en IA  11

El rendimiento en inferencia sobre modelos de lenguaje grandes o LLM como DeepSeek R1 o Llama 3.1 405B debería ser entre un 20 y un 30% superior a las soluciones de NVIDIA:

Geeknetic AMD Instinct MI350 Series: Así consigue la arquitectura CDNA 4 multiplicar por 4 el rendimiento en IA  12

Geeknetic AMD Instinct MI350 Series: Así consigue la arquitectura CDNA 4 multiplicar por 4 el rendimiento en IA  13

 

Arquitectura CDNA 4 al detalle 6j4s5h

La arquitectura CDNA 4 se ha diseñado teniendo en cuenta el sistema de Chiplets que AMD lleva utilizando ya desde hace unos años, con un diseño 3D y 2.5D que combina distintos chiplets o "bloques" con su propia función e interconectados mediante la capa AMD Infinity Fabric. Eso permite fabricar los distintos bloques con diferentes procesos y juntarlos en un chip de manera optimizada.

Geeknetic AMD Instinct MI350 Series: Así consigue la arquitectura CDNA 4 multiplicar por 4 el rendimiento en IA  14

Tenemos, por un lado, los "Accelerator Complex Die" o XCD, que serían los bloques de cómputo y el IO/Die o IOD encargado de las operaciones de entrada/salida hacia el sistema y la memoria. En este diseño, los XCD se colocan sobre el IOD en una disposición apilada.

Geeknetic AMD Instinct MI350 Series: Así consigue la arquitectura CDNA 4 multiplicar por 4 el rendimiento en IA  15

Geeknetic AMD Instinct MI350 Series: Así consigue la arquitectura CDNA 4 multiplicar por 4 el rendimiento en IA  16

No nos podemos olvidar tampoco de las memorias HBM3E que se integran en una distribución 2.5D en distintos niveles.

Distribución de los distintos chiplets 123l6j

Dado el diseño apilado, tenemos dos IOD, el IOD0 y el IOD1, sobre el que se colocan 4 XCD con sus motores de sombreado y caché L3. Cada XCD tiene cuatro motores de sombreado, y cada motor de sombreado 8 CUs o unidades de cómputo.

Geeknetic AMD Instinct MI350 Series: Así consigue la arquitectura CDNA 4 multiplicar por 4 el rendimiento en IA  17

El bloque de cómputo, dentro del sistema de diseño de chiplets que AMD utiliza en estas GPU, está fabricado con el proceso de 3 nanómetros TSMC N3P.

Tenemos un total de 256 CUs, 128 CUs por cada cuatro XCD que van encima de cada IOD. Cada uno de los 8 bloques XCD cuenta con un total de 32 CUs (8x4), no obstante, si nos fijamos en el esquema de diseño de las GPUs MI350 Series, podemos ver que realmente hay 9 filas de 4 CUs, lo que nos daría 36 unidades de cómputo. La razón por la que esa fila está anulada (sale en gris) debido a que es una cuestión de diseño para optimizar el proceso de fabricación de los chips y conseguir un yield mayor (número de chips viables por oblea).

Comparado con generaciones anteriores, las MI350 ofrecen menos CUs, pero son más potentes, haciendo que elementos como las colas hardware, el programador de tareas, ACEs y demás solo requieran pequeñas mejoras para conseguir un rendimiento global superior.

Las 256 Compute Units cuentan con 1.024 núcleos de cálculo matricial, uno de los elementos que más han contribuido a la mejora de rendimioento y eficiencia de CDNA 4. Son unos elementos especializados en el cálculo de procesos de IA y machine learning, donde se añade el soporte para FP4 y FP6 para conseguir procesamientos mucho más rápidos y eficientes con poco aumento de consumo.

Geeknetic AMD Instinct MI350 Series: Así consigue la arquitectura CDNA 4 multiplicar por 4 el rendimiento en IA  18

Además, al poder utilizar tipos de datos más pequeños, se optimiza el uso de la memoria y de la caché.

Cada XCD tiene 4 MB de caché L2 que se comparte entre los 32 CUs para un total combinado de 32 MB.

Geeknetic AMD Instinct MI350 Series: Así consigue la arquitectura CDNA 4 multiplicar por 4 el rendimiento en IA  19

En total, cuenta con 256 MB de AMD Infinity Caché para toda la GPU, interconectada a los 8 bloques de memoria HBM3E, cada uno con 36 GB de memoria para un total de 288 GB. La capa de interconexión Infinity Fabric de cuarta generación ofrece un ancho de banda de 1.075 GB/s con los distintos enlaces, mientras que cuenta con una bisección entre los dos IOD unidos por 5,5 TB/s de ancho de banda.

Los IOD están fabricados con el proceso TSMC N6 de 6 nanómetros.

Particionamiento de las GPUs 152h19

Las AMD Instinct MI350 mantienen la posibivilidad de realizar particiones bidimensionales de la zona de cómptuo y de memoria de manera similar a las arquitectura previas a CDNA 4. Eso permite hacer que los XCD funciona de manera conjunta en una tarea compleja, pero también pueden dividirse en particiones de dos, cuatro u ocho módulos de cómputo para realizar tareas más simples de manera independiente entre sí.

Eso es especialmente útil a la hora de procesar distintas tareas en modelos de lenguaje más pequeños y realizar la inferencia a la vez en hasta 8 instancias.

Geeknetic AMD Instinct MI350 Series: Así consigue la arquitectura CDNA 4 multiplicar por 4 el rendimiento en IA  20

Geeknetic AMD Instinct MI350 Series: Así consigue la arquitectura CDNA 4 multiplicar por 4 el rendimiento en IA  21

Interconexión de 8 GPUs 6p485g

La plataforma de AMD para estas Instinct MI350 series permite combinar ocho de estas GPU trabajando de manera conjunta e interconectada. Cada una de estas GPUs utiliza un link PCI Express 5.0 o PCie Gen 5 para conectarse al procesador del módulo y los dispositivos de entrada y salida.

Geeknetic AMD Instinct MI350 Series: Así consigue la arquitectura CDNA 4 multiplicar por 4 el rendimiento en IA  22

El diseño de estas GPUs es compatible con las anteriores MI325W, al menos en las variantes de 1000 W, ya que el modelo MI355X de 1.400W deberá adaptarse para aumentar los requisitos de energía y refrigeración.

Geeknetic AMD Instinct MI350 Series: Así consigue la arquitectura CDNA 4 multiplicar por 4 el rendimiento en IA  23

 

Las AMD Instinct MI400 llegarán en el 2026 con 432 GB de memoria HBM4, y las MI500 en 2027 1h4022

 Las AMD Instinct MI350 Series suponen la actualización de la gama de tarjetas aceleradoras de AMD para este año 2025, siguiendo los planes de la compañía para lanzar una generación nueva de manera anual. Así, en el año 2023 llegaron las AMD Instinct MI300A y MI300X, en el año 2024 las AMD Instinct MI325X y en este año las MI350 de las que os hemos hablado en detalle.

AMD planea continuar con su hoja de ruta, y ha confirmado que las AMD Instinct MI400 Series llegarán en el plazo esperado, con un lanzamiento previsto para el año 2026. 

Geeknetic AMD Instinct MI350 Series: Así consigue la arquitectura CDNA 4 multiplicar por 4 el rendimiento en IA  24

Estas GPU Instinct MI400, con nombre en clave "AMD HELIOS",  prometen un salto de rendimiento considerablemente superior al que se ha ido produciendo en las últimas generaciones, incluyendo las nuevas MI350X

Geeknetic AMD Instinct MI350 Series: Así consigue la arquitectura CDNA 4 multiplicar por 4 el rendimiento en IA  25

Llegarán con 40 PFLOPS de rendimiento en FP4 y 20 PFLOPS en FP8, con unos impresionantes 432 GB de memoria HBM4 con un ancho de banda de 19,6 TB/s.

Geeknetic AMD Instinct MI350 Series: Así consigue la arquitectura CDNA 4 multiplicar por 4 el rendimiento en IA  26

AMD, de hecho, ya se adelanta al próximo lanzamiento de NVIDIA, con sus aceleradoras Vera Rubin, asegurando que ofrecerá un 50% más de capacidad de memoria, de ancho de banda de memoria, y de ancho de banda para escalado, en sus rack Helios con hasta 72 AMD Instinct MI400 y AMD Epyc Venice con Zen 6.

Geeknetic AMD Instinct MI350 Series: Así consigue la arquitectura CDNA 4 multiplicar por 4 el rendimiento en IA  27

 Puede parecer un calendario de lanzamientos frenético, pero no hay que perder de vista que el mercado de la IA está en plena ebullición, con evoluciones de requisitos, potencia y capacidades que van aumentando mes a mes. De hecho, AMD ya trabaja también en el desarrollo de las AMD Instinct MI500, una nueva familia de aceleradoras de próxima generación que llegarán en 2027 junto con los procesadores AMD EPYC Verano.

Geeknetic AMD Instinct MI350 Series: Así consigue la arquitectura CDNA 4 multiplicar por 4 el rendimiento en IA  28

Fin del Artículo. ¡Cuéntanos algo en los Comentarios!

Redactor del Artículo: Antonio Delgado

Antonio Delgado 442k5h

Ingeniero Informático de formación, redactor y analista de hardware en Geeknetic desde 2011. Me encanta destripar todo lo que pasa por mis manos, especialmente lo más novedoso en hardware que recibimos aquí para hacer reviews. En mi tiempo libre trasteo con impresoras 3d, drones y otros cachivaches. Para cualquier cosa aquí me tienes.