banner
Hogar / Noticias / MGX: Nvidia estandariza Multi
Noticias

MGX: Nvidia estandariza Multi

Aug 09, 2023Aug 09, 2023

Actualizado con más especificaciones MGX:Cada vez que un fabricante de motores de cómputo también fabrica placas base y diseños de sistemas, las empresas que fabrican placas base (hay docenas que lo hacen) y crean diseños de sistemas (los fabricantes de diseños originales y el original) se ponen un poco nerviosos y aliviados. La estandarización de los componentes significa que tienen menos que hacer, pero al mismo tiempo, tienen menos que cobrar.

Con sus diseños de plataforma de servidor multigeneracional MGX, anunciados esta semana en la feria comercial Computex en Taiwán, que es uno de los principales centros del mundo para la fabricación de componentes y sistemas, así como el centro indiscutible de fabricación y ensamblaje de motores informáticos, Nvidia tiene la esperanza de hacer la vida más fácil para sí mismo y los OEM y ODM del mundo y proporcionar mejores beneficios para sí mismo y para ellos.

Nvidia ha estado fabricando sus propios servidores desde que el sistema DGX-1 debutó en abril de 2016 basado en el acelerador de GPU "Pascal" P100. Nvidia decidió hacer esto para ayudar a acelerar el tiempo de comercialización y crear un circuito de retroalimentación en los diseños de componentes y placas base; el hecho de que Nvidia necesitara construir sus propias supercomputadoras para ejecutar sus cargas de trabajo masivas de IA, que era más barato que tener un OEM o un ODM, también fue un factor que contribuyó a la decisión. En ese momento, la mayoría de las GPU Pascal que Nvidia podría haber fabricado se enviaban a los hiperescaladores y constructores de la nube, así como a algunos centros de HPC, y Nvidia vendía las DGX-1 de manera preferencial para que los investigadores y científicos pudieran obtener sus manos en estos sistemas acelerados por GPU. Este seguía siendo el caso en mayo de 2017 cuando las máquinas DGX-1 se actualizaron con los aceleradores GPU "Volta" V100 anunciados dos meses antes. El sistema DGX-A100 siguió en mayo de 2020, utilizando las GPU "Ampere" A100 y, por supuesto, el diseño DGX-H100, que se escala mucho más con una estructura NVLink Switch, implementada al mismo tiempo que el acelerador de GPU "Hopper" H100 el año pasado y se acaba de actualizar esta semana con un diseño híbrido CPU-GPU en el sistema DGX-GH200.

No puede comprar un ASIC H100 SXM5 o NVSwitch 3 utilizado en las últimas máquinas DGX-H100 y DGX-GH200. Las placas del sistema para interconexiones de CPU, GPU y NVSwitch se venden a hiperescaladores y desarrolladores de nube y sus proveedores de ODM como una unidad, con todos los componentes fabricados y probados, y también se venden a OEM como componentes preensamblados, que a su vez ponen en sus sistemas. Puede comprar versiones PCI-Express de los aceleradores GPU o Quantum InfiniBand o Spectrum Ethernet ASIC de Nvidia si desea construir sus propios sistemas, pero para las cosas de gama alta que se ejecutan en un tejido de memoria NVSwitch, debe tomar estos preensamblados. componentes, que se denominan HGX.

Habiendo estandarizado los componentes internos de los sistemas hasta cierto punto con HGX/DGX, Nvidia ahora quiere estandarizar las carcasas que envuelven estos componentes para acelerar el tiempo de comercialización para todos los ODM y OEM y para que los sistemas resultantes puedan actualizarse en el campo en la mayor medida posible, dados los cambios arquitectónicos futuros que se avecinan.

Eso, en pocas palabras, es de lo que se trata el esfuerzo de MGX.

Tuvimos una pequeña muestra de cómo se ven los diseños iniciales de MGX en mayo pasado cuando Nvidia divulgó los diseños del sistema prototipo HGX Grace y HGX Grace-Hopper. Estos no eran solo placas de sistema, sino diseños completos de servidores montados en bastidor:

El esfuerzo de estandarización de MGX abarcará las plataformas informáticas del centro de datos DGX/HGX, las plataformas de alojamiento del metaverso OVX y las plataformas de gráficos y juegos en la nube CGX, y así es como Nvidia dijo que la CPU Grace y varios aceleradores GPU estarían compuestos por estas tres líneas de hierro. :

Estos son los diseños de MGX que mostró en Computex esta semana:

El de la izquierda es un superchip Grace-Grace emparejado con cuatro aceleradores de GPU. El sistema del centro tiene dos CPU X86, dos interfaces de red ConnectX y ocho aceleradores de GPU, y el sistema de la derecha tiene un par de motores de cómputo refrigerados por agua (suponemos superchips Grace-Hopper) y dos tarjetas de interfaz de red.

El sitio web de la compañía y las sesiones informativas previas no explicaron esto tan bien como lo hizo el cofundador y director ejecutivo de Nvidia, Jensen Huang, en su discurso de apertura, cuando analizó algunos de los aspectos del sistema MGX, comenzando con el chasis 2U:

Cuando agrega dos CPU X86, cuatro aceleradores GPU L40, una DPU BlueField-3, un par de tarjetas de interfaz de red ConnectX-7 y deja abiertas seis ranuras PCI-Express 5.0, obtiene un servidor OVX para acelerar la realidad virtual digital Omniverse de Nvidia. pila de software gemela:

Puede extraer el par de CPU X86 y colocar un superchip Grace-Grace y todo lo mismo (con una ranura PCI-Express 5.0 menos) y obtiene esta variante del servidor OVX:

Si desea hacer gráficos en la nube para renderizar o jugar o cargas de trabajo de inferencia de IA modestas, lo que Nvidia llama una máquina CGX, puede comenzar con el chasis MGX y colocar un superchip Grace-Grace, diez aceleradores de GPU L4, una DPU BlueField-3 y tiene 11 ranuras PCI-Express 5.0 abiertas y se ve así:

Si necesita impulsar cargas de trabajo de inferencia de IA más densas, particularmente para LLM y DLRM, entonces tome la versión 4U del chasis MGX, agregue un par de CPU X86, ocho de los aceleradores H100 NVL de doble ancho, un par de BlueField -3 DPU y quedan diez ranuras PCI-Express y obtienes esto:

Para los casos de uso de 5G, piense en más delgado y más pequeño, tal como lo han sido las máquinas de telecomunicaciones compatibles con NEBS durante décadas. Así es como se ve el diseño del servidor arial Grace-Hopper 5G:

Este es un chasis de caja de pizza MGX de 1U con un solo superchip Grace-Grace, un par de DPU BlueField-3, con cuatro ranuras PCI-Express 5.0 abiertas para periféricos. Y para espacios reducidos de punto de presencia (POP) en empresas de telecomunicaciones y otros proveedores de servicios, debe duplicar la altura y la mitad de la longitud del chasis de esta manera:

Por alguna razón, una de las ranuras PCI-Express está configurada con una NIC ConnectX-7, así como con una sola DPU BlueField-3. (El factor de forma no debería afectar la red, por lo que suponemos que Nvidia solo mostraba opciones).

Si se preguntaba, como nosotros, cómo serían los nodos del servidor de "caja blanca" en la supercomputadora "Isambard 3" que entrará en el colectivo GW4 en el Reino Unido a finales de este año, ahora lo sabemos:

Y para las máquinas HPC muy densas que no pueden depender de la refrigeración por aire (o la refrigeración líquida en los bastidores como lo hace Isambard 3), existe una variante refrigerada por líquido del MGX con un par de superchips Grace-Grace:

Nvidia está comenzando con ocho socios clave de MGX, muchos de los cuales son fabricantes de placas base y fabricantes de sistemas ODM. Estos incluyen ASRock, ASUS, Gigabyte, Pegatron, Quanta Cloud Technology y Supermicro. La idea es proporcionar más de cien diseños de servidores diferentes que puedan orientarse a una amplia gama de cargas de trabajo, que abarcan IA, HPC, análisis de datos, gemelos digitales, infraestructura en la nube, juegos en la nube y redes 5G.

Las arquitecturas de referencia de MGX incluirán sistemas con gabinetes de rack de 1U, 2U y 4U que están disponibles con enfriamiento por aire y líquido. La idea es admitir la cartera completa de aceleradores de GPU de Nvidia, comenzando con los motores de cómputo Hopper H100 y los aceleradores de gráficos e inferencia de IA "Lovelace" L4 y L40. En el frente de la CPU, el superchip Grace-Grace (no se le ha dado un nombre, pero GG200 tiene sentido) y el superchip Grace-Hopper (llamado GH200) son centrales, pero los procesadores X86, presumiblemente de Intel y AMD, serán incluido en los diseños MGX. (Por cierto, por lo que podemos decir, no puede tener solo una CPU Grace, que llamaríamos CG100 si tuviéramos que nombrar el chip y C100 como su nombre comercial si fuéramos a ser consistentes con cómo Nvidia nombra sus motores de cómputo del centro de datos hasta ahora). En cuanto a las redes, las especificaciones de MGX comienzan con las tarjetas de interfaz de red híbridas ConnectX-7 InfiniBand/Ethernet y las DPU BlueField-3.

Hasta donde sabemos, los diseños de MGX no se retrocederán a las GPU, CPU, DPU o NIC anteriores. Esto es algo muy progresista.

El sistema ARS-221GL-NR de Supermicro, que se presentó en Computex, incluirá el superchip Grace-Grace en un diseño MGX existente y el sistema S74G-2U de QCT utiliza un diseño MGX con el superchip Grace-Hopper. SoftBank, el propietario de Arm Holdings, planea usar los diseños de MGX en múltiples centros de datos de hiperescala en Japón y asignar dinámicamente la capacidad de procesamiento de la GPU en las aplicaciones 5G y de IA generativa que ejecutan sus empresas del conglomerado.

Cuando hablamos con Charlie Boyle, vicepresidente de la línea DGX en Nvidia y también el ejecutivo que encabeza el esfuerzo de MGX, sugerimos que MGX era un poco como los diseños de servidor Cray "Cascade" y "Shasta" en el sentido de que permitían múltiples generaciones de cómputo e interconexiones alojadas en ellos, lo que permite a Cray repartir el costo de los diseños de sistemas entre diferentes tipos de cómputo y redes y también entre más de una generación. Él rió.

"No sé si haría la comparación con Cray", dijo Boyle. "He estado en esta industria durante mucho tiempo, ya sabes, y es un sistema muy personalizado".

OK, eso es bastante justo, pero no era el punto. Una comparación con el Open Compute Project de Facebook fue un poco más aceptable. Pero esto se trata de velocidad, no de hacer metáforas.

"Estamos hablando de los atributos físicos reales dentro del sistema", le dice Boyle a The Next Platform. "Cuando comenzamos hace años con la placa base HGX, queríamos que fuera fácil para nuestros socios obtener un tiempo de comercialización rápido. Y para todos los que desean construir sistemas Grace-Hopper y Grace-Grace, y tener un garantía en la arquitectura, con MGX pueden construir sistemas rápidamente. Usted y yo sabemos que Nvidia lanza nuevas generaciones de tecnología más rápido que la mayoría en el mercado. Y así, cuanto más podamos simplificar los diseños y aumentar la capacidad de nuestros socios intermedios para ingerir esa tecnología, y luego llevarla a los clientes finales más rápidamente, es excelente para los socios y es excelente para nosotros".

Boyle dice que puede llevar de 18 a 24 meses construir, probar y calificar para la fabricación un diseño de sistema típico, que cuesta varios millones de dólares, y con MGX Nvidia puede reducirlo a un par de meses porque en el Al final, lo que harán los socios ODM y OEM será seleccionar de un menú de componentes y certificarlos para que se conecten entre sí y simplemente funcionen. El ODM y el OEM agregan cualquier personalización, como BMC y actualizaciones de firmware, etc., y realizan la calificación final de los componentes ensamblados.

Pero la velocidad es más que eso. Se trata de evitar errores.

"En los años que llevo trabajando en DGX, aunque construimos nuestro propio sistema, comparto todo lo que hacemos con nuestros socios OEM y ODM para ayudarlos a tener tiempo de comercialización, para mostrarles lo que funciona y lo que no funciona. , y qué partes usamos, todo eso", dice Boyle. "Están muy agradecidos porque cualquier cosa en la que ya hayamos hecho el trabajo: lo intentamos, fallamos, tenemos un mejor componente para eso, lo que sea, si les decimos eso, entonces no lo hacen". necesitan ejecutar esos mismos experimentos, no necesitan replicar el costo por el que pasamos todas esas veces. Y están muy contentos porque todos están lidiando con lo mismo: escasez de mano de obra y escasez de componentes. Entonces, el hecho de que lo hacemos por ellos, y eso les permite innovar donde realmente pueden innovar. Está en su pila de software general y en su oferta general. Se trata de sus soluciones. El hecho de que los tornillos van en un lugar diferente en diez los diseños de los fabricantes de sistemas, ¿eso agrega algún valor a un cliente final?"

Esto significa que los ODM y los OEM tendrán costos de investigación y desarrollo más bajos, y también significa que Nvidia puede garantizar un grado de consistencia en la forma en que sus dispositivos informáticos y de red se integran en los sistemas.

Esperamos que los ODM y los OEM piensen que tienen conocimientos y habilidades especiales y que se resistan un poco al principio. Open Compute Project nació en conjunto con Dell, que fue el fabricante de servidores de Facebook durante muchos años, porque la red social quería moverse más rápido y eliminar costos. Y después de todo este tiempo, Dell todavía cree que sus propios diseños de hiperescala son mejores que los de Meta Platforms o Microsoft en Open Compute Project. Además, a los grandes fabricantes de equipos originales les preocupará que se nivele el campo de juego para una gran cantidad de fabricantes de sistemas más pequeños, lo que les hará la vida más difícil en cierto sentido.

Creemos que estos pequeños fabricantes de sistemas estarán más entusiasmados inicialmente con MGX que los grandes OEM como Dell, Hewlett Packard Enterprise, Lenovo, Cisco Systems y Lenovo. Pero si lo que sostiene Boyle es cierto, que ganarán más dinero vendiendo sistemas MGX que construyendo sus propios clones DGX, entonces lo harán.

Una última cosa: podría ayudar si los diseños de MGX se abrieran a través del Open Compute Project. ¿Por qué no?

Presentando aspectos destacados, análisis e historias de la semana directamente de nosotros a su bandeja de entrada sin nada en el medio. Suscríbase ahora

Actualizado con más especificaciones MGX: