banner

Blog

Aug 28, 2023

El rendimiento de la GPU NVIDIA H100 rompe los puntos de referencia de aprendizaje automático para el entrenamiento de modelos

NVIDIA

La GPU Hopper H100 Tensor Core de NVIDIA hizo su primera aparición comparativa a principios de este año en MLPerf Inference 2.1. Nadie se sorprendió de que el H100 y su predecesor, el A100, dominaran todas las cargas de trabajo de inferencia. El H100 estableció récords mundiales en todos ellos y NVIDIA es la única empresa que se ha presentado a cada carga de trabajo para cada ronda de MLPerf.

Hace unas semanas, se publicó un nuevo conjunto de resultados de capacitación de MLCommons, esta vez para MLPerf 2.1 Training, que también dominaron NVIDIA H100 y A100.

Desafortunadamente, el dominio de NVIDIA de las suites de evaluación comparativa MLPerf para inferencia y capacitación ha desviado las presentaciones e informes de muchas compañías importantes de IA.

La industria se beneficiaría de la participación de más organizaciones, como hemos visto en otros sectores como las CPU, impulsa la competencia y la innovación. La amplia participación en las suites de evaluación comparativa es significativa porque el aprendizaje automático está creciendo exponencialmente. Casi todos los segmentos de la industria utilizan el aprendizaje automático para una amplia gama de aplicaciones. A medida que aumenta el uso, también lo hace el tamaño del modelo. Desde 2018, MLCommons ha realizado rondas de prueba que alternan entre MLPerf Training y MLPerf Inference rondas de prueba.

En los cuatro años transcurridos entre la primera prueba de MLPerf en 2018 y los resultados de este año, el tamaño del modelo de aprendizaje automático ha aumentado en cinco órdenes de magnitud. Con el aumento del tamaño del modelo y los conjuntos de datos más grandes, las herramientas estandarizadas como MLPerf Training y MLPerf Inference son más cruciales que nunca. El rendimiento del modelo de aprendizaje automático debe medirse antes de que pueda mejorarse.

Puntos de referencia de capacitación de MLPerf 2.1

Resumen de los puntos de referencia utilizados en MLPerf Training v2.1 ... [+]

MLPerf Training y MLPerf Inference utilizan las mismas ocho cargas de trabajo que se muestran en el gráfico anterior. Mini Go es una excepción porque solo se usa para evaluar el aprendizaje por refuerzo. Cada prueba comparativa se define por su propio conjunto de datos específico y objetivo de calidad. La clave es cuánto tiempo lleva entrenar el modelo utilizando el conjunto de datos especificado con el objetivo de calidad especificado.

MLPerf es vital para la inteligencia artificial y el aprendizaje automático porque es un punto de referencia estándar de la industria con resultados de revisión por pares que proporciona comparaciones válidas para el entrenamiento y la inferencia de modelos. Cuenta con el apoyo de Amazon, Arm, Baidu, Google, la Universidad de Harvard, Intel, Meta, Microsoft, la Universidad de Stanford y la Universidad de Toronto.

Múltiples modelos individuales de alto rendimiento, múltiples modelos

Las aplicaciones de IA del mundo real usan múltiples modelos

Es común que varios modelos de IA se encadenen para satisfacer una sola entrada. Un ejemplo de redes multimodales es la solicitud verbal en el gráfico anterior. La pregunta requiere diez modelos de aprendizaje automático para producir una respuesta. No solo deben operar múltiples modelos secuencialmente, sino que también deben ofrecer soluciones en tiempo real.

Algunos servicios en la nube también usan múltiples redes para brindar servicios acelerados por GPU NVIDIA. Todas las redes y marcos de aplicaciones de NVIDIA están disponibles en su repositorio MLPerf, en NGC (repositorio de contenedores en línea de NVIDIA) y en su repositorio GitHub.

Rendimiento de entrenamiento de referencia A100 y H100

Rendimiento de entrenamiento MLPerf v2.1

Como se muestra en el gráfico de rendimiento de MLPerf Training 2.1, H100 proporcionó hasta 6,7 ​​veces más rendimiento para el punto de referencia BERT en comparación con el rendimiento de A100 en su primera presentación de MLPerf en 2019.

A100 sigue produciendo resultados récord y un alto rendimiento con un rendimiento mejorado de hasta 2,5 veces. Esta ganancia es el resultado de la optimización del software. Es probable que sea una oferta de NVIDIA durante bastante tiempo.

El rendimiento superior del H100 en el modelo BERT NLP se atribuye a su Transformer Engine. El A100 no tiene un motor de entrenamiento. El nuevo motor, combinado con NVIDIA Hopper FP8 Tensor Cores, ofrece un entrenamiento de IA hasta 9 veces más rápido y aceleraciones de inferencia de IA 30 veces más rápidas en modelos de idiomas grandes que el A100. El H100 se basa en la arquitectura Hopper y utiliza núcleos tensoriales de cuarta generación.

La velocidad de entrenamiento es crucial y necesaria debido al tamaño del modelo de IA. El motor de transformadores de NVIDIA logra una velocidad adicional utilizando una precisión de coma flotante de 16 bits y un nuevo formato de datos de coma flotante de 8 bits. Esta combinación aumenta el rendimiento de Tensor Core por 2 y reduce los requisitos de memoria por 2 en comparación con el punto flotante de 16 bits.

Esas mejoras, además de los algoritmos avanzados del software Hopper, aceleran el rendimiento y las capacidades de la IA, lo que permite que el H100 entrene modelos en días u horas en lugar de meses. Cuanto más rápido pueda entrar en funcionamiento un modelo, antes podrá empezar a contribuir su ROI al resultado final.

La arquitectura Hopper puede determinar dinámicamente si se necesitan cálculos FP8 o de 16 bits para lograr precisión. A medida que el motor del transformador entrena capa por capa, analiza los datos para determinar si se debe usar una precisión reducida. Dependiendo del grado de uso, la precisión reducida puede causar errores de redondeo que afectan la precisión del modelo.

Las pruebas de entrenamiento de MLPerf miden el tiempo de solución, por lo que un modelo no solo debe ejecutarse rápido, sino que también debe converger. Por lo tanto, es esencial recordar que muchos errores pueden impedir que un modelo converja.

La tecnología de motor de transformador de NVIDIA se diseñó para grandes redes basadas en transformadores como BERT. Sin embargo, no se limita a la PNL. Se puede aplicar a otras áreas, como la difusión estable.

Stable Diffusion es un modelo de texto a imagen de aprendizaje profundo y uso intensivo de cómputo lanzado este año. Puede generar imágenes detalladas o videos condicionados a descripciones de texto. También se puede aplicar a tareas como repintar, despintar y generar traducciones de imagen a imagen mediante un indicador de texto.

Hora de entrenar a escala

Hora de entrenar a escala ... [+]

NVIDIA A100 fue la única plataforma que ejecutó todas las cargas de trabajo en el tiempo para entrenar a escala. NVIDIA pudo entrenar cada carga de trabajo a escala en menos de 5 minutos, excepto Mini Go, que tardó unos 17 minutos.

Mini Go utiliza el aprendizaje por refuerzo, que es muy intensivo en computación. Se necesita más tiempo para entrenar la red porque requiere jugar Mini Go paso a paso y luego retroceder a través de la red después de cada turno.

La capacitación a escala demuestra que A100 sigue siendo una plataforma sólida para la capacitación. H100 es una solución para los modelos más avanzados, como modelos de lenguaje con conjuntos de datos masivos y miles de millones de hiperparámetros.

Si bien Intel y Habana no lograron un desempeño récord, su participación fue importante para el ecosistema y el futuro de MLPerf.

H100 establece nuevos récords por acelerador para entrenamiento de IA

Este gráfico muestra la aceleración relativa por acelerador normalizada a A100. El H100 (en versión preliminar) se presentó para cada punto de referencia y obtuvo un rendimiento superior para cada uno. Fue 2,6 veces más rápido que el A100, que ha logrado avances significativos en el software.

Habana Gaudi2 presentó para Resnet-50 y BERT, y Sapphire Rapids de Intel presentó para DLRM, ResNet-50 y BERT.

Habana Gaudi2 se desempeñó marginalmente mejor que A100 en BERT y aproximadamente 0,75 mejor que A100 para ResNet-50. Intel adquirió Habana a finales de 2019 por 2.000 millones de dólares. Gaudi2 es el procesador de aprendizaje profundo de segunda generación de Habana. Tiene 24 núcleos tensoriales y 96 GB de memoria.

Dave Salvator, Director de AI, Benchmarking y Cloud de NVIDIA, espera un mayor rendimiento del H100 en el futuro.

"El H100 tuvo una actuación muy convincente", dijo. "Pero en el futuro, obtendremos avances de software con el H100 como lo hicimos con el A100. Esta es la primera ronda que presentamos H100 para capacitación, y no será la última".

Evaluación comparativa de supercomputación HPC MLPerf 2.0

Información comparativa para MLPerf HPC 2.0 ... [+]

MLPerf HPC 2.0 mide el tiempo para entrenar modelos de supercomputadoras para aplicaciones científicas. Además, hay una medición de rendimiento opcional para sistemas de supercomputación multiusuario. Esta ronda fue la tercera iteración de MLPerf HPC. Al igual que MLPerf para capacitación e inferencia, MLPerf HPC se considera una medida de rendimiento del sistema estándar de la industria para cargas de trabajo realizadas en supercomputadoras.

Para esta ronda, cinco de las supercomputadoras más grandes del mundo presentaron 20 resultados: Dell (primera presentación), Fujitsu/RIKEN, Helmholz AI, NVIDIA y Texas Advanced Computing Center (TACC).

Puntos de referencia de MLPerf HPC v2.0

Esta es la versión 2.0 de los puntos de referencia, sin embargo, no ha habido cambios importantes desde que estas mismas tres cargas de trabajo se ejecutaron en 1.0. Los puntos de referencia de MLPerf HPC miden el tiempo de entrenamiento y el rendimiento de tres simulaciones de alto rendimiento que han adoptado técnicas de aprendizaje automático: Cosmoflow, DeepCAM y OpenCatalyst.

Debido al cambio climático, se está realizando una gran cantidad de trabajo concentrado en la modelización del tiempo y el clima. NVIDIA también está trabajando en un gemelo digital del planeta llamado Tierra Dos. Este modelo climático gigante simula el mundo entero.

Liderazgo en rendimiento de la plataforma NVIDIA HPC

NVIDIA

MLPerf HPC 2.0 tiene dos métricas de rendimiento:

Aunque NVIDIA A100 Tensor Core GPU y NVIDIA DGX-A100 SuperPOD tienen casi tres años, el rendimiento de MLPerf 2.0 muestra que A100 sigue siendo el sistema de mayor rendimiento para entrenar casos de uso de HPC.

Los resultados de HPC son para NVIDIA Selene, una implementación del DGX SuperPOD y demuestran el potencial del A100. Otros sitios de supercomputación que utilizan la tecnología NVIDIA también ofrecen un buen rendimiento.

Terminando

Es importante mencionar que NVIDIA fue la única organización que ejecutó todas las cargas de trabajo de capacitación de IA para esta y todas las rondas de inferencia y capacitación de MLPerf anteriores. Ha brindado resultados de liderazgo consistentes desde el primer MLPerf Training 0.5 en diciembre de 2018 hasta el último MLPerf Training 2.1 que se lanzó hace unas semanas.

Para capacitación, inferencia y HPC, MLPerf ha demostrado que NVIDIA tiene el soporte de ecosistema más amplio para todos los marcos de aprendizaje profundo. Es ventajoso para los clientes que las GPU NVIDIA estén disponibles en todos los principales proveedores de nube y en todos los sistemas principales para soluciones locales. Esos marcos de aplicaciones permiten a los clientes implementar soluciones rápidamente.

NVIDIA tiene una plataforma abierta de extremo a extremo con software que ayuda a expandir todo el potencial de su hardware. La solución completa de NVIDIA incluye marcos de aplicación como Merlin y Nemo. Con el servicio Nemo Megatron, es posible aprovechar enormes modelos de lenguaje utilizando conjuntos de datos personalizados.

NOTAS DEL ANALISTA

Moor Insights & Strategy, como todas las firmas de analistas de la industria tecnológica y de investigación, brinda o ha brindado servicios pagos a empresas de tecnología. Estos servicios incluyen investigación, análisis, asesoramiento, consultoría, evaluación comparativa, emparejamiento de adquisiciones y patrocinios de conferencias. La empresa ha tenido o tiene actualmente relaciones comerciales pagas con 8×8, Accenture, A10 Networks, Advanced Micro Devices, Amazon, Amazon Web Services, Ambient Scientific, Anuta Networks, Applied Brain Research, Applied Micro, Apstra, Arm, Aruba Networks ( ahora HPE), Atom Computing, AT&T, Aura, Automation Anywhere, AWS, A-10 Strategies, Bitfusion, Blaize, Box, Broadcom, C3.AI, Calix, Campfire, Cisco Systems, Clear Software, Cloudera, Clumio, Cognitive Systems, CompuCom, Cradlepoint, CyberArk, Dell, Dell EMC, Dell Technologies, Diablo Technologies, Dialogue Group, Digital Optics, Dreamium Labs, D-Wave, Echelon, Ericsson, Extreme Networks, Five9, Flex, Foundries.io, Foxconn, Frame (ahora VMware), Fujitsu, Gen Z Consortium, Glue Networks, GlobalFoundries, Revolve (ahora Google), Google Cloud, Graphcore, Groq, Hiregenics, Hotwire Global, HP Inc., Hewlett Packard Enterprise, Honeywell, Huawei Technologies, IBM, Infinidat, Infosys , Inseego, IonQ, IonVR, Inseego, Infosys, Infiot, Intel, Interdigital, Jabil Circuit, Keysight, Konica Minolta, Lattice Semiconductor, Lenovo, Linux Foundation, Lightbits Labs, LogicMonitor, Luminar, MapBox, Marvell Technology, Mavenir, Marseille Inc, Mayfair Equity, Meraki (Cisco), Merck KGaA, Mesophere, Micron Technology, Microsoft, MiTEL, Mojo Networks, MongoDB, MulteFire Alliance, National Instruments, Neat, NetApp, Nightwatch, NOKIA (Alcatel-Lucent), Nortek, Novumind, NVIDIA, Nutanix, Nuvia (ahora Qualcomm), onsemi, ONUG, OpenStack Foundation, Oracle, Palo Alto Networks, Panasas, Peraso, Pexip, Pixelworks, Plume Design, PlusAI, Poly (anteriormente Plantronics), Portworx, Pure Storage, Qualcomm, Quantinuum, Rackspace , Rambus, Rayvolt E-Bikes, Red Hat, Renesas, Residio, Samsung Electronics, Samsung Semi, SAP, SAS, Scale Computing, Schneider Electric, SiFive, Silver Peak (ahora Aruba-HPE), SkyWorks, SONY Optical Storage, Splunk, Springpath (ahora Cisco), Spirent, Splunk, Sprint (ahora T-Mobile), Stratus Technologies, Symantec, Synaptics, Syniverse, Synopsys, Tanium, Telesign,TE Connectivity, TensTorrent, Tobii Technology, Teradata,T-Mobile, Treasure Data, Twitter, Unity Technologies, UiPath, Verizon Communications, VAST Data, Ventana Micro Systems, Vidyo, VMware, Wave Computing, Wellsmith, Xilinx, Zayo, Zebra, Zededa, Zendesk, Zoho, Zoom y Zscaler. El fundador, director ejecutivo y analista jefe de Moor Insights & Strategy, Patrick Moorhead, es inversor en dMY Technology Group Inc. VI, Dreamium Labs, Groq, Luminar Technologies, MemryX y Movandi.

El fundador, director ejecutivo y analista jefe de Moor Insights & Strategy Patrick Moorhead es inversor en dMY Technology Group Inc. VI, Dreamium Labs, Groq, Luminar Technologies, MemryX y Movand

Nota: Los escritores y editores de Moor Insights & Strategy pueden haber contribuido a este artículo.

Comparaciones de capacitación de MLPerf 2.1 Múltiples modelos únicos de alto rendimiento, múltiples modelos A100 y H100 comparan el rendimiento de capacitación Tiempo para entrenar a escala HPC MLPerf 2.0 Comparación de supercomputación Liderazgo en rendimiento de la plataforma NVIDIA HPC Conclusión NOTAS DEL ANALISTA
COMPARTIR