Revisión técnica Aceleración del viaje hacia la ... · comprender el rendimiento y la facilidad...

12
Esta revisión técnica de ESG se elaboró por encargo de Dell EMC y se distribuye con licenciamiento de ESG. © 2018 by The Enterprise Strategy Group, Inc. Todos los derechos reservados. Resumen Esta revisión técnica de ESG documenta la evaluación de Dell EMC Ready Solutions for AI. Nos enfocamos en comprender el rendimiento y la facilidad de uso de Ready Solutions for AI con diseños optimizados para el aprendizaje automático y el aprendizaje profundo. A fin de validar el rendimiento de la pila completa, medimos la cantidad de imágenes por segundo que se procesaron cuando se capacitaron las redes de aprendizaje profundo de AlexNet y ResNet50, y evaluamos la manera en que las soluciones integradas pueden simplificar y acelerar la implementación de la AI. El diseño de Aprendizaje profundo de nVIDIA con Isilon superó considerablemente a la competencia en el tiempo de capacitación, lo que ofrece un rendimiento 2,9 veces mayor al de la competencia para una red neuronal de aprendizaje profundo de AlexNet en un entorno acelerado por GPU y 2,3 veces mayor al de la competencia para una red neuronal de aprendizaje profundo ResNet50. Los retos Un solo procesador de gráficos (GPU) puede lograr 100 teraFLOPS 1 gracias a avances en la arquitectura y el diseño de microprocesadores, como la capacidad de combinar cientos o miles de núcleos de procesador en un solo chip. Esta gran cantidad de potencia de procesamiento acelera la capacitación de los modelos de inteligencia artificial (AI) paralelos e iterativos a gran escala, lo que permite que el aprendizaje profundo y el aprendizaje automático se vuelvan técnicas viables para que cualquier empresa obtenga valor adicional de sus datos. El aprendizaje automático y el aprendizaje profundo aprovechan rutinariamente los datos no estructurados, como imágenes, videos y datos de sensores de streaming, que a menudo se pueden descomprimir y escalar rápidamente de decenas de TB a decenas de PB. Las organizaciones enfrentan el reto de desarrollar soluciones de AI que puedan administrar datos a escala y proporcionar el rendimiento de almacenamiento y de red para alimentar la capa de procesamiento masivamente simultánea con gran exigencia de datos. 1 1 teraFLOPS es 1 millón de millones (10 12 ) de operaciones de punto flotante por segundo. Figura 1. Expectativas de tiempo de respuesta que genera valor para AI Fuente : Enterprise Strategy Group Revisión técnica Aceleración del viaje hacia la inteligencia artificial con Dell EMC Ready Solutions for AI Fecha: agosto de 2018 Autor: Jack Poller, analista ejecutivo Enterprise Strategy Group | Getting to the bigger truth.

Transcript of Revisión técnica Aceleración del viaje hacia la ... · comprender el rendimiento y la facilidad...

Page 1: Revisión técnica Aceleración del viaje hacia la ... · comprender el rendimiento y la facilidad de uso de Ready Solutions for AI con diseños optimizados para el aprendizaje automático

Esta revisión técnica de ESG se elaboró por encargo de Dell EMC y se distribuye con licenciamiento de ESG.

© 2018 by The Enterprise Strategy Group, Inc. Todos los derechos reservados.

Resumen

Esta revisión técnica de ESG documenta la evaluación de Dell EMC Ready Solutions for AI. Nos enfocamos en

comprender el rendimiento y la facilidad de uso de Ready Solutions for AI con diseños optimizados para el aprendizaje

automático y el aprendizaje profundo. A fin de validar el rendimiento de la pila completa, medimos la cantidad de

imágenes por segundo que se procesaron cuando se capacitaron las redes de aprendizaje profundo de AlexNet

y ResNet50, y evaluamos la manera en que las soluciones integradas pueden simplificar y acelerar la implementación

de la AI. El diseño de Aprendizaje profundo de nVIDIA con Isilon superó considerablemente a la competencia en el

tiempo de capacitación, lo que ofrece un rendimiento 2,9 veces mayor al de la competencia para una red neuronal

de aprendizaje profundo de AlexNet en un entorno acelerado por GPU y 2,3 veces mayor al de la competencia para

una red neuronal de aprendizaje profundo ResNet50.

Los retos

Un solo procesador de gráficos (GPU) puede lograr

100 teraFLOPS1 gracias a avances en la arquitectura

y el diseño de microprocesadores, como la capacidad

de combinar cientos o miles de núcleos de

procesador en un solo chip. Esta gran cantidad de

potencia de procesamiento acelera la capacitación

de los modelos de inteligencia artificial (AI) paralelos

e iterativos a gran escala, lo que permite que el

aprendizaje profundo y el aprendizaje automático

se vuelvan técnicas viables para que cualquier

empresa obtenga valor adicional de sus datos.

El aprendizaje automático y el aprendizaje profundo

aprovechan rutinariamente los datos no

estructurados, como imágenes, videos y datos de

sensores de streaming, que a menudo se pueden

descomprimir y escalar rápidamente de decenas

de TB a decenas de PB. Las organizaciones enfrentan

el reto de desarrollar soluciones de AI que puedan

administrar datos a escala y proporcionar el

rendimiento de almacenamiento y de red para

alimentar la capa de procesamiento masivamente

simultánea con gran exigencia de datos.

11 teraFLOPS es 1 millón de millones (1012) de operaciones de punto flotante por segundo.

Figura 1. Expectativas de tiempo de respuesta que genera valor para AI

Fuente : Enterprise Strategy Group

Revisión técnica

Aceleración del viaje hacia la inteligencia artificial con Dell EMC Ready Solutions for AI

Fecha: agosto de 2018 Autor: Jack Poller, analista ejecutivo

Enterprise Strategy Group | Getting to the bigger truth.™

Page 2: Revisión técnica Aceleración del viaje hacia la ... · comprender el rendimiento y la facilidad de uso de Ready Solutions for AI con diseños optimizados para el aprendizaje automático

Revisión técnica: Aceleración del viaje hacia la inteligencia artificial con Dell EMC Ready Solutions for AI 2

© 2018 by The Enterprise Strategy Group, Inc. Todos los derechos reservados.

Sin embargo, la AI está en etapa inicial y carece de una pila de infraestructura estandarizada. Por lo tanto, se requiere

una cantidad significativa de tiempo para que las organizaciones desarrollen sus infraestructuras de AI y obtengan

resultados que afecten a sus empresas. Según una investigación reciente de ESG, el 19 % de las organizaciones no

espera extraer valor comercial de sus esfuerzos de AI durante dos años. Un 32 % de las organizaciones cree que

tardará más de un año y el 23 % cree que llevará más de nueve meses (consulte Figura 1).2

Dell EMC Ready Solutions for AI

Con Ready Solutions for AI, Dell EMC creó pilas de infraestructura

estandarizadas para el aprendizaje automático (ML) y el aprendizaje profundo

(DL) a fin de acelerar el valor del tiempo de ingreso al negocio.

Existen dos soluciones Dell EMC Ready for AI actualmente disponibles:

Aprendizaje automático con Hadoop: optimizado para el aprendizaje

automático y el aprendizaje profundo con Hadoop, que incluye

lo siguiente:

o Clúster de ciencia de datos de Cloudera: nodo principal y dos

nodos trabajadores con almacenamiento SSD de conexión directa

de 960 GB a 1,92 TB.

o Nodos de Hadoop: a partir de tres nodos de infraestructura y siete

nodos trabajadores, con posibilidad de realizar un escalamiento

horizontal a miles de nodos.

o Redes Ethernet de 25 GbE con switches de redes abiertas

de Dell EMC.

o Pila de software: Cloudera Manager, Cloudera Data Science

Workbench, Cloudera Enterprise Data Hub, Spark y Dell EMC Data Science Provisioning Engine.

o Infraestructuras/bibliotecas BigDL.

Aprendizaje profundo de nVIDIA: optimizado para el aprendizaje profundo con aceleración de GPU, incluye

lo siguiente:

o 1 nodo principal de PowerEdge 740: nodo principal de doble procesador con 12 discos SAS de conexión

directa de 10 TB.

o 4 nodos trabajadores PowerEdge C4140: nodos de doble procesador con 384 GB de memoria y hasta

cuatro GPU nVIDIA Tesla V100, cada uno con capacidad de escalamiento horizontal a miles de nodos.

o Redes de 100 GB/s con switches Mellanox Infiniband y switches para la parte superior del rack de las

redes abiertas de Dell EMC.

o Almacenamiento: NAS de escalamiento horizontal todo Flash Isilon F800, opciones de capacidad flash

de 96, 192 o 924 TB por chasis, ancho de banda de 15 GB/s por chasis, 8 redes de 40 GbE por chasis.

Escalamiento horizontal de hasta 33 PB y hasta 540 GB/s de ancho de banda por clúster.

o Pila de software: Bright Cluster Manager for Data Science y Dell EMC Data Science Provisioning Portal.

o Infraestructuras/bibliotecas Caffe 2, MXNET, TensorFLow, nVIDIA CUDA Deep Neural, Network Library

(cuDNN) y nVIDIA CUDA basic linear algebra subroutines (cuBLAS).

Las Dell EMC Ready Solutions for AI incluyen servicios de implementación para acelerar el tiempo de obtención

de resultados y el soporte de contacto único para la pila completa de hardware y software.

2 Fuente: Encuesta de ESG, Tendencias de aprendizaje automático y de inteligencia artificial, junio de 2017. Todas las referencias y los gráficos de investigaciones de ESG que se presentan en esta revisión técnica provienen de esta encuesta, a menos que se especifique lo contrario.

Page 3: Revisión técnica Aceleración del viaje hacia la ... · comprender el rendimiento y la facilidad de uso de Ready Solutions for AI con diseños optimizados para el aprendizaje automático

Revisión técnica: Aceleración del viaje hacia la inteligencia artificial con Dell EMC Ready Solutions for AI 3

© 2018 by The Enterprise Strategy Group, Inc. Todos los derechos reservados.

Estas pilas de hardware y software validadas combinan servidores Dell EMC PowerEdge, almacenamiento Dell EMC

Isilon, GPU nVIDIA, redes de alta velocidad, software de ciencia de datos y librerías e infraestructura de AI en sistemas

preconfigurados, escalables y optimizados. Las organizaciones que implementan las Ready Solutions for AI obtienen

los siguientes beneficios:

Implementación rápida: en lugar de forzar a la organización a seleccionar, configurar, integrar y ajustar los

componentes en una pila de AI, las Dell EMC Ready Solutions for AI son sistemas validados implementados

por Dell EMC Services, lo cual reduce el tiempo de implementación de un entorno de AI de meses a semanas

y, al mismo tiempo, reduce los requisitos de aptitudes y el riesgo operacional.

Configuración simplificada: ambos diseños aumentan la productividad de los científicos de datos, ya que ofrecen

acceso de autoservicio a los recursos para el aprendizaje automático y el aprendizaje profundo, e incluyen

infraestructuras y bibliotecas como BigDL, TensorFlow, Caffe, Neon, cuDNN y cuBLAS. El diseño de Aprendizaje

profundo de nVIDIA incluye el portal de aprovisionamiento de ciencia de datos de Dell EMC, el cual reduce los

pasos necesarios para configurar el espacio de trabajo de un científico de datos a solo cinco clics. El aprendizaje

automático con Hadoop incluye Cloudera Data Science Workbench y Dell EMC Data Science Engines, contenedores

que trabajan con Data Science Workbench para configurar la infraestructura de BigDL.

Operaciones de TI simplificadas: cada diseño incluye una única consola para monitoreo del estado y la configuración

del clúster. El aprendizaje profundo de nVIDIA incluye Bright Cluster Manager de Bright Computing, el cual ofrece

integraciones con Dell Remote Access Controller para servidores PowerEdge con el fin de monitorear y administrar

el estado y la configuración del clúster. El aprendizaje automático con Hadoop incluye Cloudera Manager para el

monitoreo y la administración de la configuración del clúster de Hadoop.

Rápida escalabilidad: Dell EMC diseñó Ready Solutions for AI para obtener una escalabilidad rápida. Las

organizaciones pueden aumentar la potencia de procesamiento agregando nodos de procesamiento al clúster

con solo unos pocos clics del mouse. El almacenamiento se puede escalar horizontalmente agregando nodos

adicionales de manera no disruptiva, lo cual aumenta de manera lineal el rendimiento de almacenamiento.

Comprensión de las oportunidades y los retos de la AI

A pesar de que la inteligencia artificial se creó en los comienzos de la era informática, el aprendizaje automático

y el aprendizaje profundo prácticos y alcanzables son campos relativamente nuevos y hay una falta general de pericia

y orientación. A fin de obtener resultados significativos que afecten los resultados del negocio se requiere una potencia

de procesamiento masiva para procesar conjuntos de datos igualmente masivos que utilizan infraestructuras y bibliotecas

de software complejas.

La creación de una pila de infraestructura de AI requiere tanto pericia en AI para ensamblar las combinaciones adecuadas

de soluciones y sistemas de software y de pericia en integración para ensamblar y ajustar las combinaciones adecuadas

de soluciones de hardware y crear un sistema eficiente, escalable y rentable.

El personal de TI y los científicos de datos deben trabajar en conjunto para seleccionar y adquirir servidores, GPU,

almacenamiento y redes de procesamiento. Luego de recibir, instalar físicamente y encender todos los sistemas,

el personal de TI debe instalar, configurar y probar el almacenamiento, las redes y los sistemas operativos. Luego, los

equipos de ciencia de datos o de TI deben instalar, configurar, probar y ajustar las configuraciones seleccionadas de

las infraestructuras, bibliotecas y del software de orquestación de la AI de código abierto. Por último, los científicos

de datos necesitan validar el sistema de la AI. Después de este proceso largo y tedioso, que puede tardar meses, los

científicos de datos pueden comenzar a crear modelos de AI. Los cambios mínimos en la pila pueden causar un

rendimiento mediocre o incluso una falla.

Los principales proveedores públicos de servicio en la nube ofrecen bibliotecas de AI e instancias de procesamiento de

AI con aceleración por GPU, lo cual permite a las organizaciones poner en marcha sus programas de AI. Sin embargo, las

ofertas de nube pública no cuentan con configuraciones de referencia, centros de soluciones de clientes y consultoría,

lo cual obliga a los científicos de datos a aprender por sí mismos a configurar y ajustar la pila de AI de la mejor manera

posible. Además, la ubicación de los datos y la transferencia de datos entre la nube, el borde y el núcleo pueden afectar

tanto al rendimiento como a los costos, lo que hace que una solución en las instalaciones sea la mejor opción.

Page 4: Revisión técnica Aceleración del viaje hacia la ... · comprender el rendimiento y la facilidad de uso de Ready Solutions for AI con diseños optimizados para el aprendizaje automático

Revisión técnica: Aceleración del viaje hacia la inteligencia artificial con Dell EMC Ready Solutions for AI 4

© 2018 by The Enterprise Strategy Group, Inc. Todos los derechos reservados.

Los modelos de AI ofrecen mejores resultados con conjuntos de datos más grandes y los científicos de datos suelen

analizar de terabytes a petabytes de datos. Las organizaciones que usan la nube pública deben pagar por el tiempo de

uso de CPU, el tiempo de uso de GPU, el almacenamiento de datos, la entrada de datos (costo de red para transferir

datos a la nube pública) y los costos de inferencia recurrentes. Mientras que el uso de la nube pública transforma los

gastos de capital en gastos operativos, los costos son sumamente variables y pueden no ser predecibles. Cuando los

modelos de AI no son convergentes, las organizaciones pueden recibir facturas mensuales de órdenes de magnitud

mayores a lo esperado.

Simplificación de la implementación de la AI

ESG comenzó evaluando la manera en que Dell EMC Ready Solutions for AI simplifica la implementación de la pila de

infraestructura de la AI y acelera el tiempo de obtención de resultados para el científico de datos. Las Dell EMC Ready

Solutions for AI incluyen todo el software, procesamiento, almacenamiento y hardware de redes necesario que se

instala en el sitio mediante Dell EMC Professional Services.

El equipo de TI y los científicos de datos pueden evitar el trabajo lento y complejo de instalar y configurar los sistemas

operativos, las bibliotecas de AI, la orquestación y el software de administración, lo que permite ahorrar semanas

a meses de trabajo.

Las soluciones incluyen un entorno de autoservicio para que los científicos de datos obtengan recursos de clúster

y configuren infraestructuras y bibliotecas para su trabajo. Estos sistemas de GUI simplifican el trabajo de los científicos

de datos y del personal de TI al momento de configurar su espacio de trabajo y administrar el clúster. Tradicionalmente,

los científicos de datos debían utilizar la línea de comandos para configurar su entorno, pero estas GUI automatizan

y coordinan muchas tareas, lo cual permite a los científicos administrar clústeres como una única entidad, aprovisionar

hardware, sistema operativo y software, administrar la operación del clúster, aprovisionar cargas de trabajo y obtener

resultados. Por ejemplo, el Aprendizaje profundo de nVIDIA incluye el portal de aprovisionamiento de ciencia de datos.

Figura 2. Nivel de esfuerzo para la infraestructura de AI tradicional y Dell EMC Ready Solutions for AI

Fuente: Enterprise Strategy Group

ESG inició sesión en la GUI del portal de aprovisionamiento de ciencia de datos. Como se muestra en la Figura 2, el

portal de aprovisionamiento de ciencia de datos de Dell EMC requiere solo tres clics del mouse para seleccionar los

recursos de procesamiento y almacenamiento, los módulos de la biblioteca y los módulos de infraestructura. En lugar

de usar líneas de comandos, pudimos capacitar nuestros modelos de AI y obtener información valiosa y resultados

desde la GUI.

Page 5: Revisión técnica Aceleración del viaje hacia la ... · comprender el rendimiento y la facilidad de uso de Ready Solutions for AI con diseños optimizados para el aprendizaje automático

Revisión técnica: Aceleración del viaje hacia la inteligencia artificial con Dell EMC Ready Solutions for AI 5

© 2018 by The Enterprise Strategy Group, Inc. Todos los derechos reservados.

Figura 2. Portal de aprovisionamiento de ciencia de datos de Dell EMC

Fuente: Enterprise Strategy Group

También analizamos Cloudera System Manager, el cual se incluye con el aprendizaje automático con Hadoop, tal

como se muestra en la Figura 3. La vista de tablero muestra el estado, el rendimiento y la carga para cada clúster y sus

componentes. Con los menús desplegables, podemos seleccionar y administrar todo el clúster como una sola entidad

o administrar los componentes individuales del clúster.

Figura 3. Cloudera System Manager

Fuente: Enterprise Strategy Group

Page 6: Revisión técnica Aceleración del viaje hacia la ... · comprender el rendimiento y la facilidad de uso de Ready Solutions for AI con diseños optimizados para el aprendizaje automático

Revisión técnica: Aceleración del viaje hacia la inteligencia artificial con Dell EMC Ready Solutions for AI 6

© 2018 by The Enterprise Strategy Group, Inc. Todos los derechos reservados.

Por qué es importante

El aprendizaje automático y el aprendizaje profundo son tecnologías inmaduras, y la pila completa de la infraestructura de IA es compleja, lo cual requiere la integración de una variedad de componentes de hardware y software de muchos proveedores, un proceso complejo que puede tardar varios meses. Seleccionar componentes incorrectos o configurar la integración erróneamente puede causar cuellos de botella de I/O, lo cual genera un rendimiento deficiente y errores del sistema, que van acompañados por resultados pobres y se limita el ROI de las inversiones en AI.

ESG validó que Dell EMC Ready Solutions for AI proporciona una solución completa e integrada con CPU, GPU, redes y almacenamiento de escalamiento horizontal. Luego de la instalación por parte de Dell EMC, los científicos de datos pueden ir desde el encendido hasta la evaluación de los modelos de la AI con solo unos pocos clics mediante el software de administración de sistemas incluido. En lugar de dedicar tiempo a trabajar con el equipo de TI para seleccionar y adquirir componentes, configurar la red o instalar y configurar sistemas operativos, bibliotecas e infraestructuras, los científicos de datos pueden comenzar inmediatamente con la creación de soluciones de AI, lo cual simplifica y reduce el tiempo de implementación de meses a semanas.

Aceleración del desarrollo de modelos de AI

ESG evaluó la manera en que Dell EMC Ready Solutions for AI aceleró los procesos de capacitación de modelos.

Comenzamos con un entorno que consiste en el sistema Aprendizaje profundo de nVIDIA, como se muestra en la

Figura 4. La solución consistió en un complejo de computación de cinco servidores. Un servidor, designado como nodo

principal, se utilizó para la administración del sistema, y los cuatro servidores restantes, cada uno con dos procesadores

Intel Xeon Gold 6148 de 20 núcleos, 384 GB de RAM y cuatro GPU nVIDIA Tesla V100, se utilizaron como nodos de

procesamiento. Como se probó, el sistema incluyó un solo chasis de NAS de escalamiento horizontal todo flash Isilon

F800 con un ancho de banda de 15 GB/s y una capacidad de 192 TB. Todos los servidores estaban conectados a través

de switches Mellanox con InfiniBand de 100 GB/s y el Isilon estaba conectado con ocho enlaces Ethernet de 40 GbE.

Figura 4. Banco de pruebas de Ready Solutions for Deep Learning

Fuente: Enterprise Strategy Group

ESG utilizó dos análisis comparativos estándares del sector diferentes para las pilas de infraestructura con aceleración

de GPU a fin de caracterizar el rendimiento de la Dell EMC Ready Solution for AI y Aprendizaje profundo de nVIDIA.

Comenzamos con AlexNet, un clasificador de imágenes que puede clasificar las imágenes en 1000 categorías de

objetos, como teclado, mouse, lápiz y muchos animales.3 AlexNet, publicado en 2012, fue la primera red convolucional

profunda importante que aprovechó las GPU y se considera la chispa que inició la última revolución de AI.

3 https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

Page 7: Revisión técnica Aceleración del viaje hacia la ... · comprender el rendimiento y la facilidad de uso de Ready Solutions for AI con diseños optimizados para el aprendizaje automático

Revisión técnica: Aceleración del viaje hacia la inteligencia artificial con Dell EMC Ready Solutions for AI 7

© 2018 by The Enterprise Strategy Group, Inc. Todos los derechos reservados.

El análisis comparativo capacita el modelo de AlexNet utilizando el conjunto de datos de ImageNet, un estándar de facto para la capacitación de aprendizaje profundo. El conjunto de datos de 143 GB de ImageNet contiene 14 197 122 imágenes de 21 841 categorías distintas.

Para reflejar los escenarios reales de desarrollo de AI, habilitamos la distorsión (pasos previos al procesamiento de imágenes). También replicamos los datos mediante la aplicación de diez técnicas de aumento de datos aleatorios a cada imagen JPEG, lo que genera un conjunto de datos de 1,4 TB y más de 141 millones de imágenes. El conjunto de datos de 1,4 TB era demasiado grande para caber en la memoria, lo que obligó al sistema a buscar datos del Isilon F800 repetidamente, a fin de garantizar que el análisis comparativo realice pruebas de estrés y mediciones a todo el rendimiento del sistema, incluyendo el procesamiento, la red y el almacenamiento.

Para determinar el rendimiento y la escalabilidad máximos del sistema mientras se capacita el modelo, ejecutamos el análisis comparativo de AlexNet varias veces, cambiando la cantidad de GPU y registrando las métricas de rendimiento de interés. La Figura 5 muestra la cantidad de imágenes procesadas por segundo mientras se capacita AlexNet. También se muestran los resultados publicados anteriormente de un proveedor con una solución que combina servidores, GPU nVIDIA Tesla V100 y una solución de almacenamiento todo flash personalizada del proveedor.

Figura 5. Dell EMC Ready Solutions for AI, Aprendizaje profundo con rendimiento de procesamiento proporcionado por nVIDIA AlexNet

Fuente: Enterprise Strategy Group

Qué significan los números Con cuatro GPU, Dell EMC Ready Solutions for Deep Learning procesó casi 7700 imágenes por segundo, por lo

que tardó un poco más de cinco horas en completarse, y procesó 1,9 veces más imágenes por segundo que el

proveedor A.

Con ocho GPU, Dell EMC Ready Solutions for Deep Learning procesó más de 14 250 imágenes por segundo, lo

que reduce el tiempo de análisis a 2,77 horas y procesa 2,9 veces más imágenes por segundo que el proveedor A.

Cuando el sistema se escalaba a 16 GPU, procesó más de 27 000 imágenes por segundo, y se completó en solo

86,5 minutos. Nota: El proveedor A no publicó los resultados de la variante de análisis comparativo de 16 GPU.

Page 8: Revisión técnica Aceleración del viaje hacia la ... · comprender el rendimiento y la facilidad de uso de Ready Solutions for AI con diseños optimizados para el aprendizaje automático

Revisión técnica: Aceleración del viaje hacia la inteligencia artificial con Dell EMC Ready Solutions for AI 8

© 2018 by The Enterprise Strategy Group, Inc. Todos los derechos reservados.

Los algoritmos de AI se benefician del procesamiento paralelo, y las organizaciones pueden acelerar la capacitación de modelos usando más procesadores en paralelo. La capacidad de mantener la velocidad de procesamiento y el rendimiento de los datos a medida que el sistema se escala para incluir más GPU (la eficiencia de escalamiento) garantiza que las organizaciones maximicen el retorno de su inversión en la incorporación de poder de procesamiento adicional necesario para capacitar modelos de AI. Tabla 1 muestra la eficiencia de escalamiento de cada solución mientras se capacita AlexNet.

Tabla 1. Ready Solutions for IA, eficiencia del escalamiento de Aprendizaje profundo de nVIDIA con AlexNet

GPU Dell EMC Ready Solutions for AI Aprendizaje profundo de nVIDIA

Proveedor A

4 1,00 1,00

8 0,93 0,58

16 0,89 Fuente: Enterprise Strategy Group

Qué significan los números Dell EMC Ready Solutions for AI, Aprendizaje profundo de nVIDIA escala de manera eficiente, manteniendo

el 93 % de rendimiento de base (cuatro GPU) a medida que el sistema se duplicó a ocho GPU. El Aprendizaje profundo de nVIDIA fue casi tan eficiente cuando se cuadruplicó el tamaño del sistema, y logró

el 89 % de su rendimiento de base cuando se escaló de cuatro a 16 GPU. La solución del proveedor A no era tan eficiente y solo era capaz de lograr el 58 % de su rendimiento de base

cuando se duplicaba el tamaño de su sistema de cuatro a ocho GPU. Las redes neuronales profundas pueden tener millones o incluso cientos de millones de parámetros (P). Como regla general, garantizar la capacidad de un modelo para generalizar (proporcionar predicciones de alta precisión para cualquier entrada) requiere puntos de datos P2. Por lo tanto, las organizaciones utilizan conjuntos de datos con un tamaño de varios terabytes o incluso petabytes para capacitar modelos de aprendizaje profundo, y la infraestructura de la AI debe maximizar y escalar el rendimiento de los sistemas de almacenamiento y de transporte de datos, además de maximizar la potencia cruda de procesamiento. La Figura 6 muestra el rendimiento de los datos y el rendimiento por GPU para la capacitación de AlexNet mediante el uso del sistema Ready Solutions for AI, Aprendizaje profundo de nVIDIA.

Figura 6. Dell EMC Ready Solutions for AI, Aprendizaje profundo con rendimiento de datos proporcionado por nVIDIA AlexNet

Fuente: Enterprise Strategy Group

Qué significan los números

Page 9: Revisión técnica Aceleración del viaje hacia la ... · comprender el rendimiento y la facilidad de uso de Ready Solutions for AI con diseños optimizados para el aprendizaje automático

Revisión técnica: Aceleración del viaje hacia la inteligencia artificial con Dell EMC Ready Solutions for AI 9

© 2018 by The Enterprise Strategy Group, Inc. Todos los derechos reservados.

Con cuatro GPU, Ready Solutions for AI, Aprendizaje profundo de nVIDIA transfirió casi 870 MB/s desde el Isilon

F800. A medida que las soluciones escalaron a 16 GPU, la solución transfirió más de 3000 MB/s desde el

almacenamiento.

Durante las pruebas, las GPU tuvieron, en promedio, un 95 % de saturación. Esta alta utilización muestra que la

solución Aprendizaje profundo de nVIDIA con Isilon está diseñada especialmente para el escalamiento horizontal

y la eliminación de los cuellos de botella de I/O en las cargas de trabajo de capacitación de AlexNet con gran ancho

de banda.

La solución transfirió 217 MB/s a cada GPU en una solución con cuatro GPU. Con un rendimiento de hasta 15 GB/s

en un solo chasis Isilon, el sistema Aprendizaje profundo de nVIDIA puede saturar por completo una carga de

trabajo AlexNet de hasta 64 GPU por chasis Isilon. El agregado de nodos Isilon adicionales aumenta el rendimiento

de almacenamiento de manera lineal para admitir GPU adicionales. Teóricamente, con un ancho de banda máximo

de 540 GB/s por clúster, el Isilon F800 puede admitir hasta 2845 GPU para procesar tareas de AI similares

a AlexNet. Nota: La cantidad real de GPU admitidas por Isilon variará en función del tipo de algoritmo, el tipo

de carga de trabajo y el tamaño del conjunto de datos.

Luego, se sobrecargó el Aprendizaje profundo de nVIDIA mediante ResNet50, un clasificador de imágenes altamente

preciso publicado en 2015 por Microsoft Research.4 El análisis comparativo capacita al modelo ResNet50, el cual es

computacionalmente más complejo que AlexNet, mediante el mismo conjunto de datos de ImageNet de 1,4 TB

replicado 10 veces, tal como se utilizó para el análisis comparativo de AlexNet. La Figura 7 muestra la cantidad de

imágenes procesadas por segundo mientras se capacita ResNet50. También se muestran los resultados publicados de

un proveedor con una solución que combina servidores, GPU nVIDIA Tesla V100 y una solución de almacenamiento

todo flash personalizada del proveedor.

Figura 7. Ready Solutions for AI, Aprendizaje profundo con rendimiento de procesamiento proporcionado por nVIDIA ResNet50

Fuente: Enterprise Strategy Group

4 https://arxiv.org/abs/1512.03385

Page 10: Revisión técnica Aceleración del viaje hacia la ... · comprender el rendimiento y la facilidad de uso de Ready Solutions for AI con diseños optimizados para el aprendizaje automático

Revisión técnica: Aceleración del viaje hacia la inteligencia artificial con Dell EMC Ready Solutions for AI 10

© 2018 by The Enterprise Strategy Group, Inc. Todos los derechos reservados.

Qué significan los números Con cuatro GPU, el Aprendizaje profundo de nVIDIA procesó 2,2 veces más imágenes por segundo que

el proveedor B.

La ventaja de rendimiento de Dell EMC se mantuvo cuando se escaló la solución para utilizar ocho GPU.

El Aprendizaje profundo de nVIDIA procesó 2,2 veces más imágenes por segundo que el proveedor B.

La ventaja de rendimiento de Dell EMC se mantuvo cuando se escaló la solución para utilizar 16 GPU.

El Aprendizaje profundo de nVIDIA procesó 2,3 veces más imágenes por segundo que el proveedor B.

La Tabla 2 muestra la eficiencia de escalamiento de cada solución mientras se capacita ResNet50.

Tabla 2. Ready Solutions for IA, eficiencia del escalamiento de Aprendizaje profundo de nVIDIA con ResNet50

GPU Dell EMC Ready Solutions for

Machine Learning Proveedor B

4 1,00 1,00

8 0,95 0,95

16 0,95 0,91 Fuente: Enterprise Strategy Group

Qué significan los números Dell EMC Ready Solutions for AI, Aprendizaje profundo de nVIDIA escala de manera eficiente, y mantuvo el 95 %

de rendimiento de base a medida que el sistema se duplicó y cuadruplicó (a ocho y luego a 16 GPU).

La solución del proveedor B demostró una disminución de la eficiencia a medida que se escaló la solución:

a medida que escaló de cuatro a ocho GPU, se logró un 95 % de rendimiento de base. Sin embargo, a medida

que la solución escaló a 16 GPU, solo fue capaz de lograr un 91 % de rendimiento de base.

La Figura 8 muestra el rendimiento de los datos y el rendimiento por GPU para la capacitación de ResNet50 mediante

el uso de Aprendizaje profundo de nVIDIA.

Figura 8. Dell EMC Ready Solutions for AI, Aprendizaje profundo con rendimiento de datos proporcionado por nVIDIA ResNet50

Fuente: Enterprise Strategy Group

Page 11: Revisión técnica Aceleración del viaje hacia la ... · comprender el rendimiento y la facilidad de uso de Ready Solutions for AI con diseños optimizados para el aprendizaje automático

Revisión técnica: Aceleración del viaje hacia la inteligencia artificial con Dell EMC Ready Solutions for AI 11

© 2018 by The Enterprise Strategy Group, Inc. Todos los derechos reservados.

Qué significan los números Con cuatro GPU, Dell EMC Ready Solutions for AI, el aprendizaje profundo de nVIDIA transfirió más de 330 MB/s

desde el Isilon F800. A medida que las soluciones escalaron a 16 GPU, se transfirieron más de 1250 MB/s.

Durante las pruebas, las GPU tuvieron, en promedio, un 95 % de saturación. Esta alta utilización muestra que la

solución Aprendizaje profundo de nVIDIA con Isilon está diseñada especialmente para el escalamiento horizontal

y la eliminación de los cuellos de botella de I/O en las cargas de trabajo de capacitación de ResNet con gran ancho

de banda.

La solución transfirió 83 MB/s a cada GPU en una solución de cuatro GPU y 78,6 MB/s a cada GPU en una solución

de 16 GPU. Con un rendimiento de 15 GB/s, el Isilon F800 base puede saturar 180 GPU. El agregado de módulos

Isilon adicionales aumenta el ancho de banda del almacenamiento y las conexiones simultáneas para admitir

GPU adicionales. Teóricamente, con un ancho de banda máximo de 540 GB/s, el Isilon F800 puede admitir hasta

6500 GPU para procesar tareas de AI similares a ResNet50. Nota: La cantidad real de GPU admitidas por Isilon

variará en función del tipo de algoritmo, el tipo de carga de trabajo y el tamaño del conjunto de datos.

Por qué es importante Para la AI, los modelos más complejos capacitados con conjuntos de datos más grandes ofrecen mejores resultados. Con conjuntos de datos con tamaños de decenas de TB a decenas de PB y modelos con millones de parámetros, un almacenamiento y procesamiento de alto rendimiento, alto nivel de simultaneidad y escalamiento horizontal se convierten en factores fundamentales para las organizaciones que buscan obtener resultados oportunos de sus esfuerzos de AI.

ESG validó que el sistema Dell EMC Ready Solutions for AI, aprendizaje profundo de nVIDIA con 16 GPU pudo capacitar al modelo AlexNet con 27 375 imágenes por segundo y al modelo ResNet50 con 11 126 imágenes por segundo. La solución de escalamiento horizontal de Dell EMC con Isilon demostró ser de 2,2 a 2,9 veces más rápida que los sistemas de otros dos proveedores. ESG también validó que el Aprendizaje profundo de nVIDIA mantuvo la velocidad de procesamiento a medida que se escaló el sistema, y logró un 89 a 95 % de rendimiento de base a medida que la cantidad de GPU se duplicó y cuadruplicó. Esto garantiza que las organizaciones puedan maximizar el retorno de la inversión a medida que escalan el procesamiento y almacenamiento horizontalmente para acelerar el desarrollo de modelos de AI.

La gran verdad

Las organizaciones perciben que la AI es la nueva tecnología que proporcionará mejores resultados del negocio más

rápidamente. Según una investigación reciente de ESG, el 69 % de los encuestados espera que el ML y la AI ofrezcan

resultados medibles significativos en el corto plazo, y un 17 % de los encuestados declara que la AI y el ML fueron

fundamentales para la estrategia de su organización.

A falta de una pila de infraestructura de AI estandarizada, las organizaciones pueden invertir su tiempo, esfuerzo

y dinero para seleccionar, adquirir, integrar, configurar, probar y validar su propia pila personalizada. Este proceso

complejo puede demorar meses, y la organización debe coordinar la compra y el soporte con varios proveedores.

Las soluciones de nube pública sufren una gran variabilidad de costos y el tiempo y el costo necesarios para transferir

y almacenar terabytes a petabytes de datos.

Dell EMC creó Ready Solutions for AI como pilas de infraestructura estandarizadas para el aprendizaje automático

y el aprendizaje profundo. Estas son soluciones de pila de hardware y software validadas e integradas, optimizadas

y ajustadas para acelerar las iniciativas de AI, lo que acorta el tiempo de implementación de meses a semanas. Las

Ready Solutions for AI simplifican y aceleran los esfuerzos de los científicos de datos, ya que proporcionan espacios

de trabajo de autoservicio donde cada científico de datos puede configurar su propio entorno desde una biblioteca

de modelos e infraestructuras de AI con solo cinco clics.

Page 12: Revisión técnica Aceleración del viaje hacia la ... · comprender el rendimiento y la facilidad de uso de Ready Solutions for AI con diseños optimizados para el aprendizaje automático

Revisión técnica: Aceleración del viaje hacia la inteligencia artificial con Dell EMC Ready Solutions for AI 12

© 2018 by The Enterprise Strategy Group, Inc. Todos los derechos reservados. www.esg-global.com [email protected] P. 508.482.0188

© 2018 by The Enterprise Strategy Group, Inc. Todos los derechos reservados.

ESG validó que estas soluciones pueden acelerar el desarrollo de modelos de AI. Con los servidores PowerEdge C4140

acelerados con (16) GPU de nVIDIA y un chasis NAS de escalamiento horizontal todo flash Isilon F800, las soluciones

Dell EMC Ready Solutions for AI capacitaron al modelo de AlexNet con 27 735 imágenes por segundo y al modelo de

ResNet50, computacionalmente más complejo, con 11 126 imágenes por segundo. Estos resultados fueron de

2,2 a 2,9 veces más rápidos que los resultados publicados por otros proveedores.

Estas soluciones integradas para AI demostraron una eficiencia de escalamiento, ya que mantienen la utilización de las

GPU al 95 % y logran de 89 a 95 % de rendimiento de base a medida que los sistemas se escalaron de cuatro a ocho

GPU, y luego a 16 GPU, lo que maximiza el retorno de la inversión cuando se añaden más GPU para solucionar

problemas más complejos con conjuntos de datos cada vez más grandes. Esta alta utilización y escalamiento lineal

de GPU muestra que la solución Aprendizaje profundo de nVIDIA con Isilon está diseñada especialmente para el

escalamiento horizontal y la eliminación de los cuellos de botella de I/O en las cargas de trabajo de capacitación

de AI con gran ancho de banda.

ESG recomienda que las organizaciones investiguen cómo Dell EMC Ready Solutions for AI puede simplificar y acelerar

su viaje hacia la AI.

Todos los nombres de marcas comerciales son propiedad de sus respectivas empresas. La información incluida en esta publicación se obtuvo por medio de fuentes que The Enterprise

Strategy Group (ESG) considera confiables, pero no está garantizada por ESG. Esta publicación puede contener opiniones de ESG que están sujetas a cambios. Los derechos de esta

publicación pertenecen a The Enterprise Strategy Group, Inc. Cualquier reproducción o redistribución de esta publicación, en su totalidad o en parte, ya sea en formato impreso,

electrónico o de otro tipo, a personas no autorizadas para recibirla sin el consentimiento expreso de The Enterprise Strategy Group, Inc., constituye una violación de las leyes de derechos

de autor de los Estados Unidos y estará sujeta a una acción por daños civiles y, en caso de ser pertinente, a un juicio penal. Si tiene consultas, comuníquese con ESG Client Relations

llamando al 508­482-0188.

El objetivo de los informes de validación de ESG es educar a los profesionales de TI acera de soluciones de tecnología informática para empresas de todos los tipos y tamaños. Los informes

de validación de ESG no pretenden reemplazar el proceso de evaluación que se debe llevar a cabo antes de tomar decisiones de compra, sino proporcionar información valiosa de estas

tecnologías emergentes. Nuestros objetivos son analizar algunas de las características y las funciones más valiosas de las soluciones de TI, mostrar cómo se pueden utilizar para resolver

los problemas reales de los clientes e identificar las áreas que necesitan mejoras. La perspectiva de terceros expertos del equipo de validación de ESG se basa en nuestras propias pruebas

prácticas, así como en entrevistas con clientes que utilizan estos productos en ambientes de producción.