Cerebras supera a las GPU y rompe el récord de los modelos de IA más grandes entrenados en un solo dispositivo

Cerebras, la compañía detrás del chip acelerador más grande del mundo que existe, el Motor de escala de obleas CS-2, acaba de anunciar un hito: el entrenamiento del modelo de IA NLP (Natural Language Processing) más grande del mundo en un solo dispositivo. Si bien eso en sí mismo podría significar muchas cosas (no sería un gran récord para romper si el modelo anterior más grande se entrenó en un reloj inteligente, por ejemplo), el modelo de IA entrenado por Cerebras ascendió hacia un asombroso y sin precedentes. – 20 mil millones de parámetros. Todo sin que la carga de trabajo tenga que escalarse entre múltiples aceleradores. Eso es suficiente para adaptarse a la última sensación de Internet, el generador de imágenes a partir de texto, 12 mil millones de parámetros de OpenAI DALL-E (se abre en una pestaña nueva).

La parte más importante del logro de Cerebras es la reducción de los requisitos de complejidad de infraestructura y software. Por supuesto, un solo sistema CS-2 es similar a una supercomputadora por sí solo. El motor de escala de oblea-2 – que, como su nombre lo indica, está grabado en una sola oblea de 7 nm, generalmente suficiente para cientos de chips convencionales – presenta la asombrosa cantidad de 2.6 billones de transistores de 7 nm, 850,000 núcleos y 40 GB de caché integrado en un paquete que consume alrededor de 15kW .

Motor de escala de oblea Cerebras

Wafer Scale Engine-2 de Cerebras en todo su esplendor del tamaño de una oblea. (Crédito de la imagen: Cerebras)

Mantener hasta 20 mil millones de modelos NLP de parámetros en un solo chip reduce significativamente la sobrecarga en los costos de capacitación en miles de GPU (y los requisitos de escala y hardware asociados) al tiempo que elimina las dificultades técnicas de particionar modelos entre ellos. Cerebras dice que este es “uno de los aspectos más dolorosos de la carga de trabajo de la PNL”, que a veces “toma meses para completar”.

Es un problema personalizado que es único no solo para cada red neuronal que se procesa, las especificaciones de cada GPU y la red que lo une todo, elementos que deben resolverse con anticipación antes de que se inicie el primer entrenamiento. Y no se puede portar entre sistemas.

cerebros CS-2

El CS-2 de Cerebras es un clúster de supercomputación autónomo que incluye no solo el Wafer Scale Engine-2, sino también todos los subsistemas de energía, memoria y almacenamiento asociados. (Crédito de la imagen: Cerebras)

Los números puros pueden hacer que el logro de Cerebras parezca decepcionante: GPT-3 de OpenAI, un modelo de PNL que puede escribir artículos completos que a veces puede engañar a los lectores humanos, cuenta con la asombrosa cantidad de 175 mil millones de parámetros. DeepMind’s Gopher, lanzado a fines del año pasado, eleva esa cifra a 280 mil millones. Los cerebros de Google Brain incluso han anunciado la formación de un modelo de más de un billón de parámetros, el transformador interruptor.

Leave a Reply

Your email address will not be published.