Cerebras, la compañía detrás del chip acelerador más grande del mundo que existe, el Motor de escala de obleas CS-2, acaba de anunciar un hito: el entrenamiento del modelo de IA NLP (Natural Language Processing) más grande del mundo en un solo dispositivo. Si bien eso en sí mismo podría significar muchas cosas (no sería un gran récord para romper si el modelo anterior más grande se entrenó en un reloj inteligente, por ejemplo), el modelo de IA entrenado por Cerebras ascendió hacia un asombroso y sin precedentes. – 20 mil millones de parámetros. Todo sin que la carga de trabajo tenga que escalarse entre múltiples aceleradores. Eso es suficiente para adaptarse a la última sensación de Internet, el generador de imágenes a partir de texto, 12 mil millones de parámetros de OpenAI DALL-E (se abre en una pestaña nueva).
La parte más importante del logro de Cerebras es la reducción de los requisitos de complejidad de infraestructura y software. Por supuesto, un solo sistema CS-2 es similar a una supercomputadora por sí solo. El motor de escala de oblea-2 – que, como su nombre lo indica, está grabado en una sola oblea de 7 nm, generalmente suficiente para cientos de chips convencionales – presenta la asombrosa cantidad de 2.6 billones de transistores de 7 nm, 850,000 núcleos y 40 GB de caché integrado en un paquete que consume alrededor de 15kW .
Mantener hasta 20 mil millones de modelos NLP de parámetros en un solo chip reduce significativamente la sobrecarga en los costos de capacitación en miles de GPU (y los requisitos de escala y hardware asociados) al tiempo que elimina las dificultades técnicas de particionar modelos entre ellos. Cerebras dice que este es “uno de los aspectos más dolorosos de la carga de trabajo de la PNL”, que a veces “toma meses para completar”.
Es un problema personalizado que es único no solo para cada red neuronal que se procesa, las especificaciones de cada GPU y la red que lo une todo, elementos que deben resolverse con anticipación antes de que se inicie el primer entrenamiento. Y no se puede portar entre sistemas.
Los números puros pueden hacer que el logro de Cerebras parezca decepcionante: GPT-3 de OpenAI, un modelo de PNL que puede escribir artículos completos que a veces puede engañar a los lectores humanos, cuenta con la asombrosa cantidad de 175 mil millones de parámetros. DeepMind’s Gopher, lanzado a fines del año pasado, eleva esa cifra a 280 mil millones. Los cerebros de Google Brain incluso han anunciado la formación de un modelo de más de un billón de parámetros, el transformador interruptor.
“En la PNL, se demuestra que los modelos más grandes son más precisos. Pero tradicionalmente, solo unas pocas empresas selectas tenían los recursos y la experiencia necesarios para realizar el arduo trabajo de dividir estos grandes modelos y distribuirlos en cientos o miles de unidades de procesamiento de gráficos”, dijo Andrew Feldman, director ejecutivo y cofundador de Cerebras. Sistemas. “Como resultado, solo muy pocas empresas podían entrenar grandes modelos de PNL: era demasiado costoso, requería mucho tiempo e inaccesible para el resto de la industria. Hoy estamos orgullosos de democratizar el acceso a GPT-3XL 1.3B, GPT-J 6B, GPT-3 13B y GPT-NeoX 20B, lo que permite que todo el ecosistema de IA configure modelos grandes en minutos y los entrene en un solo CS-2. .”
Sin embargo, al igual que las velocidades de reloj en el mundo mejores CPU, el número de parámetros no es más que un único indicador posible de rendimiento. Recientemente se ha trabajado en lograr mejores resultados con menos parámetros – Chinchilla, por ejemplo, rutinariamente supera tanto a GPT-3 como a Gopher con sólo 70 mil millones de ellos. El objetivo es trabajar de manera más inteligente, no más difícil. Como tal, el logro de Cerebras es más importante de lo que podría parecer a primera vista: los investigadores seguramente podrán ajustar modelos cada vez más complejos, incluso si la empresa dice que su sistema tiene el potencial para admitir modelos con “cientos de miles de millones incluso billones de parámetros”.
Esta explosión en el número de parámetros viables hace uso de Tecnología de transmisión de peso de Cerebras, que puede desacoplar las huellas de cómputo y memoria, lo que permite que la memoria se amplíe a cualquier cantidad que se necesite para almacenar la cantidad de parámetros en rápido aumento en las cargas de trabajo de IA. Esto permite reducir los tiempos de configuración de meses a minutos y cambiar fácilmente entre modelos como GPT-J y GPT-Neo. “con unas pocas pulsaciones de teclas“.
“La capacidad de Cerebras para llevar modelos de lenguaje grandes a las masas con un acceso fácil y rentable abre una nueva era emocionante en la IA. Brinda a las organizaciones que no pueden gastar decenas de millones una vía de acceso fácil y económica a la NLP de grandes ligas”, dijo Dan Olds, director de investigación de Intersect360 Research. “Será interesante ver las nuevas aplicaciones y los descubrimientos que hacen los clientes de CS-2 mientras entrenan modelos de clase GPT-3 y GPT-J en conjuntos de datos masivos”.