Cerebras CS-2, le processeur titanesque et l’IA

L’intelligence artificielle, dans sa forme dédiée au deep learning, produit des réseaux neuronaux dotés de milliards et de milliards de paramètres neuronaux. Cette échelle croissante constitue autant de problèmes particuliers pour le matériel et les logiciels utilisés pour développer ces réseaux neuronaux. « En deux ans, les modèles sont devenus 1 000 fois plus gros et nécessitent aujourd’hui 1 000 fois plus de puissance de calcul », relève Andrew Feldman, cofondateur et PDG du fabricant de systèmes d’IA, Cerebras Systems, résumant l’histoire récente des réseaux neuronaux dans une interview accordée à ZDNet via Zoom.

En concurrence frontale avec le leader de l’IA, Nvidia, et avec d’autres start-up de l’IA – comme Graphcore et SambaNova Systems – Cerebras Systems a dévoilé cette semaine de nouveaux ordinateurs, avec l’ambition d’être plus performant lors de la formation de ces réseaux de plus en plus importants. Une phase critique durant laquelle un programme de réseau neuronal est développé en le soumettant à de grandes quantités de données et en ajustant les poids du réseau neuronal jusqu’à ce qu’il soit le plus précis possible.

Ce n’est d’ailleurs un secret pour personne : les réseaux neuronaux ne cessent de voir leur taille augmenter. L’année dernière, ce qui était le plus grand réseau neuronal du monde – mesuré en poids neuronal – le programme de traitement du langage naturel GPT-3 d’OpenAI, avec 175 milliards de poids, a été éclipsé par le modèle de 1,6 trillion de paramètres de Google, le Switch Transformer. Un gigantisme qui pose aujourd’hui problème, ces modèles dépassant de loin les limites d’un seul système informatique. La mémoire d’un seul GPU, de l’ordre de 16 gigaoctets, est dépassée par les centaines de téraoctets de mémoire potentiellement nécessaires pour un modèle comme GPT-3. Le regroupement des systèmes devient donc crucial.

 

Sommaire

Un seul système CS-2 est capable de gérer une couche d’un réseau neuronal à 120 billions de paramètres.

En avril dernier, Cerebras avait présenté son Wafer Scale Engine 2 (WSE2). Ce processeur gravé en 7 nm embarque 850 000 cœurs qualifiés de « Sparse Linear Algebra Compute Cores » et 2,6 billions de transistors. Il a un die d’une surface de 46 225 mm2, soit un carré de 21,5 cm de côté environ. Selon l’entreprise, ce WSE2 est 56 fois plus grand que le plus grand des GPU. Cerebras intègre ses WSE2 au sein de systèmes CS-2. Ces solutions embarquent 40 Go de SRAM. Elles offrent une bande passante mémoire de 20 Po/s et bénéficient d’une interconnexion de 220 Pb/s. Les E/S comprennent 12 ports GbE, soit une bande passante de 1,2 Tb/s. Un seul système engloutit jusqu’à 23 kW.

Selon Cerebras, un unique système CS-2 suffit à une couche d’un réseau neuronal à 120 billions de paramètres ; pour la comparaison, aux dires de notre confrère de Tom’s Hardware US, la plupart des dispositifs actuels se limitent à un billion de paramètres. Toutefois, selon Cerebras, il est possible, grâce à sa technologie d’interconnexion maison, de combiner 192 CS-2 ; autrement dit, 163 millions de cœurs.

 

Mémoire MemoryX, commutateurs SwarmX et systèmes CS-2

Pour relever les défis de cette mise en réseau, Cerebras a bâti un système de parallélisme par distribution de données. Celui-ci offrirait une mise à l’échelle des performances linéaire. La stratégie consiste à stocker les paramètres du modèle dans des blocs MemoryX. Ces dispositifs embarquent de la mémoire hybride mélangeant mémoire flash NAND et DRAM (ratio non communiqué) pour une capacité allant de 4 To à 2,4 Po ainsi que des processeurs x86. Ensuite, des commutateurs, les SwarmX, font le lien entre les CS-2 et les MemoryX. Chaque commutateur SwarmX prend en charge jusqu’à 32 systèmes CS-2.

 

Une meilleure exploitation des machines

De quoi faire de la mise en grappe une question cruciale, car chaque machine doit être maintenue occupée, sinon l’utilisation diminue. Cette année, Nvidia, Stanford et Microsoft ont créé une version de GPT-3 avec un trillion de paramètres et ont ainsi dû les répartir sur 3 072 GPU. Las, l’utilisation, c’est-à-dire le nombre d’opérations par seconde, n’était qu’à 52 % du potentiel théorique maximal des machines. Un problème que souhaite aujourd’hui résoudre Cerebras Systems, de manière à obtenir une meilleure utilisation de chaque élément de calcul, de meilleures performances, et – par extension – une meilleure utilisation de l’énergie.

Les nouveaux ordinateurs de la société comprennent donc trois parties qui interagissent entre elles. La première est une mise à jour de l’ordinateur de la société qui contient sa puce Wafer-Scale Engine ou WSE, la plus grande puce jamais fabriquée. Ce système s’appelle le CS-2. Le WSE2 et le CS-2 ont été présentés en avril. La société a présenté cette semaine une machine montée en rack appelée MemoryX, qui contient 2,4 pétaoctets combinés de DRAM et de mémoire flash NAND, pour stocker tous les poids du réseau neuronal.

Elle a également présenté une troisième machine, baptisée SwarmX, dont le but est de relier le CS-2 au MemoryX. Cette matrice peut connecter jusqu’à 192 machines CS-2 au MemoryX pour former un cluster qui travaille en coopération sur un seul grand réseau neuronal.

CEREBRAS, historique

Cerebras a été fondée en 2015 par Andrew Feldman, Gary Lauterbach, Michael James, Sean Lie et Jean-Philippe Fricker.[3] Ces cinq fondateurs ont travaillé ensemble chez SeaMicro, qui a été lancé en 2007 par Feldman et Lauterbach et a ensuite été vendu à AMD en 2012 pour 334 millions de dollars.

En mai 2016, Cerebras a obtenu un financement de 27 millions de dollars de série A dirigé par Benchmark Foundation Capital et Eclipse Ventures. En décembre 2016, le financement de série B était dirigé par Coatue, suivi en janvier 2017 par un financement de série C dirigé par VY Capital. En novembre 2018, Cerebras a clôturé sa série D avec 88 millions de dollars, faisant de la société une licorne. Les investisseurs dans ce cycle comprenaient Altimeter, VY Capital, Coatue, Foundation Capital, Benchmark et Eclipse.

Le 19 août 2019, Cerebras a annoncé son Wafer-Scale Engine (WSE). En novembre 2019, Cerebras a clôturé son tour de série E avec plus de 270 millions de dollars pour une valorisation de 2,4 milliards de dollars.

En 2021, la société a annoncé une technologie qui connecte plusieurs puces pour exécuter des modèles plus de 100 fois ceux utilisés à l’époque. Cerebras dit qu’il peut exécuter un réseau de neurones avec 120 000 milliards de connexions. Le Wafer Scale Engine Two (WSE-2) de la société compte 850 000 cœurs.

 

De nouvelles économies d’échelles

« Le SwarmX fait à la fois de la communication et du calcul », explique le patron de la société. « Le tissu SwarmX combine les gradients, ce qu’on appelle une réduction, ce qui signifie qu’il effectue une opération comme une moyenne. » Le résultat conduit à une utilisation largement supérieure du CS-2 par rapport à la concurrence, même sur les réseaux neuronaux de production actuels comme GPT-3, indique ce dernier. « L’utilisation des techniques concurrentes se situe dans les 10 ou 20 %, mais nous voyons une utilisation entre 70 et 80 % sur les plus grands réseaux – c’est du jamais vu », se réjouit-il.

L’ajout de systèmes offre ce qu’il appelle une « mise à l’échelle linéaire des performances », ce qui signifie que si 16 systèmes sont ajoutés, la vitesse d’entraînement d’un réseau neuronal est 16 fois plus rapide. Par conséquent, « aujourd’hui, chaque CS2 remplace des centaines de GPU, et nous pouvons maintenant remplacer des milliers de GPU » avec l’approche en cluster, indique-t-il. Selon Cerebras, le parallélisme présente un avantage supplémentaire, à savoir ce que l’on appelle la sparsité.

Dès le début, Cerebras Systems a pointé du doigt les GPU de Nvidia comme étant inefficaces en raison de leur manque de mémoire. Le GPU doit aller chercher les données dans la mémoire principale, la DRAM, ce qui est coûteux, et il les récupère en collections appelées lots. Mais cela signifie que le GPU peut opérer sur des données qui sont de valeur nulle, ce qui est un gaspillage, les poids n’étant pas mis à jour assez fréquemment pendant qu’ils attendent que chaque lot soit traité.

 

Related Posts