Latest Trends

Construire l’écosystème 800 VDC pour des usines d’IA efficaces et évolutives

Pendant des décennies, les centres de données traditionnels ont été de vastes halls de serveurs avec l’alimentation et le refroidissement comme considérations secondaires. L’essor de l’IA générative a transformé ces installations en usines d’IA, renversant le scénario architectural. L’infrastructure électrique, autrefois considérée après coup, devient le principal facteur qui dicte l’échelle, l’emplacement et la faisabilité des nouveaux déploiements.

Nous sommes à un point d’inflexion critique, où l’industrie ne peut plus compter sur des améliorations progressives, et un changement architectural fondamental est nécessaire. Ce nouveau modèle doit être plus efficace, évolutif et capable de gérer les demandes de puissance de l’IA moderne.

La solution implique une approche à deux volets : la mise en œuvre d’un système de distribution d’énergie en courant continu (VDC) de 800 volts ainsi qu’un stockage d’énergie intégré à plusieurs échelles de temps. Il ne s’agit pas seulement de maintenir l’éclairage allumé, il s’agit également de jeter les bases de l’avenir de l’informatique.

Demandes croissantes de puissance des charges de travail d’IA

Pendant des années, les avancées significatives dans la technologie des processeurs ont entraîné une augmentation d’environ 20 % de la consommation d’énergie. Aujourd’hui, cette courbe prévisible a été brisée. Le moteur est la recherche incessante de performances, rendue possible par des interconnexions à large bande passante comme NVIDIA NVLink, qui permettent à des milliers de GPU de fonctionner comme un seul processeur monolithique.

Pour obtenir la faible latence et la bande passante élevée requises, ces connexions s’appuient sur un câblage en cuivre. Cependant, la portée effective du cuivre est limitée, créant ce que l’on peut appeler un piège de densité de performances. Pour créer un système d’IA plus puissant, vous devez intégrer davantage de GPU dans un espace physique plus petit. Cette nécessité architecturale lie directement les performances à la densité de puissance.

Le passage de NVIDIA Hopper à l’architecture NVIDIA Blackwell en est un bon exemple. Alors que la consommation d’énergie (TDP) de chaque GPU a augmenté de 75 %, la croissance du domaine NVLink vers un système à 72 GPU a entraîné une multiplication par 3,4 de la densité de puissance du rack. Le résultat a été une augmentation stupéfiante de 50 fois les performances, mais cela a également permis aux racks de passer de dizaines de kilowatts à bien plus de 100, avec un mégawatt par rack désormais à l’horizon. Fournir ce niveau de puissance aux basses tensions traditionnelles, comme 54 VCC, est physiquement et économiquement peu pratique. L’immense courant requis entraînerait des pertes résistives élevées et nécessiterait un volume non viable de câbles en cuivre.

Le défi de la volatilité des charges de travail synchrones

Au-delà de la simple densité, les charges de travail de l’IA introduisent un deuxième défi tout aussi redoutable : la volatilité. Contrairement à un centre de données traditionnel exécutant des milliers de tâches non corrélées, une usine IA fonctionne comme un système unique et synchrone. Lors de la formation d’un grand modèle de langage (LLM), des milliers de GPU exécutent des cycles de calcul intenses, suivis de périodes d’échange de données, à l’unisson presque parfait.

Cela crée un profil de puissance à l’échelle de l’installation, caractérisé par des variations de charge massives et rapides. Ce défi de volatilité a été documenté dans une recherche conjointe de NVIDIA, Microsoft et OpenAI sur la stabilisation de l’alimentation pour les centres de données de formation à l’IA. La recherche montre comment les charges de travail GPU synchronisées peuvent provoquer des oscillations à l’échelle du réseau.

La consommation électrique d’un rack peut passer d’un état « inactif » d’environ 30 % à 100 % d’utilisation et revenir en quelques millisecondes. Cela oblige les ingénieurs à surdimensionner les composants pour gérer le courant de pointe, et non la moyenne, ce qui augmente les coûts et l’encombrement. Lorsqu’elles sont regroupées dans l’ensemble d’un hall de données, ces fluctuations volatiles, représentant des centaines de mégawatts augmentant et diminuant en quelques secondes, constituent une menace importante pour la stabilité du réseau électrique public, faisant de l’interconnexion du réseau un goulot d’étranglement principal pour la mise à l’échelle de l’IA.

Une nouvelle architecture de distribution d’énergie

Faire face à cette crise aux multiples facettes nécessite une solution multiforme. Le plan architectural proposé est une stratégie à deux volets qui s’attaque aux défis d’échelle et de volatilité en passant à une distribution d’énergie de 800 V CC couplée à l’intégration profonde du stockage d’énergie.

Avantages du 800 VDC

Le moyen le plus efficace de relever les défis de la distribution de haute puissance consiste à augmenter la tension. La transition d’un système triphasé traditionnel de 415 ou 480 VCA à une architecture de 800 VCC offre des avantages significatifs, notamment :

Intégration native de bout en bout 800 VDC
La génération de 800 VCC au niveau de l’installation et sa fourniture directe aux racks de calcul de 800 VCC éliminent les conversions redondantes, améliorant ainsi l’efficacité énergétique globale. Cette architecture prend en charge les clusters GPU haute densité, débloque des performances plus élevées par GPU et permet davantage de GPU par AI Factory, générant ainsi un débit de calcul et un potentiel de revenus accrus pour les partenaires. Il garantit également une évolutivité future au-delà de 1 MW par rack et une interopérabilité transparente dans l’écosystème électrique AI Factory.

Cuivre et coût réduits
Avec 800 VCC, le même calibre de fil peut transporter 157 % de puissance en plus qu’avec 415 VCA. En utilisant une configuration plus simple à trois fils (POS, RTN, PE) au lieu de quatre pour le courant alternatif, moins de conducteurs et des connecteurs plus petits sont nécessaires. Cela réduit l’utilisation du cuivre, diminue les coûts de matériel et d’installation et facilite la gestion des câbles, ce qui est essentiel à mesure que les entrées d’alimentation des racks évoluent vers des niveaux de mégawatts.

Efficacité améliorée
Une architecture DC native élimine les multiples étapes de conversion AC-DC inefficaces qui se produisent dans les systèmes traditionnels, où l’efficacité de bout en bout peut être inférieure à 90 %. Ce chemin d’alimentation rationalisé augmente l’efficacité et réduit la chaleur perdue.

Architecture simplifiée et plus fiable
Un système de distribution CC est intrinsèquement plus simple, avec moins de composants comme des transformateurs et des équipements d’équilibrage de phase. Cette réduction de la complexité entraîne moins de points de défaillance potentiels et augmente la fiabilité globale du système.

Ce n’est pas un territoire inconnu. Les secteurs des véhicules électriques et de l’énergie solaire à grande échelle ont déjà adopté le 800 VCC ou plus pour améliorer l’efficacité et la densité de puissance, créant ainsi un écosystème mature de composants et de bonnes pratiques pouvant être adaptés au centre de données.

Réduire les fluctuations grâce au stockage d’énergie à plusieurs échelles de temps

Même si le 800 VCC résout le problème de l’efficacité à grande échelle, il ne résout pas la volatilité de la charge de travail. Pour cela, le stockage d’énergie doit être traité comme un composant actif et essentiel de l’architecture électrique, et non comme un simple système de secours. L’objectif est de créer un tampon – un filtre passe-bas – qui dissocie les demandes chaotiques de puissance des GPU des exigences de stabilité du réseau électrique.

Étant donné que les fluctuations de puissance se produisent sur un large spectre d’échelles de temps, une stratégie à plusieurs niveaux est nécessaire en utilisant :

  • Stockage de courte durée (de quelques millisecondes à secondes) : des condensateurs et supercondensateurs haute puissance sont placés à proximité des racks de calcul. Ils réagissent rapidement pour absorber les pics de puissance à haute fréquence et combler les brèves vallées créées par les périodes d’inactivité de la charge de travail LLM.
  • Stockage de longue durée (de quelques secondes à quelques minutes) : de grands systèmes de stockage d’énergie par batterie (BESS) au niveau des installations sont situés à l’interconnexion des services publics. Ils gèrent les changements de puissance plus lents et à plus grande échelle, tels que l’augmentation et la diminution de charges de travail entières, et offrent une capacité de maintien pendant les transferts vers des générateurs de secours.

L’architecture 800 VDC est un élément clé de cette stratégie. Le stockage d’énergie actuel du centre de données est connecté en fonction de l’alimentation électrique CA. En passant au 800 VDC, il devient plus facile de combiner le stockage à l’endroit le plus approprié.

Distribution d’énergie 800 V CC dans les usines d’IA de nouvelle génération

Figure illustrant la distribution électrique actuelle par rapport à l'avenir.
Figure 1. Passage de la distribution électrique de 415 VCA (en haut) à 800 VCC (en bas)

Les usines d’IA de nouvelle génération passeront de la distribution AC actuelle à un modèle de distribution 800 VDC. L’architecture actuelle implique plusieurs étapes de conversion de puissance. La moyenne tension fournie par le secteur (par exemple, 35 kVAC) est réduite à la basse tension (par exemple, 415 VAC). Cette alimentation est ensuite conditionnée par un UPS AC et distribuée aux racks de calcul via des PDU et des busways. Dans chaque rack, plusieurs blocs d’alimentation convertissent le 415 VCA en 54 VCC, qui est ensuite distribué sur des plateaux de calcul individuels pour d’autres conversions CC-CC.

La vision future centralise toutes les conversions AC-DC au niveau des installations, établissant ainsi un centre de données DC natif. Dans cette approche, le courant alternatif moyenne tension est directement converti en 800 V CC par de grands systèmes de conversion de puissance de grande capacité. Ce 800 VDC est ensuite distribué dans tout le hall de données jusqu’aux racks de calcul. L’architecture rationalise le groupe motopropulseur en éliminant les couches d’appareillage de commutation CA, de transformateurs et de PDU. Il maximise l’espace blanc pour le calcul générateur de revenus, simplifie l’ensemble du système et fournit une dorsale CC propre et haute tension pour l’intégration directe du stockage d’énergie au niveau des installations.

La transition vers une architecture 800 VDC entièrement réalisée se fera par étapes, donnant à l’industrie le temps de s’adapter et à l’écosystème de composants de mûrir.

Figure montrant l'architecture du rack pour Kyber, conçue pour 800 V CC.Figure montrant l'architecture du rack pour Kyber, conçue pour 800 V CC.
Figure 2. Alimentation du rack NVIDIA Kyber

L’architecture NVIDIA MGX évoluera avec la prochaine architecture rack NVIDIA Kyber, conçue pour utiliser cette nouvelle architecture 800 VDC (voir Figure 2). L’alimentation est distribuée à haute tension directement à chaque nœud de calcul, où un convertisseur LLC 64:1 à rapport élevé et de dernière génération la réduit efficacement à 12 V CC immédiatement à côté du GPU. Cette conversion en une seule étape est plus efficace et occupe 26 % de surface en moins que les approches traditionnelles en plusieurs étapes, libérant ainsi un espace précieux à proximité du processeur.

La voie à suivre : un appel à la collaboration

Cette transformation ne peut pas s’accomplir en vase clos. Cela nécessite une collaboration urgente, ciblée et à l’échelle de l’industrie. Des organisations comme l’Open Compute Project (OCP) constituent un forum essentiel pour développer des normes ouvertes afin de garantir l’interopérabilité, d’accélérer l’innovation et de réduire les coûts pour l’ensemble de l’écosystème. L’industrie doit s’aligner sur des plages de tension, des interfaces de connecteur et des pratiques de sécurité communes pour les environnements 800 V CC.

Pour accélérer l’adoption, NVIDIA collabore avec des partenaires industriels clés de l’écosystème électrique des centres de données, notamment :

  • Fournisseurs de silicium: AOS, Analog Devices, Efficient Power Conversion, Infineon Technologies, Innoscience, MPS, Navitas, onsemi, Power Integrations, Renesas, Richtek, ROHM, STMicroelectronics, Texas Instruments.
  • Composants du système électrique: Bizlink, Delta, Flex, Lead Wealth, LITEON, Megmeet.
  • Systèmes d’alimentation des centres de données: ABB, Eaton, GE Vernova, Heron Power, Hitachi Energy, Mitsubishi Electric, Schneider Electric, Siemens, Vertiv.

Nous publions le livre blanc technique Architecture 800 VDC pour l’infrastructure d’IA de nouvelle génération et présentons les détails lors du Sommet mondial OCP 2025. Toute entreprise intéressée par la prise en charge de l’architecture 800 VDC peut nous contacter pour plus d’informations.

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button