AWS Mise Sur Le Refroidissement Liquide Pour Ses Serveurs IA

Amazon Web Services (AWS) a annoncé une nouvelle stratégie de refroidissement pour ses centres de données lors de son événement annuel AWS re:Invent à Las Vegas. La nouveauté majeure est l’utilisation du refroidissement liquide pour les serveurs d’intelligence artificielle, qu’ils soient équipés des puces maison Trainium d’AWS ou des accélérateurs de Nvidia.

Plus spécifiquement, AWS précise que ses puces Trainium2 (toujours en preview) et les «solutions de supercalculateurs IA à l’échelle des racks comme le NVIDIA GB200 NVL72» seront refroidies de cette manière. Il est intéressant de noter qu’AWS souligne que ces systèmes de refroidissement actualisés peuvent intégrer à la fois le refroidissement par air et par liquide.

Ce design de refroidissement multimodal flexible permet à AWS de fournir des performances et une efficacité maximales au coût le plus bas, que l’on exécute des charges de travail traditionnelles ou des modèles d’IA.

– AWS

Simplification des conceptions électriques et mécaniques

AWS a également annoncé qu’elle passait à des conceptions électriques et mécaniques simplifiées pour ses serveurs et ses racks de serveurs. Les améliorations de conception des centres de données les plus récentes d’AWS comprennent :

  • Une distribution électrique et des systèmes mécaniques simplifiés
  • Une disponibilité de l’infrastructure de 99,9999 %
  • Une réduction de 89 % du nombre potentiel de racks pouvant être impactés par des problèmes électriques

AWS réduit le nombre de conversions de l’électricité sur son chemin entre le réseau électrique et le serveur. Bien que peu de détails aient été fournis, cela signifie probablement l’utilisation du courant continu pour alimenter les serveurs et/ou le système CVC, en évitant de nombreuses étapes de conversion CA-CC-CA.

Une infrastructure évolutive pour l’IA

Prasad Kalyanaraman, vice-président des services d’infrastructure chez AWS, déclare que ces nouvelles capacités des centres de données représentent «une avancée importante avec une efficacité énergétique accrue et un support flexible pour les charges de travail émergentes». Il souligne qu’elles sont conçues pour être modulaires, permettant de moderniser l’infrastructure existante pour le refroidissement liquide et l’efficacité énergétique afin d’alimenter les applications d’IA générative et de réduire l’empreinte carbone.

Au total, AWS affirme que le nouveau système de refroidissement multimodal et le système de fourniture d’énergie amélioré permettront à l’organisation de «prendre en charge une augmentation de 6 fois la densité de puissance des racks au cours des deux prochaines années, et une autre augmentation de 3 fois à l’avenir».

IA pour optimiser les centres de données

Dans ce contexte, AWS note également qu’elle utilise désormais l’IA pour prédire le positionnement le plus efficace des racks dans le centre de données afin de réduire la quantité d’énergie inutilisée ou sous-utilisée. AWS déploiera également son propre système de contrôle sur ses appareils électriques et mécaniques dans le centre de données, qui sera doté de services de télémétrie intégrés pour des diagnostics et un dépannage en temps réel.

Les centres de données doivent évoluer pour répondre aux exigences transformatrices de l’IA. En permettant des solutions de refroidissement liquide avancées, l’infrastructure IA peut être refroidie efficacement tout en minimisant la consommation d’énergie.

– Ian Buck, vice-président de l’hyperscale et du HPC chez Nvidia

Ces annonces d’Amazon Web Services démontrent l’engagement continu du leader du cloud computing à innover dans ses centres de données pour prendre en charge les charges de travail d’IA de plus en plus exigeantes. Le passage au refroidissement liquide et l’optimisation de l’alimentation électrique et du positionnement des racks montrent qu’AWS est prêt à relever les défis de l’ère de l’intelligence artificielle.

À lire également