NVIDIA Vera Rubin NVL72 : la plateforme GPU qui réécrit les règles de l'inférence

En production depuis le début d'année, la plateforme Vera Rubin de NVIDIA sera disponible chez les partenaires cloud au second semestre 2026. Le NVL72 promet 3,6 EFLOPS d'inférence NVFP4 par rack.

HardwareDéveloppeurs

NVIDIA Vera Rubin NVL72 : la plateforme GPU qui réécrit les règles de l'inférence

NVIDIA a présenté la plateforme Vera Rubin au CES 2026 en janvier. Depuis, la production est engagée et les premiers déploiements cloud sont en cours chez AWS, Google Cloud, Microsoft Azure et Oracle. Le second semestre 2026 marquera la disponibilité générale pour les partenaires. Une cadence qui tranche avec les délais habituels du secteur.

Rack de serveurs Vera Rubin NVL72 dans un datacenter éclairé en terracotta

Ce que contient la plateforme Vera Rubin

La plateforme se compose de deux puces conçues conjointement. Le GPU Rubin embarque 336 milliards de transistors, de la mémoire HBM4 (jusqu'à 288 Go par GPU, 22 To/s de bande passante), et un nouveau Transformer Engine. Le CPU Vera, de son côté, repose sur 88 cœurs Arm "Olympus" développés en interne par NVIDIA, avec 176 threads via la technologie Spatial Multi-Threading, jusqu'à 1,5 To de LPDDR5x et 1,2 To/s de bande passante mémoire. Les deux puces se connectent via NVLink 6.

La configuration phare est le rack NVL72 : 72 GPU Rubin et 36 CPU Vera, 260 To/s de bande passante scale-up. Ce rack atteint 3,6 EFLOPS d'inférence NVFP4 et 2,5 EFLOPS d'entraînement, avec 20,7 To de capacité HBM4 et 54 To de LPDDR5x. Un format pensé pour les "usines à IA", selon la terminologie de Jensen Huang.

Des chiffres qui changent d'échelle

Par rapport à la génération Blackwell (NVL72 aussi, mais sur architecture différente), NVIDIA annonce un gain de 10 fois sur le débit d'inférence par watt, et la capacité de former de grands modèles avec quatre fois moins de GPU. Ces chiffres restent à valider en conditions réelles, mais les premières annonces des hyperscalers vont dans ce sens.

L'arrivée du CPU Vera est elle aussi significative. C'est la première fois que NVIDIA intègre ses propres cœurs CPU de conception maison dans un rack destiné aux datacenters, en remplacement des processeurs ARM ou x86 habituels. L'objectif est de contrôler l'ensemble de la chaîne, de la mémoire au calcul, pour optimiser les flux d'inférence bout en bout. Certains analystes y voient un risque de désintermédiation pour Intel et AMD. D'autres soulignent que la migration des infrastructures existantes sera longue et coûteuse.

Ce que ça signifie pour vous

Pour les développeurs qui travaillent sur des applications d'inférence à grande échelle, la bonne nouvelle tient dans une chose : le coût par token devrait baisser significativement dès que le Vera Rubin sera déployé à grande échelle chez les cloud providers. AWS, Azure et Google Cloud ont déjà annoncé des accès anticipés. Pour les équipes qui utilisent des API comme Bedrock ou Vertex AI, cela se traduira en pratique par des latences réduites et des prix au million de tokens en baisse.

Le calendrier reste le principal point d'incertitude. NVIDIA dit que la production est lancée, mais la disponibilité publique via les cloud providers n'est attendue que pour la fin 2026. Les projets en cours peuvent continuer sur Blackwell. La migration, elle, n'est pas urgente.

Sources : NVIDIA Developer Blog · VideoCardz · ServeTheHome · NVIDIA Vera Rubin NVL72