GDDR7 s’attaque à l’inférence d’IA en contexte massif

Publié le 2025-10-16 09:31:00. L’accélération de l’intelligence artificielle impose de repenser les solutions mémoire pour concilier hautes performances et efficacité énergétique, particulièrement à mesure que l’inférence se déploie sur les serveurs et les appareils en périphérie.

NVIDIA présente le GPU Rubin CPX, doté de 128 Go de mémoire GDDR7, pour l’inférence massive et les charges de travail complexes.
La mémoire GDDR7 offre une bande passante élevée (jusqu’à 32 GT/s par broche) et une meilleure rentabilité que la mémoire HBM pour l’inférence.
Rambus propose une IP de contrôleur mémoire GDDR7 optimisée pour les accélérateurs d’IA, visant à accélérer la mise sur le marché.

Le paysage technologique de l’intelligence artificielle évolue à un rythme effréné, plaçant la mémoire au cœur de cette révolution. NVIDIA a récemment dévoilé le Rubin CPX, une nouvelle génération de GPU conçue spécifiquement pour l’inférence à grande échelle, capable de traiter des millions de jetons. Cette avancée répond aux besoins croissants en matière de vidéo générative de longue durée, de développement logiciel complexe et d’applications d’IA multimodales. L’intégration de 128 Go de mémoire GDDR7 sur le Rubin CPX est un facteur clé de cette performance accrue.

Le Rubin CPX est particulièrement optimisé pour la phase contextuelle de l’inférence, où les grands modèles de langage (LLM) traitent d’importants volumes de données d’entrée. En exploitant le GDDR7, NVIDIA parvient à offrir une bande passante substantielle à un coût et une complexité moindres que les solutions basées sur la mémoire à haute bande passante (HBM). Cette stratégie s’inscrit dans une tendance plus large de désagrégation des charges de travail d’inférence pour gagner en efficacité. Tandis que le Rubin CPX gère le contexte, d’autres GPU ou accélérateurs peuvent prendre en charge la génération, optimisant ainsi les performances pour les hyperscalers et les entreprises.

L’inférence se distingue fondamentalement de l’entraînement des modèles d’IA. Si l’entraînement requiert une bande passante et une capacité mémoire extrêmes, l’inférence privilégie la vitesse de débit et une faible latence, essentielles pour les applications en temps réel telles que la conduite autonome, l’analyse vidéo et la conversation IA. C’est dans ce domaine que le GDDR7 excelle grâce à plusieurs atouts :

Bande passante élevée : Le GDDR7 peut atteindre jusqu’à 32 GT/s par broche, offrant une bande passante de 128 Go/s par appareil, soit plus du double du LPDDR5X et significativement plus que les alternatives DDR. Sa feuille de route prévoit une évolution jusqu’à 48 GT/s, atteignant 192 Go/s par appareil.
Rentabilité : Contrairement au HBM, le GDDR7 utilise des boîtiers et des technologies de circuits imprimés standard, évitant ainsi les coûts élevés de l’intégration 2.5D. Cela se traduit par une réduction des coûts de fabrication et de la complexité d’intégration.
Signalisation avancée : Le passage au codage PAM3 (Pulse Amplitude Modulation 3) permet une augmentation de 50% de la transmission de données par rapport à la signalisation NRZ (Non-Return-to-Zero) du GDDR6, autorisant des vitesses de signalisation plus élevées sans augmentation proportionnelle de la fréquence d’horloge.

Par exemple, un moteur d’inférence visant une bande passante de 500 Go/s peut y parvenir avec seulement quatre modules DRAM GDDR7, réduisant considérablement les efforts de conception et les coûts associés.

Alors que l’inférence IA s’étend des centres de données hyperscale vers les serveurs et les appareils en périphérie, les solutions mémoire doivent impérativement équilibrer performances, coûts et efficacité énergétique. Le GDDR7 répond à ces trois impératifs, s’imposant comme la mémoire de prédilection pour les accélérateurs d’inférence de nouvelle génération. Que ce soit pour l’analyse vidéo en temps réel dans les villes intelligentes ou l’IA multimodale sur les appareils grand public, le GDDR7 fournit la bande passante et la latence nécessaires tout en s’appuyant sur des architectures de circuits imprimés standard.

Si le GDDR7 pose les bases matérielles, le contrôleur mémoire du GPU est déterminant pour l’exploitation optimale de cette bande passante. Rambus propose une propriété intellectuelle (IP) de contrôleur mémoire GDDR7 conçue pour les accélérateurs d’IA et les GPU haute performance, offrant plusieurs avantages clés :

Débit de pointe : Prise en charge jusqu’à 40 Gbit/s par broche, offrant 160 Go/s par appareil.
Efficacité optimisée : Le séquençage avancé des commandes maximise l’utilisation du bus, tandis que la prise en charge de multiples ports AXI et la mise à l’échelle dynamique de la fréquence garantissent des conceptions flexibles et économes en énergie.
Fiabilité et maintenabilité : Des fonctionnalités telles que la parité de bout en bout du chemin de données, l’ECC (Error Correction Code) et le rapport d’erreurs améliorent la robustesse pour les charges de travail IA critiques.
Conception évolutive : La prise en charge complète de la signalisation PAM3 et l’intégration avec des PHY tiers assurent la compatibilité avec les normes GDDR7 en évolution.

Pour les concepteurs d’accélérateurs d’IA, l’IP Rambus accélère le temps de mise sur le marché tout en fournissant les performances requises à mesure que les modèles gagnent en complexité et que l’inférence multimodale en périphérie devient la norme.

Nidish Kamath

(tous les messages)

Nidish Kamath est directeur de la gestion des produits chez Rambus.

GDDR7 s’attaque à l’inférence d’IA en contexte massif

Nidish Kamath

Related

Leave a Comment Cancel Reply

À propos de nous

GDDR7 s’attaque à l’inférence d’IA en contexte massif

Nidish Kamath

Partager :

Related

Leave a Comment Cancel Reply

Les professeurs et les étudiants perfectionnent leurs compétences pour fournir et amplifier les services de vulgarisation

The Miz révèle le pitch Wild WrestleMania 35 de Shane McMahon

Tu pourrais aussi aimer

À propos de nous