Les types de RAM GDDR7 et LPDDR6 ainsi que PCI Express 6.0 marquent le début du prochain changement de génération vers une mémoire vive et des interfaces encore plus rapides. Mais les planifications pour HBM4, DDR6 et PCIe 7.0 sont déjà en cours. Un aperçu de la situation.
Dans tous les cas, l’objectif est avant tout d’augmenter le taux de transfert des données. En effet, les processeurs graphiques et les accélérateurs d’intelligence artificielle profitent tout particulièrement d’une RAM rapide. Et comme les accélérateurs d’IA sont intégrés dans de plus en plus de CPU ou de systèmes sur puce en tant que Neural Processing Units (NPU), une RAM plus rapide promet des avantages. Contrairement au code CPU ou aux jeux PC, les caches rapides ne sont pas aussi efficaces pour les modèles d’IA de plusieurs gigaoctets, car les caches sont beaucoup trop petits pour ces tâches.
Pour parvenir à des taux de transfert de données plus élevés, des modifications sont nécessaires, par exemple dans le processus de modulation des signaux de données. En outre, certains changements de génération sont liés entre eux. Ainsi, les futurs serveurs équipés de PCIe 6.0 ou 7.0 auront besoin d’une RAM nettement plus rapide afin d’exploiter le taux de transfert de données PCIe plus élevé – les données doivent en effet circuler quelque part.
De plus, les spécifications de la DDRx et de la LPDDRx de la même génération visent la plus grande similitude possible afin d’économiser les efforts de développement.
Plus de bits par pas d’horloge
Le procédé Double Data Rate (DDR) transfère deux bits de données par pas d’horloge afin d’augmenter le taux de transfert. Le concept atteint un jour ses limites, par exemple parce qu’il y a trop d’erreurs de transmission, parce qu’il n’est plus possible de franchir des chemins de ligne suffisamment longs ou parce que les circuits d’émetteur-récepteur internes (pilotes de ligne) des puces deviennent trop compliqués et trop chers.
C’est pourquoi de nombreuses nouvelles générations de RAM et d’interconnexions utilisent des méthodes qui transfèrent plus d’un bit (0 ou 1) par transfert, par exemple à l’aide de la modulation d’amplitude d’impulsion (PAM) avec trois ou quatre niveaux de tension (PAM3, PAM4). En outre, des méthodes de correction supplémentaires ou améliorées peuvent réduire le taux d’erreur binaire (Bit Error Rate, BER).
Selon l’application, différentes méthodes de modulation et de correction d’erreurs conviennent mieux. Dans le cas de la RAM DDR, il s’agit de nombreuses puces sur des modules sur un bus commun, qui n’a certes pas de très longues lignes, mais plusieurs points de perturbation : Douilles DIMM, douilles CPU, contacts à souder. La LPDDR peut avoir une fréquence d’horloge plus élevée parce que les puces DRAM sont soudées ou placées sur un module de mémoire à compression optimisée (CAMM). Pour la RAM, les faibles latences sont plus importantes que pour le PCI Express, où il faut des lignes et même des câbles plus longs, mais aussi peu nombreux que possible.
GDDR7 pour les GPU
Les puces GDDR7 pourraient être lancées dès cette année 2024, sur des cartes graphiques de type Nvidia RTX 5000 « Blackwell ». L’organe de spécification JEDEC a déjà publié la spécification GDDR7 en mars.
Alors que les GDDR6 et GDDR6X transmettent au maximum 24 gigabits par seconde (Gbit/s), la GDDR7 pourrait commencer avec 32 Gbit/s et monter jusqu’à 48 Gbit/s au fil du temps. Une seule puce avec 32 lignes de signaux de données (x32) fournirait alors 192 Goctets/s. Un GPU avec 512 lignes de mémoire atteindrait même 2 TByte par seconde avec les premières puces de 32 Gbit/s. Actuellement, cela n’est possible qu’avec de la High-Bandwidth Memory (HBM) beaucoup plus coûteuse.
Micron est actuellement le seul fabricant de GDDR6X et utilise pour cela PAM4 pour transmettre deux bits par transfert. Lors du JEDEC, les entreprises se sont mises d’accord sur PAM3 pour la GDDR7. Un mot de données de 256 bits est encodé et transféré en huit cycles de transfert successifs. Selon Cadence, PAM3 promet un meilleur rapport signal/bruit (SNR) et une plus grande tolérance de tension que PAM4, il est donc plus résistant aux perturbations.
Une autre nouveauté de la GDDR7 est qu’un canal x32 peut être divisé en quatre canaux de 8 bits. Cela peut présenter des avantages lorsque le GPU travaille en parallèle sur différentes plages d’adresses.
LPDDR6 pour smartphones, ordinateurs portables et HPC
Le JEDEC travaille déjà sur la LPDDR6-SDRAM, mais ne donne pas encore de date. Selon les spéculations, le processeur de smartphone Snapdragon 8 Gen 4 de Qualcomm, attendu pour l’automne et doté de noyaux ARM très puissants, pourrait déjà être équipé pour la LPDDR6.
Certains détails concernant la LPDDR6 ont déjà été rendus publics. Par rapport à la RAM LPDDR5X-9600, la plus rapide actuellement, le taux de transfert pourrait atteindre 10,667 à 14,4 Gbit/s (LPDDR6-10677, LPDDR6-14400). Cela semble être une faible augmentation, mais en même temps, 24 bits par transfert devraient être transférés au lieu de 16. Au lieu de puces x16 et x32, on prévoit donc des puces x24, dans lesquelles ce canal plus large peut toutefois être divisé en deux sous-canaux x12. De tels sous-canaux existent également sur les DIMM DDR5, mais ils ont chacun une largeur de 32 bits.
Le saut de 9,6 milliards de transferts de 16 bits (9,6 GT/s × 2 octets = 19,2 Go/s) à 10,667 GT/s × 24 bits (32 Go/s) serait considérable.
Outre les smartphones, la DDR-SDRAM basse consommation (LP) est utilisée depuis longtemps dans les ordinateurs portables. Avec le modèle LPCAMM2, des modules LPDDRx enfichables, donc remplaçables ultérieurement, sont désormais disponibles.
Certains fabricants utilisent également la RAM LPDDR pour obtenir des taux de transfert de RAM particulièrement élevés grâce à un grand nombre de canaux, comme Apple avec les processeurs Mx et Nvidia avec le processeur de serveur ARM Grace.
Taux de transfert de données des types de RAM et de PCIe actuels et futurs
Classe de vitesse Taux de transfert
Broche/Voie | Puce/Module/Carte | Débit | Direction |
---|---|---|---|
DDR5-5600 | 5,60 Gbit/s | 44,8 Go/s | Bidirectionnel |
DDR5-7200 | 7,20 Gbit/s | 57,6 Go/s | Bidirectionnel |
MCR-DIMM (multiplexage par rang) | 4,40 Gbit/s | 70,4 Go/s | Bidirectionnel |
DDR5-8800 | 8,80 Gbit/s | 70,4 Go/s | Bidirectionnel |
DDR6-9600 | 9,60 Gbit/s | 76,8 Go/s | Bidirectionnel |
DDR6-17600 | 17,60 Gbit/s | 140,8 Go/s | Bidirectionnel |
DDR6-21000 (MCR ?) | n.d. | 168,0 Go/s | Bidirectionnel |
LPRDDR5X-9600 x16 | 9,60 Gbit/s | 19,2 Go/s | Bidirectionnel |
GDDR7, x512 | 48,00 Gbit/s | 3072,0 Go/s | Bidirectionnel |
PCIe 7.0 x16 | 128 GT/s | 256,0 Go/s | Bidirectionnel |
NVLink Gen 5 x18 | 100 GT/s | 900,0 Go/s | Bidirectionnel |
DDR6 pour les ordinateurs de bureau et les serveurs
On sait encore peu de choses sur la SDRAM DDR6, mais des travaux préparatoires sont apparemment en cours. Il y a quelques mois, des diapositives de présentation ont été publiées, selon lesquelles un groupe de travail prévoit une ébauche en 2024 ; une première spécification devrait ensuite être publiée en 2025. On peut se demander si des processeurs compatibles DDR6 verront le jour avant 2027.
Le JEDEC a spécifié la DDR5 jusqu’à la DDR5-8800, il existe en outre pour certains serveurs des DIMM avec Multiplexer Combined Ranks (MCR-DIMM), qui permettent des taux de transfert encore plus élevés. Selon les spéculations, la DDR6 pourrait également démarrer à 8,8 Gbit/s (DDR-8800) et être spécifiée dans un premier temps jusqu’à la DDR6-17600, puis plus tard également avec la DDR6-21000.
Il n’a pas encore été décidé si la DDR6 utilisera des méthodes telles que PAM3 ou PAM4. Il semble toutefois peu probable que la LPDDR6 s’en tienne à la signalisation DDR actuelle et mise à la place sur des canaux plus larges. Il se pourrait toutefois que la DDR6 ne prévoie plus qu’un seul module par canal (1 DIMM per Channel, 1DPC) à des fréquences très élevées. C’est également le cas pour les DIMM MCR. Le JEDEC pourrait intégrer la technique MCR dans la norme DDR6 et transformer ainsi la DDR6-10500 en DDR6-21000 par multiplexage de rang en un clin d’œil. Le taux de transfert de données de 168 Go/s par canal qui en résulte ne sera probablement important à long terme que pour les serveurs HPC spéciaux.
HBM4 pour les accélérateurs d’IA
Le CEO de Nvidia Jensen Huang a annoncé à l’occasion du Computex 2024 les générations de puces Vera Rubin, c’est-à-dire le processeur ARM « Vera » et l’accélérateur d’IA « Rubin » qui l’accompagne. Ce dernier doit utiliser la High-Bandwidth Memory de la quatrième génération, c’est-à-dire HBM4, et ce soit huit piles (8 piles, Rubin) ou même 12 piles pour Vera Ultra.
L’accélérateur Nvidia H200 « Hopper » (encore) actuel avec 144 Go de HBMe3 possède six piles de 24 Go avec chacune huit couches de puces (8-Hi HBM3e). Chaque pile fournit 0,8 TByte/s, les six ensemble donc 4,8 TByte/s.
Selon Micron, une pile HBM3e peut atteindre 1,2 TByte/s. Avec huit piles, il serait déjà possible d’atteindre 9,6 TByte/s avec HBM3e ; selon une ancienne feuille de route de Micron, plus de 1,5 TByte/s sont prévus par pile pour HBM4 et environ 2 TByte/s pour HBM4e, soit 25 à 66 pour cent de plus que pour HBM3e. HBM4 pourrait arriver en 2025 ou plutôt en 2026.
PCIe 6.0 et 7.0
La spécification PCI Express 6.0 avec 64 GT/s par voie a été publiée il y a plus de deux ans déjà. Elle a non seulement introduit le PAM4, mais aussi une meilleure correction d’erreurs par Forward Error Correction (FEC) de paquets de données définis, appelés Flow Control Units (FLIT).
Mais jusqu’à présent, aucun matériel PCIe 6.0 n’est encore commercialisé. Selon les spéculations, Intel pourrait présenter en 2025 les processeurs pour serveurs de la génération Xeon 7 « Diamond Rapids » avec PCIe 6.0.
En raison du long retard de PCIe 4.0, le passage à PCIe 5.0 a eu lieu relativement peu de temps après. Il semble maintenant que plusieurs années se soient écoulées entre les changements de génération. Le matériel PCIe 7.0 et 128 GT/s par voie serait alors disponible au plus tôt en 2027 ou 2028.
La comparaison entre les taux de transfert de données PCIe et RAM n’est pas pertinente, car une voie PCIe peut effectivement transférer des données simultanément dans les deux sens. Mais le contrôleur de mémoire du GPU ou du GPU ne peut que lire ou écrire sur un canal de RAM. Le tableau ci-dessus indique donc les taux de transfert de données par direction.