Cartes Graphiques
A la Une

Test GeForce RTX 5060 Ti Gaming OC 16G de Gigabyte

La reine du Full HD ?

Architecture Blackwell

Après des semaines pour ne pas dire des mois de rumeurs, les GeForce RTX 50 series se déploient au catalogue de Nvidia. Elles profitent d’une nouvelle architecture connue sous le nom de Blackwell. Le programme est chargé avec des nouveautés dans de nombreux domaines allant de la mémoire au cœur RT en passant par les nuanceurs neuronaux sans oublier l’interface PCIe et bien d’autres choses.

Architecture BlackwellL’architecture graphique Blackwell préfigure-t-elle une nouvelle direction dans le développement de solution graphique plus performante ? C’est probable car le secteur est de plus en plus confronté à des défis physiques complexes au point de ralentir fortement la loi de Moore. Cette dernière est heureusement empirique.

Elle est à considérer comme une prédiction annonçant un doublement du nombre de transistors présents sur une puce tous les deux ans. Si elle s’est révélée exacte dans un premier temps, elle est surtout devenue une sorte de phare guidant, sur l’océan de l’innovation technique, les bateaux de géant de la High Tech. Il est donc logique que Nvidia redouble d’efforts au travers de solutions techniques pour tenter d’accomplir un nouveau bond en matière de performance.

RTX 50 Vs RTX 40 Vs RTX 30
RTX 50 Vs RTX 40 Vs RTX 30

L’une des voies empruntée est le rendu neuronal. Elle n’est pas nouvelle puisque nous la connaissançons depuis plusieurs années au travers de la technologie DLSS (Deep Learning Super Sampling). Le rendu neuronal est un terme générique représentant des techniques exploitant des modèles d’apprentissage automatique pour générer et améliorer des éléments visuels comme les textures, les éclairages, les détails ou encore la définition (mise à l’échelle d’images).

L’idée derrière tout ceci est de proposer des cartes graphiques offrant une qualité d’image Premium en haute définition avec d’imposants Framerates en réduisant le plus possible les charges de calcul.

Architecture Blackwell

Une fois tout ceci précisé, il n’est pas surprenant qu’une grande partie des améliorations proposées par l’architecture graphique Blackwell visent des optimisations pour le rendu neuronal. Nous retrouvons une mécanique orientée vers les réseaux neuronaux dans le sens où elle est pensée pour leurs algorithmes tout en réduisant l’empreinte mémoire afin d’augmenter les possibilités de calculs en parallèle et de manière plus globale les performances.

Architecture Blackwell

Nvidia explique que Blackwell est aussi censé garantir un juste équilibre entre différentes tâches. En effet si le parallélisme est l’une des clés pour une montée en puissance des performances, tout ne peut pas être traité de cette manière. Malheureusement que l’on parle de rendu ou de tâches d’IA ou encore de simulation physique, la charge de travail est accomplie de manière asynchrone. Il faut donc s’assurer que les processus sont équilibrés et gérés efficacement pour les ressources matérielles afin de limiter les goulots d’étranglement, les files d’attentes et les besoins en ressources.

Architecture BlackwellLa VRAM (mémoire vidéo) adopte la norme GDDR7 doublant ainsi la vitesse de la GDDR6 tout en réduisant de moitié sa consommation énergétique. De plus, elle repose sur la signalisation PAM3, une technologie qui améliore l’immunité au bruit, autorisant des fréquences plus élevées. Ce choix se traduit par une bande passante en nette progression et une efficacité énergétique optimisée.

Architecture Blackwell

Blackwell s’arme de cœurs Tensor de cinquième génération disposant comme nous venons de le souligner d’optimisation pour le rendu neuronal. Ils gèrent également la précision INT4 et FP4 qui augmente considérablement les transferts de données tout en réduisant les besoins en mémoire. Pourquoi ? Les opérations RT peuvent s’exécuter dans ces formats de données plus petits et de moindre précision ce qui accélère les calculs et diminue les besoins en VRAM.  Par contre, une perte de précision est de la partie.

Nous retrouvons des cœurs RT (Ray Tracing) de quatrième génération mieux armée pour la méga géométrie. En clair, leur mécanique assure le traitement des scènes plus grandes et plus complexes tout en garantissant de meilleures performances en géométrie standard et avancée. Pour y parvenir, un moteur d’intersection de clusters triangulaires conçu spécifiquement pour gérer la méga-géométrie débarque. L’idée est d’associer un format de compression de cluster triangulaire et un moteur de décompression sans perte afin d’être plus efficace dans le traitement de géométries complexes. Face à Ada Lovelace (RTX 40 series), le débit triangulaire double et les calculs de ray tracing deviennent plus efficaces.

Les SMs (Multiprocesseurs de shader) ont été optimisés pour les nuanceurs neuronaux au travers d’une bande passante deux fois plus importante et de débits boostés pour la gestion de tâches complexes impliquant par exemple l’apprentissage profond et l’ombrage neuronal. A tout ceci s’ajoute un doublement de la bande passante et du débit INT32 en donnant à tous les cœurs de shader la possibilité d’exécuter INT32 ou FP32. De plus, une nouvelle API est annoncée, DirectX Cooperative Vectors permettant d’accéder aux cœurs Tensor à partir des shaders. Dans le même esprit le SER, l’entité (des shaders en réalité) générant du travail pour d’autres shaders, est deux fois plus efficace.

Sans vraiment s’en rendre compte nous vivons un changement important dans le domaine du jeu vidéo, celui de L’intégration de modèles d’intelligence artificielle. Si l’espoir de plus d’intelligence, d’interaction, d’immersion et bien d ‘autre chose sont là, cette avancée s’accompagne de nouveaux défis pour garantir une expérience fluide et réactive. La première est de mettre de l’ordre dans les calculs au travers d’une planification minutieuse car le rendu des graphismes et les tâches liées à l’IA sont deux choses différentes mais doivent être en accord pour une expérience gaming fluide et agréable. Du coup si les délais dans les réponses de l’IA nommé « temps de première réponse » sont importants la notion d’immersion est fortement compromise, tandis que les interruptions dans le rendu (la fréquence des images par seconde) entraînent des saccades.

Architecture BlackwellPour répondre à ces défis, NVIDIA introduit l’AMP (AI Management Processor), un processeur de gestion de l’IA. Programmable, il est placé en amont du GPU et son rôle est d’assurer une planification des tâches. Il permet aux processus d’IA, comme la génération de dialogues, de fonctionner sans perturber le rendu des jeux. L’AMP est donc une sorte de contremaitre en charge de planifier les tâches d’IA en même temps que le rendu graphique. Sa mission est de toute faire pour que les charges de travail complexes profitent d’un traitement fluide et performant.

L’architecture Blackwell profite d’optimisation en matière de gestion de l’alimentation. Elles concernent différents aspects comme un deuxième rail de tension permettant aux systèmes de cœur et de mémoire de fonctionner à des tensions différentes. A cela s’ajoutent un réglage de la fréquence plus rapide et dynamique en temps réel ainsi que la mise en œuvre d’états d’alimentation dits « profonds » (modes veilles). Cela signifie que le GPU est censé entrer et sortir de différents états d’économie d’énergie presque instantanément tout en pouvant, selon les circonstances, arrêter certaines de ses parties pour économiser de l’énergie tout en restant réactifs en cas de besoin.

Traitement vidéo

Architecture BlackwellDu côté de l’encodeur et du décodeur, l’architecture Blackwell améliore les traitements vidéo. Nvidia ajoute la prise en charge de l’AV1 Ultra High Quality, de l’AQBC (Adaptive Quality-Based Compression) multi-vues et l’encodage et le décodage 4:2:2 H.264/H265 tandis que le débit est doublé en décodage H.264, une norme de compression vidéo populaire. Tout ceci est possible à l’aide de décodeurs optimisés. Ces derniers assurent aussi le traitement de plusieurs flux 4K simultanément, un atout pour les configurations multi-caméras comme les podcasts ou les événements en direct. Pour un seul flux, les performances bénéficient d’un traitement parallèle des trames, et les nouvelles techniques d’encodage augmentent la qualité vidéo jusqu’à 5 %, tout en optimisant la taille des fichiers.

Blackwell prend en charge DP 2.1 avec UHBR20, soit la possibilité de profiter d’une définition 8K à 60 Hz via un seul câble.

DLSS 4.0 et Reflex 2

Technologie DLSS 4
Technologie DLSS 4

Nvidia annonce également le DLSS 4, une avancée de la technologie Deep Learning Super Sampling.  Cette version introduit la Génération Multi-Images, capable de générer jusqu’à trois images additionnelles pour chaque image rendue traditionnellement, multipliant ainsi les taux de rafraîchissement jusqu’à 8 fois par rapport à un rendu classique.  Cette amélioration promet du gaming en 4K à 240 images par seconde avec du Ray Tracing complet.

Technologie DLSS 4
Technologie DLSS 4

Le DLSS 4 bénéficie de nouveaux modèles d’intelligence artificielle basés sur des transformeurs, similaires à ceux utilisés dans des technologies comme ChatGPT. Ces modèles améliorent la stabilité temporelle, réduisent les effets de ghosting et augmentent le niveau de détail en mouvement.  De plus, NVIDIA introduit la fonctionnalité DLSS Override, permettant aux utilisateurs d’appliquer DLSS 4 dans des jeux compatibles avec les versions précédentes, même sans mise à jour directe de la part des développeurs.

Au lancement, prévu pour le 30 janvier 2025, plus de 75 jeux et applications prendront en charge la Génération Multi-Images, dont des titres phares comme Alan Wake 2 et Cyberpunk 2077.  Les nouvelles cartes graphiques GeForce RTX série 50, telles que la RTX 5090 et la RTX 5080, seront les premières à intégrer pleinement le DLSS 4, offrant normalement des performances doublées par rapport à la génération précédente.

Nvidia a également mis l’accent sur la réduction de la latence, un autre aspect essentiel des performances en jeu. Avec plus de 120 titres intégrant Reflex, il est logique que cette technologie évolue aussi avec l’arrivée de Reflex 2. L’introduction de la fonctionnalité Frame Warp permet de diminuer la latence jusqu’à 75% en actualisant l’image du jeu en fonction du dernier mouvement de la souris, juste avant son affichage à l’écran.  Ce Frame Warp fonctionne en calculant la position de la caméra du prochain cadre en se basant sur les entrées récentes du joueur. Cette technique ajuste l’image rendue pour refléter les mouvements les plus récents, améliorant ainsi la réactivité.

Reflex 2 sera initialement disponible avec les GeForce RTX 50 et sera intégré prochainement dans des titres tels que THE FINALS et VALORANT. Un support pour d’autres GPU GeForce RTX est prévu dans une mise à jour future.

IA, l’avenir de l’innovation ?

Nvidia tente d’améliorer les graphiques en temps réel en introduisant plusieurs innovations à travers d’outils et de technologies intégrant des techniques neuronales directement dans le pipeline graphique. Ces nouveautés promettent de redéfinir les possibilités en termes de réalisme visuel et d’efficacité, et ouvrent la voie à des applications plus avancées pour les développeurs.

Jusqu’ici, accéder aux Tensor Cores via une API graphique n’était pas possible. Avec l’introduction des Cooperative Vectors dans l’API DirectX et du nouveau langage d’ombrage, le Slang, NVIDIA permet aux développeurs de tirer parti des capacités neuronales pour remplacer des parties du pipeline graphique classique. Slang facilite la manipulation des fonctions complexes en les divisant en segments modulaires. Cette fonctionnalité étant intégrée à une API standard de DirectX, elle peut être adoptée par AMD et Intel dans leurs pilotes.

Les matériaux neuronaux proposent de remplacer les shaders classiques par une représentation compressée basée sur des réseaux neuronaux. L’objectif est naturellement de réduire les besoins en puissance de calcul. Cette approche permet un taux de compression allant jusqu’à 7:1 tout en proposant des matériaux dit « réalistes » en temps réel en limitant l’impact des ressources.

Le NRC, alias le Neural Radiance Cache, utilise un réseau neuronal entraîné dynamiquement pour estimer l’éclairage indirect avec précision. En retraçant seulement 1 à 2 rayons, il tente de générer un éclairage plus réaliste tout en minimisant l’impact sur les performances. Cette technologie, intégrée au SDK RTX Global Illumination, sera disponible prochainement dans des projets comme Portal with RTX et RTX Remix.

Dans le même esprit, le RTX Neural Faces promet des visages réalistes grâce à l’IA générative. Une nouvelle méthode est proposée pour améliorer le rendu des visages en temps réel grâce à l’IA. En transformant un visage rastérisé et des données de pose 3D, un modèle génératif produit des visages naturels basés sur un entraînement à partir de milliers d’images. Ce pipeline s’enrichit avec le SDK RTX Character Rendering, qui améliore le réalisme de la peau et des cheveux. Ces derniers profitent du LSS alias le Linear-Swept Spheres (LSS) qui remplace les triangles par des sphères, réduisant la complexité géométrique tout en augmentant la précision et les performances en Ray Tracing. Cela participe à réduire l’empreinte mémoire tout en optimisant le rendu des cheveux en temps réel.

Enfin, le RTX Mega Geometry autorise l’utilisation de maillages haute définition directement dans des scènes en Ray Tracing, éliminant le besoin de maillages basse résolution. Cette technologie multiplie par 100 la densité de triangles RT tout en maintenant les performances grâce à des techniques de compression.  De son coté, les Opacity Micro-Maps optimisent le rendu des matériaux complexes, facilitant l’intégration de scènes photoréalistes riches en détail avec un éclairage réaliste.

Le dernier algorithme ReSTIR optimise le traçage des chemins lumineux, se concentrant sur les rayons les plus pertinents pour un éclairage dynamique. Associé à RTX Global Illumination, qui utilise l’IA pour réduire les exigences de calcul des rebonds lumineux, il promet un réalisme accru sans sacrifier les performances.

Avec ces innovations, Nvidia promet de transformer la création de contenus graphiques et interactifs en temps réel. Tout ceci annonce sur le papier des possibilités inédites pour les jeux vidéo, la simulation et la production cinématographique.

Information supplémentaire

De manière plus générale, l’IA est aujourd’hui omniprésente. Nous la retrouvons dans la création de contenu, le streaming, la vidéoconférence ou encore les outils de productivité et le gaming. Elle modifie également le développement logiciel. Traditionnellement basé sur du code exécuté par le processeur, ce dernier s’appuie désormais sur des réseaux neuronaux entraînés sur des GPU pour plus de flexibilité et d’adaptabilité. L’émergence de l’IA générative facilite l’accès à ces outils. Avec des solutions low-code ou no-code, des API permettent de développer rapidement des applications intégrant du texte, des images, de la 3D ou de la voix, élargissant l’audience du développement à des profils variés.

Pour accompagner ces évolutions, Nvidia est à l’origine de microservices NIM (NVIDIA Inference Models), des modèles d’IA optimisés pour ses GPU RTX. Disponibles dès février, ces conteneurs Docker simplifient l’intégration des fonctionnalités IA dans les applications (ChatRTX, AnythingLLM, ComfyUI et LM Studio).

Il y a aussi les outils Crew.AI ou ComfyUI pour développer sans expertise avancée. Grâce à Windows Subsystem for Linux (WSL), l’intégration des charges de travail IA sur PC Windows s’harmonise avec le cloud, rendant ces outils accessibles localement et en ligne.

Page précédente 1 2 3 4 5 6 7 8 9 10 11Page suivante

Jérôme Gianoli

Aime l'innovation, le hardware, la High Tech et le développement durable. Soucieux du respect de la vie privée.

4 commentaires

  1. [ Il faut donc s’assurer que les processus sont équilibrés et gérés
    efficacement pour les ressources matérielles afin de limiter les
    goulots d’étranglement ] (page 2)

    Les ravages de l’alcool… :o)

  2. [ A noter que le ventilateur central tourne dans le sens opposé des
    deux autres pour minimiser les turbulences. ] (page 4)

    Encore une fausse bonne idée pour minimiser les performances puisque
    pour arracher les calories il faut maximiser les turbulences.

    Par ailleurs, je ne suis pas convaincu que faire tourner le ventilateur
    central en sens opposé change quoi que ce soit au niveau de la
    pression de l’air sur le PCB puisque ce sont tous trois des
    ventilateurs axiaux orientés en compression cependant les cônes de
    turbulence entrent en opposition ce qui de mon point vue malgré la
    compressibilité de l’air engendre une contre-réaction sur les turbines
    des ventilateurs dégradant performances et durée de vie (cf. appel de
    courant).

    1. [ les cônes de turbulence entrent en opposition ]

      Errare humanum est

      Ma modélisation semble défaillante puisqu’en assimilant les cônes
      à des engrenages ceux-ci ne serait PAS en opposition.

  3. [ En forte sollicitation et dans le temps, la hausse de température
    est maitrisée. Le VRAM se stabilise à 62°C contre 60°C environ pour
    le GPU. ] (page 5)

    Quid du hotspot? (cf. VRM)

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Bouton retour en haut de la page