Home Sciences et technologies NVIDIA RTX 5090 RESET BOG BUG: 1 000 $ Récompense pour le correctif

NVIDIA RTX 5090 RESET BOG BUG: 1 000 $ Récompense pour le correctif

0 comments 53 views

Nouveau RTX 5090 et les GPU RTX Pro 6000 seraient en proie à un bug de réinitialisation de virtualisation reproductible qui peut laisser les cartes complètement insensibles jusqu’à ce que le système hôte soit redémarré physiquement.

Cloudrift, un fournisseur de cloud GPU, a publié une ventilation détaillée du numéro après l’avoir rencontrée sur plusieurs systèmes équipés de Blackwell en production. La société a même émis une prime de bogue public de 1 000 $ pour que quiconque puisse identifier un correctif ou une cause profonde.

Réinitialiser les briques de bug noir

Selon les journaux de Cloudrift, le bogue se produit une fois qu’un GPU a été transmis à une machine virtuelle à l’aide de KVM et VFIO. Lors de l’arrêt des invités ou de la réaffectation GPU, l’hôte émet une réinitialisation au niveau de la fonction PCIE (FLR), qui fait partie du nettoyage d’un appareil à passe. Mais au lieu de revenir à un état connu, le GPU ne répond pas: «Pas prêt 65535ms après FLR; abandon», rapporte le noyau.

À ce stade, la carte devient également illisible avec LSPCI, qui lance «un en-tête inconnu 7F», Errors. Tiny Corp, la start-up de l’IA derrière Tinygrad, a attiré l’attention sur le problème en republiant les conclusions de Cloudrift sur X.com avec une question franc: «Faites les années 5090 et RTX Pro 6000s ont un défaut matériel? Nous avons regardé

Les GPU nvidia rencontrant des problèmes de réinitialisation avec FLR, impactant la virtualisation et les charges de travail de l’IA

Un problème critique affecte les GPU NVIDIA, provoquant un comportement de réinitialisation du niveau de fonction non fiable (FLR). Cela a un impact sur les configurations de passe-passe GPU, éventuellement déstabilisant les charges de travail AI multi-locataires et les configurations de laboratoire à domicile qui reposent sur la virtualisation. Le problème peut entraîner une défaillance d’une seule carte faisant tomber l’ensemble du système hôte.

Qu’est-ce que FLR et pourquoi est-ce important?

La réinitialisation du niveau de fonction (FLR) est une caractéristique cruciale pour le GPU Passthrough. Ceci est particulièrement important dans les environnements où les ressources sont allouées dynamiquement, telles que le cloud computing, l’avancement de l’IA et les laboratoires de virtualisation domestique. Sans FLR fiable, migrer en toute sécurité un GPU entre les machines virtuelles devient risqué et une défaillance du GPU peut avoir des effets en cascade.

Le problème actuel et son impact

Les utilisateurs rapportent que les GPU NVIDIA connaissent un comportement FLR peu fiable. Cela signifie que le processus de réinitialisation ne fonctionne pas systématiquement comme prévu, conduisant à l’instabilité et aux accidents de système potentiels. L’impact est significatif pour ceux qui utilisent la virtualisation du GPU:

Charges de travail AI: Les environnements d’IA multi-locataires, où plusieurs utilisateurs ou applications partagent des ressources GPU, sont particulièrement vulnérables. Un FLR peu fiable peut perturber les processus de formation et d’inférence.
Home Labs: Des amateurs et des développeurs utilisant la virtualisation pour Home Labs peuvent subir une instabilité et une perte de données si un GPU ne parvient pas à se réinitialiser correctement.
* Stabilité globale du système: Dans les cas graves, un FLR défectueux peut provoquer une écrasement de l’ensemble du système hôte, conduisant à des temps d’arrêt et à une corruption potentielle des données.

La réponse et l’atténuation de Nvidia

À ce jour, le 21 novembre 2023, Nvidia n’a pas officiellement reconnu la question publiquement. De plus, il n’y a actuellement aucune solution de contournement ou atténuation connue des utilisateurs. L’absence d’une réponse officielle est préoccupante à la communauté, car le problème a un impact direct sur la fiabilité de leurs configurations matérielles et logicielles.

Rester à jour

Pour les dernières données sur ce problème de développement, suivez le matériel de Tom sur Google News ou Ajoutez-nous comme source préférée pour recevoir nos nouvelles, analyses et critiques à jour.

Leave a Comment

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.