Tajemniczy błąd w topowych kartach Nvidii. Firma szuka rozwiązania, a inni oferują 1000 dolarów nagrody
Karty graficzne NVIDIA RTX 5090 i RTX PRO 6000 są nękane przez dziwne błędy, wynikające ze standardowego resetu funkcjonalnego. Za znalezienie przyczyny problemu wyznaczono nagrodę.

Najnowsze karty graficzne Nvidii – RTX 5090 oraz RTX PRO 6000 z rodziny Blackwell – borykają się z poważnym problemem w środowiskach wirtualnych. Po wykonaniu standardowego resetu funkcjonalnego (Function-Level Reset, FLR), układy GPU pozostają nieaktywne, co wymusza twardy restart całego systemu.
Pechowa seria z architekturą Blackwell
Problem został wykryty przez firmę CloudRift, zajmującą się dostarczaniem mocy obliczeniowej GPU w chmurze dla deweloperów. Opublikowała ona szczegółowy opis problemu po napotkaniu go w kartach z architekturą Blackwell — modelach RTX 5090 i RTX PRO 6000. Inne karty, takie jak RTX 4090, Hopper H100 czy Blackwell-B200, nie zgłaszają podobnych problemów, co sugeruje specyficzną wadę w nowych konstrukcjach.
Problem występuje w szczególności, gdy karta graficzna jest przypisana do środowiska maszyny wirtualnej (VM) za pomocą sterownika urządzenia VFIO. Po wykonaniu resetu na poziomie funkcji (FLR), karta całkowicie przestaje odpowiadać, co skutkuje tzn. cegłowaniem czyli bezużytecznością GPU.
Ten brak odpowiedzi skutkuje następnie „miękką blokadą” jądra systemu (ang. soft lock), co prowadzi do zakleszczenia (ang. deadlock) środowisk hosta i gościa. Aby wyjść z tej sytuacji, maszyna hosta musi zostać ponownie uruchomiona, co jest kłopotliwą procedurą, zwłaszcza dla firmy takiej jak CloudRift, która obsługuje dużą liczbę takich urządzeń.
Ruszyły łowy na buga
Firma CloudRift wyznaczyła nagrodę w wysokości 1000 dolarów za pomoc w zidentyfikowaniu przyczyny lub stworzeniu obejścia problemu. To zaskakujący krok ze strony prywatnego podmiotu, podkreślający skalę uciążliwości tego błędu, zwłaszcza w środowiskach AI i uczenia maszynowego, gdzie procesory graficzne są zasobem krytycznym. Według doniesień użytkowników, którzy skontaktowali się z pomocą techniczną, Nvidia jest świadoma problemu, potrafi go odtworzyć i pracuje nad jego rozwiązaniem.
Nvidia nie ma za sobą łatwego roku – premiera kart z serii RTX 50 nie była do końca udana. Mimo to firma nie może narzekać na przychody, chociaż jej prezes nie potrafi znaleźć równowagi między życiem zawodowym a prywatnym. Teraz do tego dochodzą polowania na bugi, które po raz kolejny sprawiają, że „Zieloni” tracą w oczach graczy.