Objavljen Radeon Open Compute “ROCm” Stack v3.1 s RAS-om za Vega 7nm, SLURM podrška za bolje upravljanje resursima, ali Navi još uvijek nedostaje

Hardver / Objavljen Radeon Open Compute “ROCm” Stack v3.1 s RAS-om za Vega 7nm, SLURM podrška za bolje upravljanje resursima, ali Navi još uvijek nedostaje 2 minute čitanja

AMD Radeon



Sada je nova verzija Radeon Open Compute ili “ROCm” stoga dostupno za preuzimanje. Radeon Open Compute v3.1 sa sobom donosi poprilično značajki, ali neobično je da podrška za AMD Navi kao i za GFX10 još uvijek nedostaje.

ROCm, najprihvaćenija univerzalna platforma za GPU-ubrzano računanje, sada je na verziji 3.1. Najnovije ažuriranje modularne platforme koje omogućuje dobavljačima hardvera da izgrade upravljačke programe koji podržavaju ROCm okvir uključuje neke dugo očekivane značajke poput RAS podrške za 7nm Vega i SLURM podrške za AMD GPU-ove. Međutim, iz još nepoznatih razloga, ROCm još uvijek nema potpunu podršku za AMD Navi arhitekturu sljedeće generacije.



Što je novo u Radeon ROCm v3.1:

Najveća i najočitija promjena u novoj instalaciji Radeon ROCm v3.1 je u strukturi direktorija za instalaciju ROCm. Nova instalacija ROCm alata instalira pakete u / opt / rocm- mapu. Prije toga, ROCm paketi alata bili su instalirani u / opt / rocm mapu.



Nova verzija ROCm-a poboljšala je podršku za pouzdanost, pristupačnost i uslužnost (RAS) za Vega 7nm GPU-ove. Ovo 7nm Vega djelo vjerojatno je pod mikroskopom još uvijek za 'Arcturus' zasnovan na vegi računalni akcelerator koji dolazi ove godine. Podrška uključuje:



  • UMC RAS ​​- HBM ECC (neispravljiva ubrizgavanje pogreške), povlačenje stranice, resetiranje RAS-a putem GPU-a (BACO)
  • GFX RAS - GFX, MMHUB ECC (unos pogreške bez ispravljanja), oporavak RAS-a putem GPU-a (BACO) resetiranje
  • PCIE RAS - PCIE_BIF ECC (neispravljiva ubrizgavanje pogreške), RAS oporavak putem GPU-a (BACO) resetiranje

Radeon ROCm v3.1 također dobiva SLURM podršku za AMD GPU-ove. SLURM ili Jednostavni Linux uslužni program za upravljanje resursima jedan je od vrlo poželjnih i lako korištenih sustava upravljanja klasterima i rasporeda poslova za Linux klastere. SLURM je poželjniji jer je otvoren izvor, otporan na kvarove i vrlo je skalabilan.

Ovaj sustav sada može dobro komunicirati s AMD-ovim GPU-ima. Najnovija verzija SLURM-a 20.02.0 uključuje AMD dodatke koji omogućavaju SLURM-u da automatski otkriva i konfigurira AMD GPU-ove. Također prikuplja i izvještava o potrošnji energije grafičkih čipova. Podrška za SLURM koristan je dodatak s obzirom na sve veći broj superračunarskih implementacija koje koriste Radeon GPU-ove i druge veće AMD GPU klastere.

Unatoč uključivanju nekoliko značajki, još uvijek nema znakova podrške za GFX10 / Navi u ROCm. The GitHub stranica za ROCm je ažuriran tako da odražava sve promjene, napomene o instalaciji i poznate probleme.



Oznake amd