Zajímavý produkt, který ale dorazí na trh až za dlouho, a ne všude překoná již exitující konkurenci.
Společnost NVIDIA představila novou generaci svého nejvýdělečnějšího produktu. HPC výpočetní GPU akcelerátor H100, postavený na architektuře HOPPER. Zajímavá technologická demonstrace, která ovšem přichází hodně předčasně, protože reálné vydání NVIDIA H100 jako produktu na trh proběhne až v závěru roku, a dokonce stále nezačala ani výroba.
V tuto chvíli jde tedy o papírového draka s impozantními mezigeneračními zlepšeními. Za nejzajímavější informaci považuji oznámení, že bude používat 4nm výrobu TSMC. Pravda, N4 je jen drobné vylepšení N5 (5nm), kdy nabízí zhruba jen o 6% vyšší denzitu, ale chystá se ještě N4P, která by měla nabídnou dvojnásobné zlepšení. Jinými slovy 4nm výroba TSMC je stále 5nm výroba s postupným vylepšováním. Pochopitelně u produktu jako H100 je nasazení co nejpokročilejší výroby nutné, i když to bude velmi velmi drahé. Ale to se v ceně tohoto produktu ztratí.
NVIDIA každopádně může plně využít plný generační posun technologie výroby, kdy proti stávajícímu 7nm A100 je generační zlepšení pramenící z vývoje na poli výrobních procesů, velmi pěkně vidět. Oba čipy mají totiž velmi podobnou velikost. A100 má 828mm2 na které se nachází 54,2 miliardy tranzistorů. Nový H100 má 814mm2 ovšem rovnou 80 miliard tranzistorů. To znamená 98,28 milionů tranzistorů na jednom mm2 proti „pouhým“ 65,46 milionům u předchůdce. To je síla nové generace výrobního procesu TSMC.
Pokud jde o architekturu samotnou, není HOPPER revolucí, ale evolucí AMPERE, kdy hlavní důraz byl evidentně kladen na posílení TENSOR AI výkonu. Posun v klasickém univerzálním výkonu je totiž opět poměrně malý. NVIDIA zjevně všechno sází na výkon pro oblast AI. Udává úžasná čísla o 6x vyšším výkonu proti A100 v tensor aplikacích, nicméně ten hlavní univerzální výpočetní výkon, zase tak ohromující není.
H100 má 15872 jednotek FP32 a 8448 jednotek FP64, což je nárůst z 6912 a 3456 u A100. Univerzální výpočetní výkon vzrostl na 60TFLOPS v FP32 a 30TFLOPS v FP64. To je slušný proti 19,5 a 9,7TFLOPS u A100, ale pořád to překvapivě nestačí na univerzální výkon již aktuálního AMD Instinct MI250X (6nm CDNA 2), které disponuje univerzálním výkonem až 96TFLOPS v FP32 a 48 TFLOPS v FP64! AMD má také větší propustnost a vyšší kapacitu paměti. Mi250X používá 8192-bit sběrnici a má 128GB HBM2E s výslednými 3277GB/s propustnosti. NVIDIA H100 je sice výrazně lepší než stávající A100, ale i přes nasazení HBM3 pamětí má stále 5120-bit sběrnici, jen 80GB paměti a propustnost 3072GB/s. Současně má ovšem také mnohem vyšší spotřebu než stávající AMD řešení.
AMD a jeho Instinc Mi250X je již několik měsíců fyzicky na trhu, má sice více křemíku a méně tranzistorů, ale stále má více univerzálního výkonu, a to vše při TDP 500W. NVIDIA ale na nižší univerzální výpočetní výkon potřebuje s výrazně lepšími výrobním procesem ohromujících 700W! A to má H100 o poznání méně paměti než AMD řešení. Ještě zásadnější je ale fakt, že NVIDIA H100 vlastně není konkurencí pro AMD Mi250X (CDNA2), ale musí a bude se srovnávat s AMD Mi300X sérií na CDNA 3 architektuře …
NVIDIA totiž v tuto chvíli představuje H100 hodně předčasně. Existuje víceméně jen na papíře, do ostré produkce ještě nevstoupilo. Ba hůře, výroba reálně začne až někdy v druhé polovině roku a první vybraní zákazníci se tak dočkají až v samém závěru 2022, kdy většinově je ale H100 produktem až pro příští rok, tedy 2023. Což je „problém“ proto, že AMD a jeho CDNA 2 architektura na stávající Mi250X je už dávno na trhu a na konci roku jej nahradí buď 5nm nebo také 4nm CDNA 3, která přinese hodně velké zlepšení. Co do absolutního výkonu tak nebude mít H100 moc šanci tomu konkurovat, kdy je evidentní že zatímco AMD dělá CDNA 3 jako univerzální výpočetní řešení skvěle zvládající všechno (včetně AI), NVIDIA s H100 se velmi úzce specializuje jen na AI akceleraci.
Můžeme tedy říci, že NVIDIA H100 není ani tak HPC GPU akcelerátor, ale konkrétně AI akcelerátor, což samozřejmě poněkud omezí tržní záběr a AMD tak má hodně velkou šanci výrazně posílit na poli obecných HPC aplikací a superpočítačů. NVIDIA naopak vše sází na jednu kartu a jednu oblast a stávající zákazníky. A tam má navrch nyní. I když své k tomu chce říci také Intel, jež stále chystá PONTE VECCHIO HPC GPU akcelerátor a jeho nástupce RIALTO Bridge.
Každopádně 814mm2 čip na 4nm výrobě jasně demonstruje, že se o „běžná“ supervýkonná herní GPU bát nemusíme a nadcházející generace karet tak budou opravdu velkým posunem ….
AUTOR: Jan "DD" Stach |
---|
Radši dělám věci pomaleji a pořádně, než rychle a špatně. |
|