Pokud spoléháte na přesné výpočty pomocí GPU či CPU, asi nepředpokládáte, že budou dělat chyby.
Není to příliš časté, ale bohužel to není ani úplně neobvyklé. Procesory i grafiky mohou dělat chyby ve výpočetních operacích. Jednoduše prostě vyhazují nesprávný výsledek, kdy důvody mohou být různé. Jak skutečně HW chyba v návrhu čipu, tak samozřejmě SW chyba. Aktuálně řeší někteří vědci problém, že nejvýkonnější výpočetní karta současnosti, NVIDIA TITAN V, poskytuje špatné výsledky v některých úlohách.
Výpočetní GPU mají dnes široké spektrum použití, všude se samozřejmě vyžaduje a předpokládá, že ten výpočetní HW spočítá vše správně. Vědci zkoušeli několik kusů grafik TITAN V na stejné úloze a některé kusy došly překvapivě k jinému, nesprávnému výsledku. Což je samozřejmě problém. Otázkou je, v čem vězí. V současnosti to vypadá na fyzickou chybu u konkrétních kusů grafik, což je špatné, ale bohužel možné, protože obří VOLTA V100 čip s 815mm2 je pořádný oříšek vyrobit a výtěžnost (tedy čipy bez chyb) musí být rekordně nízká v rámci jakéhokoliv běžně prodávaného GPU v historii. Ostatně proto také jedna TITAN V karta stojí 3000 dolarů (75 tisíc korun vč. DPH). Vypadá to, že u některých karet jednoduše není vše úplně v pořádku, podezření padá na paměťový systém a komunikaci s HBM2 atd.
NVIDIA nechce situaci komentovat, nicméně zprávy naznačují, že o problémech se ví už delší dobu a řešení se zatím nenašlo. Problém navíc měly i předchozí generace, kde se to řešilo různými záplatami apod. Samozřejmě to představuje velký problém, protože dnes na počítačových výpočtech závisí miliardy životů v mnoha aspektech dnešního světa, i když si to mnozí neuvědomují. Když udělá chybu člověk, je to pochopitelné, lidské, když ale udělá chybu stroj, který by jí dělat neměl, je to těžké zkousnout.
Nutno dodat, že jak současné čipy všeho druhu a GPU obzvlášť, jsou extrémně komplexní zařízení, stejně tak aplikace atd. takže chyby jsou nutnou součástí toho všeho, nicméně je zvláštní, když některé kusy jinak identického hardware tu velmi specifickou chybu dělají a některé ne. To je na celé věci asi to nejzajímavější. Ale nemusí to být tak divné, jak to zní. Mnozí zapomínají, že v podstatě každý křemíkový čip je vlastně originál. A i když vznikl na stejném zařízení, má stejné parametry, je ze stejného materiálu, stejně je každý čip (ať CPU, GPU nebo paměťový čip) vlastně unikát. Což může vést k unikátním chybám, což může být vysvětlení i v tomto případě, proč některé kusy NVIDIA karet ty chyby dělají a některé ne.
Samozřejmě fakt, že stroje nejsou neomylné, je poněkud problém, zejména s rozmachem umělé inteligence mohou mít chyby ve výpočtech vážné následky. Ostatně v těchto dnech se vyšetřuje první smrtelná nehoda, kdy AI auto zabilo člověka a v tuto chvíli to vypadá, že selhal jak celý AI systém, tak člověk, který ho měl hlídat. Samozřejmě v zásadě je to vždy lidská chyba, protože člověk to měl lépe navrhnout, lépe vyrobit apod. Nicméně vše nám jen připomíná, že počítače jsou také různé a také mohou dělat chyby a budou dělat chyby. Bylo by hloupé považovat počítače za 100% neomylné.
AUTOR: Jan "DD" Stach |
---|
Radši dělám věci pomaleji a pořádně, než rychle a špatně. |
|