Jak se Nvidia dostala na vrchol?

22. 9. 2023

Společnost Nvidia, která nedávno překonala biliónovou tržní kapitalizaci, těží především z aktuálního boomu umělé inteligence díky svým vysoce výkonným GPU, překonávajícím nejbližší konkurenty. Hlavní ingredience tohoto úspěchu pojmenoval Bill Dally, vedoucí vývoje společnosti, na konferenci IEEE Hot Chips 2023 v Silicon Valley, zaměřené právě na novinky v oblasti mikročipů.

Dally konstatoval, že v tomto vývoji hrál překvapivě malou roli známý Moorův zákon, ale uplatnil se spíše Huangův zákon, představený v roce 2018 Jensenem Huangem, prezidentem společnosti Nvidia.

Využíváte už ve firmě autonomní agenty postavené na bázi umělé inteligence?

Huangův zákon umožnil zvyšování výkonu čipů nad predikce Moorova zákona kombinací vícero zdokonalení architektury, propojení, paměťových technologií a algoritmů, včetně formátu čísel používaného při výpočetních operacích. V důsledku toho se Nvidii za posledních 10 let podařilo tisícinásobně zlepšit výkon v úlohách AI.

Kde tedy můžeme hledat hlavní faktory tohoto úspěchu?

Reprezentace čísel

Nejdůležitějším objevem, který výkon čipů posunul 16násobně, byla lepší číselná reprezentace, uvedl Dally. Klíčové parametry neuronových sítí jsou vyjádřené v číselných formátech. Jedním z takových parametrů jsou váhy, které určují sílu propojení mezi neurony v modelu, a dalším jsou aktivace, během kterých dochází k násobení součtu vážených vstupů do neuronu, což určuje, zda se neuron zaktivuje a signál se rozšíří i do další vrstvy.

Před uvedením procesoru P100 byly tyto váhy reprezentovány jediným číslem s plovoucí desetinnou čárkou o standardní délce 32 bitů, definovaným normou IEEE 754, v němž 23 bitů představuje zlomek, 8 bitů slouží jako exponent zlomku a jeden bit kóduje znaménko čísla. Výzkum ale ukázal, že při různých výpočtech lze formát škálovat a mohou být úspěšně použita i méně přesná čísla, aniž by se zhoršily odpovědi dané neuronové sítě.

Při tomto postupu se násobení a sčítání, tedy klíčové operace strojového učení, zrychlí, protože se zpracovává méně bitů. V případě procesoru P100 se tedy Nvidii podařilo pomocí formátu FP16 snížit tento počet na polovinu. (S obdobnou technologií nazvanou Brain Floating Point Format neboli Bfloat16 přišel také Google.)

Nvidia ale šla o krok dále a vyvinula procesor Nvidia H100, který dokáže pracovat v 8bitovém formátu. Nicméně zjistila také, že toto řešení není univerzálně vhodné, takže architektura GPU Hopper ve skutečnosti počítá ve dvou různých formátech FP8, z nichž jeden má o něco větší přesnost a druhý o něco větší rozsah. Speciální know-how společnosti pak spočívá v tom, že ví, kdy jaký formát použít.

Chcete dostávat do mailu týdenní přehled článků z Computerworldu? Objednejte si náš mailový servis a žádná důležitá informace vám neuteče. Objednat si lze také newsletter To hlavní, páteční souhrn nejdůležitějších článků ze všech našich serverů. Newslettery si můžete objednat na této stránce.

Dalším způsobem, jak z menšího počtu bitů vymáčknout ještě více umělé inteligence, je nalezení takových reprezentací čísel, aby byly výpočty přesnější v blízkosti nuly. Důvodem je, že parametry neuronových sítí nevyužívají velká čísla, nýbrž se zpravidla pohybují právě v okolí 0.

Komplexní instrukce

Masívním vylepšením, které 12,5krát znásobilo výkon čipů, je použití komplexních instrukcí, kdy jsou velké výpočty prováděny pomocí jediné instrukce, a nikoliv jejich posloupností. „Režie načítání a dekódování instrukcí je totiž mnohonásobně vyšší než u jednoduchých aritmetických operacích,“ upřesnil Dally.

Poukázal na jeden typ násobení, který měl režii, jež vyžadovala plný 20násobek energie nutné na samotný výpočet. Podle něho je díky nové architektuře GPU režie u složitých instrukcí amortizována větším počtem matematických operací. Například složitá instrukce násobení a akumulace celočíselných matic (IMMA) má režii, která činí pouhých 16 % energetických nákladů na výpočet.

Moorův zákon

Konečně se dostáváme k samotnému Moorovu zákonu, který se ovšem zmenšováním součástek a zvyšováním jejich hustoty podílí na posunutí hranic výkonu GPU Nvidia podstatně méně (přibližně 2,5krát). Společnost aktuálně využívá nejmodernější dostupné výrobní technologie a H100 je vyroben 5nm procesem N5 společnosti TSMC.

Další posun bude znamenat příchod čipů 3nm generace, jejichž výrobu tento polovodičový gigant spustil teprve koncem roku 2022. Tato technologie zvyšuje hustotu logických obvodů o 70 % a v menším měřítku i hustotu obvodů paměťových.

Úspornost

Faktorem, který přispěl dvojnásobným nárůstem výkonu, je i úspornost samotné neuronové sítě. Po tréninku zůstane v neuronové síti vždy mnoho neuronů, které tam neplní žádnou funkci, takže u některých sítí je možné jich vyřadit až polovinu nebo více, aniž by došlo ke ztrátě přesnosti sítě. Hodnoty vah neuronů jsou nulové nebo se jim limitně blíží, takže žádným způsobem nepřispívají k výstupům sítě a jejich zahrnutí do výpočtů je plýtvání časem a energií.

Vytvořit tyto úsporné sítě snižující výpočetní zátěž je poměrně složitá záležitost. Ale už u modelu A100, předchůdce modelu H100, zavedla společnost Nvidia takzvanou strukturovanou úspornost. Jedná se o hardware, který v analogii k vývoji biologickému mozku vynucuje ořezávání nedůležitých spojení, což vede k menším nárokům na výpočetní složitost matic. Výzkum úspornosti by měl podle Dallyho vést ještě k dalším vylepšením.

Computerworld si můžete objednat i jako klasický časopis. Je jediným odborným měsíčníkem na českém a slovenském trhu zaměreným na profesionály v oblasti informačních a komunikačních technologií (ICT). Díky silnému zázemí přináší aktuální zpravodajství, analýzy, komentáře a přehledy nejnovejších technologií dříve a na vyšší odborné úrovni, než ostatní periodika na tuzemském trhu.

Obsah Computerworldu je určen odborníkům a manažerům z firem a institucí, kteří se podílejí na rozhodovacím procesu při nákupu ICT technologií. Jednotlivá čísla si můžete objednat i v digitální podobě.

Našli jste v článku chybu?

Sdílet

Využíváte už ve firmě autonomní agenty postavené na bázi umělé inteligence?

Reprezentace čísel

Komplexní instrukce

Devět bezplatných AI nástrojů, které spustíte lokálně

Moorův zákon

Úspornost

Nelíbí se vám nabídka Start ve Windows? Bude to ještě horší!

Autor článku

Petr Jedlička

Témata:

Mohlo by vás zajímat

Anketa

Využíváte už ve firmě autonomní agenty postavené na bázi umělé inteligence?

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Vsadili jste na digitální transformaci? Čekají vás neustálé změny a úpravy

Třetí čtvrtletí letošního roku ryze českých investic

Canalys: Příprava na AI je v plném proudu, investice do cloudové infrastruktury vystřelily o 21 %

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Na co mají zaměstnanci nárok, pokud se starají o nemocné blízké?

Arrow Electronics v EMEA spouští Cloud Amplification Program

Raspberry Pi: jaké příslušenství zvolit pro začátek?

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Coffee break: Když Wi-Fi potřebuje překonávat i kovové zdi

Jak se Nvidia dostala na vrchol?

Sdílet

Využíváte už ve firmě autonomní agenty postavené na bázi umělé inteligence?

Reprezentace čísel

Komplexní instrukce

Devět bezplatných AI nástrojů, které spustíte lokálně

Moorův zákon

Úspornost

Nelíbí se vám nabídka Start ve Windows? Bude to ještě horší!

Autor článku

Petr Jedlička

Témata:

Mohlo by vás zajímat

Podcast: Kybernetická bezpečnost v Česku – dokážeme čelit novým hrozbám?

Co se dočtete v novém Computerworldu 11/2024?

Windows Recall: Kontroverzní funkce sledující obrazovku má další zpoždění!

Anketa

Využíváte už ve firmě autonomní agenty postavené na bázi umělé inteligence?

Kvíz týdne

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Z našich webů

Vsadili jste na digitální transformaci? Čekají vás neustálé změny a úpravy

Třetí čtvrtletí letošního roku ryze českých investic

Canalys: Příprava na AI je v plném proudu, investice do cloudové infrastruktury vystřelily o 21 %

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Na co mají zaměstnanci nárok, pokud se starají o nemocné blízké?

Arrow Electronics v EMEA spouští Cloud Amplification Program

Raspberry Pi: jaké příslušenství zvolit pro začátek?

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Coffee break: Když Wi-Fi potřebuje překonávat i kovové zdi

Dále u nás najdete

Osvědčené způsoby, jak snížit vysoký krevní tlak

Firmy mají řešit byznys, ne hledat účtenky, razí Fidoo

Češi riskují s daty, podceňují zálohy i bezpečnost

Dřívější neplodnost dnes řeší miniinvazivní operace

Windows chystá offline AI vyhledávání souborů

Domácí mazlíčci jí téměř ožívají pod rukama. Figurky vyrábí z vlny

Víte, jakou řečí mluví vložky Always? Otestujte, jak znáte reklamní slogany

Hackeři zneužili reklamy na Facebooku k šíření falešných správců hesel pro Chrome – pak ukradnou Facebook účet

Digitální transformace znamená neustálé změny a úpravy

USA zastavují dodávky pokročilých AI čipů TSMC do Číny

Vyzkoušeli jsme test, který ukazuje, co jsme zdědili po předcích

Podnikatelé s nižšími příjmy si za celý rok připlatí skoro o 13 tisíc víc

Sledují vás přes HDMI? Útok využívá elektromagnetické záření

Firmy s vazbami na Čínu jsou problém. Zákaz je i o geopolitice

Jak uplatní pracující důchodci u zaměstnavatele slevu na pojistném?

Jak Mikýř vyděsil Novu, ale nakonec vydělaly obě strany

Edge zkouší nový trik na uživatele Chromu

Bezplatný Microsoft PC Manager vylepšen

Od dynamitu k Viagře. Výbušný nitroglycerin uvolňuje cévy

Celý příští týden se můžete nechat anonymně otestovat na HIV