Pokud alespoň vzdáleně sledujete dění v oblasti IT, určitě vám neuniklo ohlášení nové generace mikroprocesorů Intel, souhrnně označené jako Nehalem. Dne 18. 11. 2008 se tak skutečně stalo a světlo světa spatřily hned tři modely nových procesorů, doprovázené jednou čipovou sadou.
Než si ale představíme novinky a vylepšení, řekneme si, z čeho vlastně nejnovější mikroarchotektura vychází. Základem mikroarchitektury Intel Nehalem je současná architektura Core, obohacená o některé prvky – některé svým významem pouze kosmetické, některé doslova revoluční. Nejedná se tedy o vývojový skok, jaký jsme mohli spatřit při přechodu z NetBurst na Core, nicméně změny jsou velmi výrazné. V den uvedení se na trh dostala platforma Bloomfield, v polovině roku 2009 ji bude následovat platforma Lynnfield. Bloomfield je označení pro high-end platformu vyznačující se tím nejlepším, co architektura Nehalem může nabídnout. Její zařazení jednoznačně míří do malých jednoprocesorových serverů a výkonných pracovních stanic, všude tam, kde je potřeba vysoký výpočetní výkon. Lynnfield bude naproti tomu uveden až s několikaměsíčním zpožděním a bude se de facto jednat o náhradu za střední a nižší střední segment trhu zastupovaný v současné době procesory Intel Core 2 Duo a Intel Pentium Dual-Core. Této platformě budou chybět některé zajímavé funkce a technologie, celý návrh bude uzpůsoben ne maximálnímu výkonu, ale bude se ohlížet na co nejlepší poměr výkon/cena. Z těchto změn bude vycházet i první nepříjemnost celé platformy – rozdílné patice. Bloomfield bude operovat s 1 366 piny v patici, označované prostě jako LGA 1366, Lynnfield pak bude operovat s 1 160 (nebo podle posledních informací s 1 156) piny.
Hlavní novinky u mikroarchitektury Intel Nehalem
Návrh Nehalemu počítá s variabilním rozšiřováním jader CPU a dalších potřebných částí k nim příslušejících, v první fázi se dostanou na trh plnohodnotné čtyřjádrové procesory, následovat by je měly ve firemní sféře procesory osmijádrové. Tento návrh je flexibilní a Intel si od něho slibuje jednoduché škálování, neboť bude možné libovolně nastavovat počet jader, upravovat velikost vyrovnávacích pamětí a zapínat/vypínat funkce mikroprocesorů. Tímto způsobem lze vcelku snadno vytvořit procesor přesně na míru a obsadit další kus na procesorovém trhu. Z toho vyplývá jedna věc – společnost Intel začne používat bez rozdílu pouze jedno jádro pro všechny tři své oblasti – server, desktop a mobilní sféru.
Konečně se dostáváme k samotným změnám v architektuře.
Přechod od systémové sběrnice FSB k QPI
Největší „brzdou“ předchozí generace Core byla bezesporu systémová sběrnice. Front Side Bus sběrnice se svou nízkou propustností ani zdaleka nestačila rychlým desktopovým a všem serverovým procesorům (proto také měla společnost AMD dosud velikou výhodu v serverovém trhu a jak se patří toho využívala) a bylo ji potřeba nahradit. Spása pro společnost Intel přišla v podobě Intel QuickPath (QPI), sběrnice ne nepodobné konkurenční HyperTransport. Maximální rychlost této sběrnice je 6,4 GT/s s maximální teoretickou propustností 25,6 GB/s (protože se jedná o součet obousměrné komunikace, jednosměrně je rychlost 12,8 GB/s). Tato sběrnice spojuje procesor a severní můstek u desktopu a mobilního řešení, v serverovém segmentu budou vybaveny procesory více linkami, přičemž komunikovat budou nejen s čipsetem, ale i mezi sebou navzájem.
Integrovaný řadič operační paměti v CPU
Všechny mikroprocesory postavené na architektuře Nehalem budou mít na rozdíl od předchozích generací integrovaný řadič paměti přímo v procesoru, nebude tedy umístěn jako dosud v severním můstku. U Bloomfieldu se bude jednat o tříkrálový řadič DDR3 s podporou 1 066 a 1 333 MHz, u Lynnfieldu to bude pouze dvoukanálový. Není vyloučené, že u serverového řešení přijde na řadu i čtyřkanálové řešení. Výhody tohoto počinu jsou evidentní a jasné – přiblížení dat uložených v operační paměti blíže procesoru a tím pádem zrychlení přístupu k nim. Na první pohled nízká pracovní frekvence – 1 333 MHz – může vyvolávat dojem, že toto řešení nebude nijak výkonné, ale není tomu tak. Tříkanálový přístup do paměti hravě překrývá nízkou pracovní frekvenci a rozdíl v propustnosti může být oproti předchozí generaci při stejném nastavení téměř dvojnásobný ve prospěch Nehalemu.
Znovuvzkříšení technologie Hyper-Threading
U novějších procesorů Pentium 4 jsme si zvykli na inovativní, nicméně diskutabilní funkci – Hyper-Threading. Tato technologie umožňovala využít ne zcela vytížené jádro a nechat ho zpracovávat další vlákno. To mohlo vést k navýšení rychlosti zpracovávání u optimalizované aplikace až o desítky procent, nicméně mohlo taktéž vést ke snížení výkonu v řádu procent. U Nehalemu bude k dispozici technologie vycházející z původní Hyper-Threading, nicméně bude vylepšena a hlavně upravena pro chod na architektuře Nehalem. V praxi to bude znamenat, že fyzicky čtyřjádrový mikroprocesor se bude v systému tvářit jako osmijádrový a podobně. Intel si od této inovace slibuje lepší využití procesorového času a zvýšení výkonu až o desítky procent. Tato funkce však bude volitelná a bude možné ji v BIOSu základní desky deaktivovat.
Spoříme, spoříte, spoříš i ty?
Dalším klíčovým vylepšením nové architektury Nehalem je rozšíření funkcí šetřících energii. Vnitřně je rozdělen do tří částí – výpočetní jádra, integrovaný řadič paměti a ostatní – a všechny tyto části disponují odděleným napájením. To spolu s funkcí Power Gate umožňuje odpojovat jednotlivá jádra od napájení a tím výrazně šetřit energii. V mikroprocesoru je implementováno samozřejmě daleko více úsporných technologií, ovšem jejich popis by byl příliš rozsáhlý.
Nárůst výkonu
Co se týká samotného nárůstu výkonu procesoru, zopakujeme již vyřčené a přidáme k tomu další podrobnosti: integrovaný paměťový řadič má na svědomí zrychlení přenosu dat mezi vyrovnávací pamětí CPU a operační pamětí, systémová sběrnice QPI odstraňuje omezení vlivem nízké průchodnosti FSB, značných změn se dočkala optimalizace zpracování dat (přidány nové mikrooperace umožňující zpracovat více dat v jednom cyklu, k dispozici je delší instrukční řada, možnost zpracovat až pět x86 a až sedm microOPs instrukcí, či podpora fúzování i ve 64bitovém módu).
Dalším navýšením výkonu je pak funkce Turbo Mode (de facto převzatá funkce z mobilních procesorů Core 2 Intel Dynamic Acceleration). Jedná se o sérii funkcí, které monitorují stav procesoru a v případě, že řekněme u čtyřjádrového procesoru nejsou dvě jádra vůbec vytížená a dvě pracují naplno, systém odpojí nevyužitá jádra a navýší rychlost zbývajících dvou o jeden krok (což znamená o 133 MHz). Takto může postupovat CPU ještě o jeden krok, nesmí však přesáhnout stanovenou hodnotu TDP. Tato funkce jako jedna z mála u nové generace CPU pomáhá zvyšovat výkon u jednovláknových aplikací, neboť zbytek optimalizací je striktně zaměřen na vícevláknové aplikace. Změny probíhají v řádu milisekund, uživatel se tedy nemusí bát snížení výkonu celého CPU v důsledku přepínání.
Intel Nehalem v praxi
Po teoretickém úvodu se konečně dostáváme k popisu fyzického procesoru, jeho vlastností a parametrů. Při představení byly na trh uvedeny hned tři varianty mikroprocesorů Bloomfield postavené na mikroarchitektuře Intel Nehalem – modely Intel Core i7 965 Extreme, Core i7 940 a Core i7 920. Vyrobeny jsou pokročilou 45nm výrobní technologií, disponují 731 miliony tranzistorů a čtyřmi jádry, paticí LGA 1366, funkcí Hyper-Threading, integrovaný paměťový řadič DDR3 s podporou pamětí 1 066, 1 333 a 1 600 MHz (u nižších modelů pak 800 a 1 066 MHz) a základní frekvencí systémové sběrnice 133 MHz. První jmenovaný (kterému se budeme dále v popisu primárně věnovat) pracuje na frekvenci 3 200 MHz (násobitel 24, pro Turbo Mode 26, otevřený), další dva mají vždy o dva kroky nižší násobitel a z toho vyplývající pracovní frekvenci – 2 930, respektive 2 660 MHz. Rychlost systémové sběrnice je 3 200 MHz (6 400 MHz efektivně), u nižších modelů pak 2 400 MHz (4 800 MHz efektivně).
Procesory jsou vybaveny třemi úrovněmi vyrovnávací paměti cache – L1 má 32 kB (16 kB datová a 16 kB instrukční část), L2 256 kB a třetí úroveň L3 (mimochodem sdílená pro celý mikroprocesor) má rovných 8 096 kB. Stanovené TDP (tedy maximální spotřeba procesoru) je u všech stejně na 130 W. Pořizovací cena se pohybuje od necelých 7 000?Kč za model i7 920, až po „tradičních“ 24 000?Kč za extrémní model. Pro doplnění: model i7 965 Extreme disponuje otevřeným násobitelem procesoru a pamětí, lze ho tedy velmi slušně přetaktovávat. To se bohužel nedá říci o zbylých dvou modelech, protože systém přetaktování je velmi striktně omezen Intelem a jakýsi posun od referenčních frekvencí budou umožňovat pouze vybrané základní desky.
S novými procesory musel nezbytně přijít i nový čipset. Prozatím je pouze jeden a nese název Intel X58. Díky převedení paměťového řadiče do procesoru zbyla tomuto severnímu můstku (nyní nazývaného I/O Hub) pouze funkce připojení grafických karet – správa sběrnice PCI Express. Té se tento čip zhostil dokonale a nabízí zapojení 1× 16, 2× 16 a 4× 8 PCI Express linek s možností využití režimu ATI CrossFire a (v případě, že výrobce desky tuto funkci aktivuje a zaplatí za ni příslušný poplatek společnosti nVidia) také nVidia SLI. Uživatel tak dostává poprvé možnost vybrat si z obou konkurenčních řešení na jedné základní desce (a nám se potvrdilo, že ke zprovoznění režimu SLI není potřeba přídavného čipu, ale pouhé optimalizace a zapnutí funkce v ovladačích. K I/O Hubu se bude párovat jižní můstek ICH10R, známý již z generace čipsetů Intel P45. I/O Hub bude ovšem postupně zcela vypuštěn, neboť v průběhu roku 2009 přijde na trh CPU s jádrem Havendale, které bude obsahovat integrované grafické jádro přímo v CPU a I/O Hub tak již nebude potřeba.
Výkon a praktické zkušenosti z testování
Během testů jsme otestovali nejvýkonnější variantu Intel Core i7 965 Extreme a výsledky nás naprosto nadchly. Propustnost pamětí i při použití 1 333 MHz pamětí DDR3 v zapojení Triple-Channle je naprosto vynikající a dosahuje téměř dvojnásobku hodnoty propustnosti u předchozí generace procesorů Intel. Co se týká hrubého výkonu, projeví se u nových procesorů především u vícevláknových aplikací (systém „vidí“ osm výpočetních jader), čím více jich je zatíženo, tím lepší výsledky procesor podává. Abychom byli konkrétní: u CineBench10 činil rozdíl mezi stejně taktovanými procesory (Core 2 Quad QX9770 vs. i7 965 Extreme) necelých 6 000 bodů – 10 657 oproti 16 572, podobný rozdíl byl k vidění i u dalších aplikací, využívajících více vláken najednou. Můžeme jmenovat poslední verzi programu WinRAR, kde se rychlost kódování téměř zdvojnásobila, nebo rychlost kódování videa ve vysokém rozlišení, kde jsme naměřili více jak 60procentní nárůst výkonu, pozadu nezůstaly ani aplikace Adobe, kde nárůst výkonu dosahoval dobrých 20–25 procent.
Druhou otázkou jsou však programy a aplikace, které nevyužívají více vláken, popřípadě využívají pouze jedno – typickým příkladem jsou počítačové hry. V takovýchto případech budou uživatelé zklamáni, neboť nárůst výkonu se bude nejčastěji pohybovat v řádu 0 až 10 procent.
Dalším zajímavým zjištěním bylo, že při vypnutí funkce Hyper-Threading klesl výkon u vícevláknových aplikací až o 10 procent, přičemž zpomalení u jednovláknových aplikací nebylo naměřeno.
Jinou důležitou vlastností, na kterou jsme se zaměřili, byla spotřeba systému. Překvapila nás „velmi nízká“ spotřeba procesoru v klidu, naopak nás nepřekvapila spotřeba systému při plném zatížení všech jader – a opravdu dosahovala udávaných 130 W. Nicméně je potřeba počítat s tím, že v procesoru je integrován řadič pamětí, který byl dříve v čipsetu, ale stejně… 8 0726/Pir o