SGI UV 2 prý zvládne analýzu Wikipedie během jednoho dne

23. 6. 2012

Sdílet

Výsledky zahrnují vizualizace moderní historie zachycené v rámci jednoho dne s využitím techniky in-memory (práce s daty přímo v operační paměti) data-miningu. Díky možnosti vložit celou anglickou verzi Wikipedie do systému SGI UV 2000 byl Leetaruschopen schopen ukázat, jak se odvíjel pohled Wikipedie na svět posledních dvou století.

Několik předchozích projektů mapovalo vstupy Wikipedie pomocí metadat, která ručně přiřazovali editoři.  Tyto pokusy ale zahrnovaly jen nepatrný zlomek informací umístěných na Wikipedii. Nový projekt analyzoval přímo obsah článků, identifikoval každou lokalitu i časový údaj u všech čtyř milionů stránek a vazeb mezi nimi, a vytvořil tak masivní síť.

 

Wikipedia v novém světle

"Tato analýza umožňuje získat celkový pohled  na obrovské poznatky zachycené ve Wikipedii a ne jen detailní pohled na stránku za stránkou," uvedl Franz Aman, marketingový ředitel a vedoucí strategie společnosti SGI. "Velmi rádi používáme aplikaci Google Earth, protože si můžeme náhled oddálit a získat celkový obraz. Díky systému SGI UV 2 můžeme použít stejný koncept pro oblast Big Data."

 

"Jednosměrný charakter propojení ve Wikipedii, který postrádá vazby, a nerovnoměrná distribuce Infoboxů, poukazují na omezení data miningu, založeného na metadatech, ze sbírek, jako je Wikipedie," uvádí Leetaru. "Systém SGI UV 2 s rozsáhlou sdílenou pamětí, který mi byl k dispozici, mi umožnil klást otázky v rámci celého souboru dat v téměř reálném čase. Velké množství sdílené paměti, které jsem měl na dosah ruky, mi umožnilo, abych jednoduše vepsal pár řádků kódu, spustil jej pro celý datový soubor a kladl jsem otázky, které mi zrovna přišly na mysl. Toto není možné dosáhnout s výpočetním přístupem typu scale-out. Je to velmi podobné jako práce s textovým procesorem místo použití psacího stroje. Mohu nyní provádět svůj výzkum úplně jiným způsobem a zaměřit se na výsledky, nikoliv na algoritmy."

 

Do systému SGI UV 2000, nazývaného počítač Big Brain, byly nahrány tyto obrovské datové soubory, které prošly fulltextovým geokódováním a kompletním časovým kódováním pomocí algoritmů, které identifikovaly každou zmínku o každé lokalitě a každém časovém údaji napříč záznamy o každém vstupu na Wikipedii. 

 Systém SGI UV2 je postaven na procesorech Intel Xeon řady E5 a provozuje standardní Linux. Tato platforma oproti předchozí generaci zdvojnásobuje počet jader (až 4 096 jader) a čtyřnásobí množství koherentní hlavní paměti (až 64 TB), které jsou k dispozici pro in-memory výpočty v rámci jednoho jedinného systému.

Našli jste v článku chybu?

Autor aktuality