Google spustil superrychlou vyhledávací architekturu Caffeine

11. 6. 2010

Sdílet

Společnost Google tento týden na konferenci Search Marketing Expo v americkém Seattlu ohlásila, že spustila novou verzi svojí vyhledávací architektury označovanou jako Caffeine.

Ta byla k dispozici pro veřejné testy od loňského srpna a nyní tedy předchází do ostrého provozu. Hlavním rozdílem je značně rychlejší indexování a téměř okamžité zobrazování nově přidaných stránek ve výsledcích vyhledávání. Doba celého procesu má být v řádech sekund.

Hlavním podnětem pro zvýšení rychlosti indexování stránek a tím i dostupnosti nových textů ve vyhledávání byly teroristické útoky z 11. září 2001, o nichž uživatelé intenzivně hledali informace, ale zdrojové zpravodajské servery byly přetížené a vyhledávače nezvládaly nové zprávy dostatečně rychle indexovat. Google se proto rozhodl co nejvíce urychlit zpřístupňování aktuálních zpráv a z této iniciativy pak vznikla dnes velmi populární služba Google News. Problémem byla ovšem stále rychlost indexace, a proto vznikl projekt Caffeine, který má tento problém odstranit a také si lépe poradit s obrovským množstvím dat, která je potřeba každodenně indexovat.

Při vyhledávání podle klíčových slov není prohledáván celý web, ale jen indexy, reprezentující dostupné dokumenty, ovšem jejich tvorba je poměrně náročná na výpočetní výkon. Na začátku svojí existence totiž Google aktualizoval svoje indexy, které reprezentují dokumenty na webu, jednou za čtyři měsíce, později pak každých 30 dní. Nyní to jsou tedy již jen sekundy.

Redaktoři I4U News , kteří rychlost indexace vyzkoušeli, potvrzují, že nově vložený článek, s neobvyklými klíčovými slovy, se v Googlu objevil již zhruba za minutu po jeho publikování. Indexace tak probíhá okamžitě a také indexy Googlu jsou aktualizovány v reálném čase, říká Matt Cutts, vedoucí oddělení vyhledávání na webu v Googlu. Caffeine také lépe pracuje s metadaty a je schopný rozpoznat různé typy obsahu na stránce (např. texty v určitém jazyce, grafické prvky a podobně).

Indexace neprobíhá stejně rychle na všech webech, neboť Google bere v potaz další faktory, jako je např. jejich page rank a sítě s vyšší atraktivitou pak logicky indexuje rychleji. Častěji jsou také roboty navštěvovány novinkové weby a blogy než jiné stránky, které jsou obvykle statické jen s minimem změn, dodává Cutts. Google také využívá nástrojů, které jej informují o aktualizaci stránky. Tím je např. open source nástroj Pubsubhubbub určený primárně pro blogy a automaticky informuje Google o jakékoliv změně a ten následně provede indexaci změněných či nových údajů.

Další novinkou, kterou Google včera oficiálně zprovoznil i pro ČR, je náhodný výběr pozadí úvodní obrazovky vyhledávače ze svojí interní databáze obrázků po vzoru Bingu, který ovšem vybírá nový obrázek vždy na celý den. Rozšiřuje tak původní možnost zobrazení fotografií uživatele a kustomizaci podle jeho představ. Celkově jde o sérii inovací v rámci jarních proměn Googlu a více informací o všech těchto změnách najdete v článcích Google nabízí nové možnosti vyhledávání i větší kustomizaci, dále pak Google přichází s větším soukromím při vyhledávání na webu a nebo Vyhledávač Google prošel jarní proměnou.