Hlavní navigace

Digitalizované knihy od Googlu mají být „kulturní genom"

21. 2. 2011

Sdílet

Digitalizované a statisticky zpracované historické texty jsou jakýmisi „kulturními fosiliemi". Sledování frekvence výskytu slov v určitých obdobích umožňuje odhalit celou řadu dosud unikajících historických trendů.

Během zatím čtyřletého úsilí se už údajně podařilo převést do digitální podoby 4 % všech kdy vydaných textů (přepočítáváno samozřejmě na ty, co se dochovaly).
Za projektem stojí tým výzkumníků z Harvardu, Googlu, Encyclopaedia Britannica a organizace American Heritage Dictionary. V jeho čele jsou Jean-Baptiste Michel a Erez Lieberman Aiden z Harvardovy univerzity. Výzkum mj. finančně podpořila i nadace Billa a Melindy Gatesových.

Digitalizované knihy by podle tvůrců projektu mohly změnit humanitní vědy a postavit je na pevnější, kvantitativní základ. Slova a jejich frekvence v souboru odpovídají tomu, jak se v průběhu evoluce mění zastoupení různých genů v populaci druhu. Oboje vypovídá o změnách, inovacích i tlaku/selekci, které působí na základní jednotky (ať už biologické či jiné) sledované množiny.
Vývoj frekvencí jednotlivých slov odráží propagandu, cenzuru, ale i změny pravopisu (podoby zaznamenávaných slov), měnící se módnost různých témat i samotného myšlení.
K dispozici jsou prozatím digitalizované texty knih počínaje rokem cca 1500 n. l. Jde o cca 5,2 milionu knih a 500 miliard slov. 72 % převedených textů je v angličtině, menší počet v čínštině, němčině, francouzštině, španělštině, ruštině a hebrejštině. „Písmenek" je zde 10krát více než v lidském genomu.
Už první zkoumání přinesla podle vědců mnohá zajímavá zjištění. Ve 2. polovině 20. století třeba počet používaných anglických slov vzrostl o 70 %, ale mnohá z nich dosud vůbec nejsou zahrnuta v oficiálních slovnících. „Temnou hmotou", respektive nespisovnými a jinými výrazy, je tak až 52 %, tedy již většina anglických slov používaných v literatuře.
Minulost se nám vytrácí mnohem rychleji než dříve – což se odvodilo z toho, jak často se v textech v určité době objevují odkazy na starší letopočty (poznámka: to se zjišťovalo i sémanticky, nebo jen hledáním příslušného čísla?). Rychlost šíření inovací strmě stoupá, není to zdaleka až záležitost televize či Internetu. Slova označující nové vynálezy se na konci 19. století šířila mnohem rychleji než o 100 let dříve.
Současné celebrity se proslaví v mladším věku než dříve, jsou stále relativně slavnější, ale po kratší dobu („pět minut slávy", respektive příslušný „pík" je ostřejší). Celebrity dnes bývají rychle zapomenuty – největší životnost mají politici, menší spisovatelé, ještě menší herci. Inverzně to odpovídá věku, v němž se nejčastěji celebritami stávají: nejzmiňovanějším hercům je dnes kolem 30, spisovatelům kolem 40 a politikům kolem 50.
A co vědců týče, podle četnosti zmínek Freud porazil Darwina, Galilea i Einsteina....

ICTS24

Článek o projektu se objevil v časopisu Science.
Statistiky jsou veřejně přístupné a frekvenci zadaných slov lze sledovat pomocí aplikace Books Engram Viewer na webu Google Labs.

Zdroj: ScienceDaily