Hlavní navigace

Automatický nástroj by měl snížit vandalismus na Wikipedii

4. 10. 2010

Sdílet

Výzkumníci se snaží ušetřit práci správcům Wikipedie. Jak rozpoznat, že změny určitých hesel nejsou obsahu ku prospěchu? Vycházet lze z historie úprav, rozlišit schválené od neschválených a pro odhalení podezřelé změny aplikovat statistiku.

Wikipedia je založena na otevřeném přístupu k editování textů. To kromě výhod na druhé straně otevírá dveře i vandalům. A tak se tu a tak v historii encyklopedie u hesla Microsoft např. objevilo, že firma se jmenuje Microshaft a její produkty jsou dílem ďábla. Jindy jsou texty mazány, přepisovány náhodně (z prezidenta se stane výrobce sušenek), nebo naopak měněna klíčová slova (v hesle o Microsoftu se všude slovo Microsoft změní na Apple).

Co s tím? Wikipedia má samozřejmě řadu prostředků. Správci-dobrovolníci i jiní uživatelé hesla sledují a mohou změny vracet. U hesla, které je již uznáno za dostatečně komplexní, je politika obrácená: stávající verze zůstává a naopak změny musejí být speciálně schváleny. K tomu správci Wikipedie používají i celou řadu automatizovaných nástrojů: takto se vyhledávají např. vulgární výrazy, zachycuje se mazání celých sekcí nebo právě hromadné záměny klíčových slov (typu Microsoft za Apple, viz výše). Problém s těmito algoritmy je, že vesměs vyžadují dopředu i ruční práci a nedokáží vyhodnotit menší případy vandalismu.

Na University of Iowa nyní vyvinuli nástroj, který by měl tyto postupy zpřesnit a upozornit automaticky na ještě větší množství podezřelých změn. Algoritmus např. porovnává prováděné změny se slovy ve zbytku dokumentu nebo s předešlými změnami (které jsou k dispozici v rámci historie hesla). Vychází ze statistické analýzy.

Si-Chi Chin, který na University of Iowa dělá doktorát v oboru umělá inteligence, svůj nástroj testoval proti těm případům vandalismu, které lze stále najít v historii jednotlivých hesel. Vysvětluje, že pokud se v několika tisících úprav určitého hesla dosud nikdy neobjevilo např. slovo palačinka, je editace spočívající v přidání takového hesla nutně podezřelá. Dokonce i když u hesla, které již prošlo tisíci editacemi (zde míněno regulérními editacemi, nikoliv zamítnutými změnami), upravíte letopočet 1001 na 2001, je docela velká pravděpodobnost, že půjde o drobný vandalismus, pro dosavadní automatické metody téměř neviditelný. Samozřejmě, že ani tato metoda nefunguje 100%, údajně je však účinnější a její použití pro obsluhu především méně pracné než současné postupy. Padmini Srinivasan, profesor computer science a další člen výzkumného týmu, uvedl, že problémem nadále zůstává vkládání irelevantních odkazů (spam), jejichž cílem může být např. zvýšit Google page rank a návštěvnost určitých webů. Taktéž se zatím jen těžko automaticky odhalují záměny obrázků (včetně záměn typu prezidenta Lincolna za sekvoj).

Nový algoritmus se ovšem údajně umí učit, takže se podle autorů jeho účinnost může zlepšovat. Taktéž by se měl automaticky naučit reagovat na nové trendy a módy, které se ve vandalství jistě objeví – původní zdroj to srovnává s tvorbou graffiti.

 

ICTS24

Zdroj: ScienceDaily