Zpracujte si data ze sociálních médií

2. 5. 2015

Sdílet

 Autor: © Creativa - Fotolia.com
Počet uživatelů Facebooku se už překročil jednu miliardu. A existují tady i další poměrně hojně užívané sociální sítě. Každý z uživatelů o sobě vytváří množství nestrukturovaných informací v elektronické formě. Jaké jsou možnosti zpracování těchto dat? Jednou z cest může být obsahová analýza.

Pokud je k dispozici obrovské množství dat, nabízí se otázka: jak z těchto údajů vytěžit zajímavé informace? Pokud se dokáže s daty vhodně pracovat a vyhledávat v nich, lze získat velmi užitečné poznatky. Je tu však jeden háček…

Dosavadní zpracování dat se zaměřovalo především na práci se strukturovanými daty – nad pevnou strukturou (například databázové tabulky) není s nástroji typu business intelligence problém modelovat takzvané datové kostky.

Jenže většina dat v internetu má formu nestrukturovaných dat. Často citovaná statistika říká, že zhruba čtyři pětiny všech existujících údajů je nestrukturovaných – jde například o webové stránky, textové dokumenty, audio- a videosoubory, záznamy z logů, prezentace, tabulky, dotazníky a podobně. Proto má smysl se analýzou nestrukturovaných dat vážněji zabývat.

 

Teorie a…

Dosud bylo možné zpracovávat nestrukturovaná data víceméně pouze manuálně. Podnikové procesy se uzpůsobily na předávání dokumentů pomocí workflow nástrojů, každý pracovník musí vstupní dokumenty přečíst, pochopit a udělat odpovídající kroky pro jejich zpracování.

Takový postup je ale pochopitelně hodně časově náročný, drahý a také velmi obtížně škálovatelný, ačkoliv v určitých případech jiné zpracování možné není.

Pokud se pomine manuální zpracování a zaměříme se na automatizované postupy při zpracování dat,  jsou nezbytné příslušný analytický nástroj a teoretická podpora. Velká část nestrukturovaného textu má přitom formu běžně psaného jazyka (články, dokumenty, knihy) – nazvěme jej přirozený jazyk.

Vědní obor, lze-li to tak nazvat, zabývající se zpracováním přirozeného jazyka, se nazývá NLP – Natural Language Processing. Odvětví se již rozvinulo do té míry, že vznikají obecné knihovny jako třeba  OpenNLP v rámci dobře známé komunity Apache. Zjednodušeně řečeno NLP rozebírá věty na části a z nich vybírá jednotlivé entity (lidé, místa, věci…).

…a nástroje

Na poli nástrojů se vývoj ubírá v zásadě dvěma směry: vyhledávací a analytické nástroje. Vyhledávání je poměrně jasné – nad hromadou nestrukturovaných dat je potřeba mít možnost hledat klíčová slova, pojmy, názvy, akce, a to vše v rámci jazykové struktury.

Nejde tedy o prosté hledání, ale o hledání v rámci větné konstrukce. Příkladem může být nacházení výskytu osoby jménem „Prokop“ – zcela jistě ale není zajímavé, zda někdo něco prokopl.

Analytické nástroje jsou velmi podobné vyhledávání s tím rozdílem, že se výrazně zaměřují na analytickou podporu uživatele pomocí vizualizace, detekci vzorců chování, odhalování vzájemných vazeb a podobně.

Nedílnou součástí těchto nástrojů je podpora pro vstup dat z různých datových zdrojů a v rozličných formátech. Namátkou jde například o soubory, webové stránky, konektory na CMS atd., ale i exportovací řešení jako tabulky, statistiky, grafy. Data se mohou rovněž předzpracovávat a odesílat do BI nástrojů.

Pro zdůraznění faktu, jak významné může být i celkem malé zlepšení podpory vyhledávání, lze zmínit výzkum agentury Forrester, která uvádí, že 45 % pracovní síly v USA stráví tři a více hodin týdně hledáním některých informací.

 

Příklady užití

Nástroje pro analýzu nestrukturovaných dat se hodí všude tam, kde je nezbytné zpracovávat velké množství dokumentů. Tady je několik praktických případů.

Organizace nechává své zákazníky vyplňovat dotazníky spokojenosti. Vybere si jich každý den desítky, za rok to jsou desetitisíce dokumentů. Textovou analýzou lze odhalit nejčastěji zmiňovaná témata.

Bankovní společnost zase může analyzovat texty psané do bankovních převodních příkazů. Tím lze získat dodatečná data například o tom, za co jsou klienti ochotní utrácet peníze.

Automobilový podnik může naopak vyhodnocovat servisní zprávy z oprav či reklamací svých vozů. Tím lze odhalit skryté vady, včas zlepšit kvalitu výroby, reagovat na nespokojenost zákazníků apod. Dalším příkladem může být podpora při detekci pojišťovacích podvodů.

 

Vliv sociálních médií

Sociální média jako Facebook, Twitter, LinkedIn a další se natrvalo usazují v běžném životě a vytvářejí jakýsi paralelní virtuální svět. Zdaleka již nejde pouze o posílání zpráv mezi přáteli, sdílení fotek z dovolené apod.

Sociální média masivně využívají firmy jakéhokoliv zaměření. V marketingových odděleních společností se usadili specialisté na on-line marketing v médiích těchto sítích, jehož rozpočty se každoročně navyšují. S tím roste i důležitost získávání informací o uživatelích zmíněných médií.

Renomované firmy typu Deloitte nebo IBM této oblasti přisuzují velký potenciál budoucího rozvoje a zaměřují své úsilí právě tímto směrem.

Když vstoupí zákazník do kamenného obchodu, prodavač o něm prakticky nic neví. Když uživatel sociální sítě vstoupí do elektronického obchodu, nejde o anonymní návštěvu. Správným vytěžením obsahu sociálních sítí lze zjistit poměrně dost informací (teď pomineme právní otázky uchovávání osobních dat). Obchodní aplikace může navíc aktivně oslovovat vytipované uživatele.

Uplatnění poznatků získaných analýzou sociálních sítí najde v podstatě jakákoliv produktová firma. Například když uvede na trh nový výrobek, sleduje, jak uživatelé reagují, to znamená, kolik píší příspěvků na dané téma, jaká klíčová slova se v nich vyskytují, jaké je ladění textů (pozitivní či negativní sentiment), kolik uživatelů „lajkuje“ jaké příspěvky, jaký je trend četnosti diskuzí a podobně.

Toto vše je možné samozřejmě sledovat i manuálně, ovšem pro velké množství dat by to byl velmi těžký úkol. Obtížně lze sledovat rovněž dlouhodobé trendy, když se dílčí výsledky ovlivní subjektivním pocitem hodnotitele.

Kromě podpory prodeje lze uplatnění hledat také v oblasti retence zákazníků. Analýzou se může generovat tzv. leady pro obchodní službu, doporučovat křížový prodej a podobně. Výzkumy dokazují, že největší skupina uživatelů je na internetu pasivních, to znamená, že převážně pouze čtou příspěvky, sbírají informace, tvoří si názor, ale neúčastní se diskuzí.

Pokud však některý nespokojený uživatel napíše negativně laděný příspěvek, pravděpodobně to ovlivní názor velké skupiny čtenářů.

Analýzou vazeb mezi uživateli a vyhodnocením sentimentu textů lze snadno, automatizovaně a s minimálním zpožděním identifikovat negativně laděný příspěvek. Pak už stačí jen vyvodit akci – přidat do diskuze omluvu výrobce, vysvětlení situace, kontaktovat autora apod., a tím výrazně pozvednout výsledné vnímání spotřebitelů.

 

Technické rozhraní sociálních médií

Vlastníci platforem sociálních médií jsou si vědomi obrovského bohatství ukrytého v informacích uvnitř svých sítí a neradi je sdílejí s ostatními. Současně vědí, že čím více své řešení otevřou, tím hojněji se bude využívat.

Někde uprostřed těchto protichůdných zájmů se nalézá kompromis, kolik dat platforma vlastně má poskytovat. Všechny velké sociální sítě dávají k dispozici aplikační rozhraní (často na principu REST webových služeb), přes které lze strojově dělat operace, podobně jako tak činí uživatel přes webový prohlížeč.

Takové rozhraní umožňuje určitý stupeň využívání, ale přitom chrání proti masivnímu stahování dat, například pomocí množstevních či časových limitů. Někde je přes placený přístup lze zvýšit. Omezení se popisují v příslušné dokumentaci, je třeba ale počítat s občasnými změnami (obvykle několikrát do roka), jelikož podléhají stálému vývoji.

 

Analýza sociálních médií od A do Z

A jak to všechno lze využít v praxi? Pokud máme nainstalované analytický software a konektory na sociální média, zadáme pro ně uživatelský účet, adresu stránky s firemním profilem (třeba na Facebooku) a vyhledávací kritéria, podle nichž Facebook poskytuje obsah.

Konektory (na trhu jsou dostupné pro nejrozšířenější platformy, jako Facebook, Twitter, Google+, LinkedIn, VK, webové stránky nebo diskuzní fóra) nejprve v analytickém programu vytvoří potřebné datové struktury, do kterých se obsah ukládá (struktura indexů). Pak se spustí stahování dat – to se může dělat i periodicky.

V  softwaru se pak dělá vlastní analytika, jejímž cílem je vytěžit ze získaných údajů obchodní poznatky. Nemusí to být přímočará cesta, spíše iterativní postup. Nástroj obvykle nabízí vizuální pohledy ve formě grafů, statistik, časových trendů a odchylek, zobrazení vztahů mezi entitami a mnoho dalších pohledů.

Sci-fi, nebo realita?

Představte si potenciál takto vytěžených informací. Na sociálních sítích lidé na sebe dobrovolně prozrazují spoustu informací včetně svých fotografií. V blízké budoucnosti se můžeme dočkat toho, že si nasadíme chytré brýle, a jak budeme na ulici potkávat ostatní lidi, budou nám podle rozpoznaných obličejů interaktivně napovídat detailní informace o právě míjených osobách.

I na tomto příkladu je názorně vidět, jak důležitá je bezpečnost na internetu a jaká moc se už teď soustřeďuje v rukou vlastníků sociálních platforem.

Autor pracuje jako produktový manažer ve společnosti  Cleverlance

bitcoin školení listopad 24

 

Tento příspěvek vyšel v tištěném Computerworldu 19/2014.