Speciální rukavice je vybavená 550 drobnými senzory přes celou plochu ruky, z nichž každý zachytává signály způsobené tlakem vznikajícím při manipuluci s předměty. Proto jim vědci daly název „škálovatelné hmatové rukavice" (anglicky STAG).
Signál je potom zpracováván konvoluční neuronovou sítí (CNN) a umožňuje jí „naučit“ se datové sady určitých vzorců, které při manipulaci s konkrétními předměty vznikají. Tento systém je potom dokáže rozpoznávat a předvídat jejich hmotnost pouze pomocí hmatu, bez jakéhokoli vizuálního vjemu. Článek ve vědeckém magazínu Nature popisuje 26 běžných věcí, které se výzkumníkům povedlo touto metodou zanést do systému dat — plechovku s pitím, nůžky, tenisový míček, lžíci, psací pero, hrnek atd. Díky souboru dat systém tyto předměty identifikoval s přesností do 76 procent a dokázal také určit jejich správnou váhu s odchylkou 60 gramů.
Přesnější robot s lepším úchopem
Podobné senzory osazené rukavice se dnes prodávají za tisíce dolarů a v některých případech jsou dokonce vybaveny jen 50 senzory, které zaznamenají mnohem méně informací. Rukavice STAG jsou na proti tomu schopny produkovat data ve velmi vysokém rozlišení a díky použití běžné dostupných materiálů při jejich výrobě, stojí zhruba pouhých 10 dolarů. Hmatový systém může být použit v kombinaci tradičním počítačovým rozpoznáváním pomocí obrazu, a poskytnout tak robotům lepší porozumnění interakce s okolními objekty.
„Lidé mohou pracovat s předměty velmi lehce a intuitivně, protože máme zpětnou vazbu v podobě hmatu. Když se něčeho dotkneme, můžeme pomocí tohoto smyslu celkem přesně určit co držíme, jenže tato schopnost robotům chybí,“ říká absolvent Laboratoře počítačových věd a umělé inteligence (CSAIL) Subramanian Sundaram a dodává: „Vždy jsme chtěli roboty naučit přesně ty věci, které musejí dělat lidé, jako mýt nádobí a další domácí práce. Pokud to chceme po robotech vyžadovat, musejí být schopni manipulovat s předměty stejně dobře jako my“.
Je zajímavé, že výzkumníci také mohou pomocí datasetu změřit, jak při pohybu spolupracují jednotlivé části ruky. Například pokud použijeme prostřední kloub našeho ukazováčku, je mnohem menší šance, že u toho budeme zároveň používat palec. Špičky prostředníčku a ukazováčku zase pokaždé pohybově korespondují s palcem. „Poprvé jsme kvantitativně ukázali, že jestliže hýbeme jednou částí ruky, jaká je pravděpodobnost, že budeme hýbat i její další částí,“ dodává Sundaram.
Využít toho mohou výrobci zdravotních pomůcek, když vybírají polohu k vhodnému umístění tlakových senzorů, což umožní upravit protézu podle toho, jaké činnosti s ní zákazníci budou obvykle provádět.
STAG rukavice jsou laminovány vodivým polymerem, který mění elektrický odpor vůči aplikovanému tlaku. Výzkumníci našili vodivá vlákna skrz otvory ve vodivém polymerním filmu od konečků prstů až k začátku dlaně. Tyto vodivé nitě se překrývají způsobem, který je mění na snímače tlaku, a když majitel rukavice zvedá, drží nebo pouští předmět, snímače zaznamenávají tlak v každém bodě. Spojení funguje směrem od rukavice do vnějšího obvodu, který převádí údaje o tlaku na tzv. „hmatové mapy“, což jsou v podstatě krátká videa, na nichž jsou rostoucí a smršťující se tečky na grafickém vyobrazení ruky. Tečky představují umístění tlakových bodů a jejich velikost představuje sílu — čím větší je tečka, tím větší je tlak. A z těcho map jsou vědci schopni dát dohromady soubor zhruba 135 000 snímků (framů) z 26 videozáznamů manipulace s předměty, které mohou být použity k pochopení a nápodobě lidského úchopu.
Pro identifikaci objektů vědci navrhli konvoluční neuronovou síť (CNN), která se obvykle používá pro rozpoznávání obrazu, aby spojila konkrétní vzory tlaku s konkrétními objekty. Trik ale byl v tom, že vybrali různé skupiny framů, každé zachycující rozdílné typy uchopení, a tím získali komplexní obraz předmětu ze všech stran. Šlo o napodobení způsobu, jakým lidé mohou předmět osahat, aby ho rozpoznali bez použití zraku. CNN vybere maximálně osm framů, které snímají různé typy úchopu. Systém ovšem nemůže vybrat náhodně jeden frame z tisíců v každém videu. Místo toho seskupí podobné framy k sobě, což vytvoří jejich shluky (klastry) pro jeden jedinečný typ uchopení. Potom oddělí jeden frame od ostatních z každého klastru a použije vzorce hmatového rozpoznávání k určení, jaké má daný předmět vlastnosti.
„Chtěli jsme maximalizovat různorodost framů, aby měla naše síť nejlepší možný přísun dat. Ze všech framů v jednom klastru by mělo být poznat, že reprezentují stejný způsob uchopení dané věci. Pokud bereme data z jejich rozdílných shluků, vlastně tím kopírujeme lidskou snahu osahat si předmět různými způsoby,“ vysvětluje další z autorů postdoktorant z CSAIL Petr Kellnohfer.
K odhadování hmotnosti byl vytvořen oddělený dataset zhruba 11 600 snímků z hmatových map vytvořených při zvedání předmětů pouze jedním prstem a palcem, jejich podržením a následým upuštěním. Síť CNN přitom nebyla „trénována“ na žádném z testovaných předmětů, což vyloučilo, že by se naučila automaticky spojovat jeden předmět s určitou váhou. CNN dokáže odlišit tlak způsobený váhou předmětu, od tlaku způsobeného jinými faktory jako například ohnutí ruky, kterým zabraňujeme předmětu vyklouznout. Na základě správného tlaku je tedy potom vypočítána hmotnost dané věci.