Devět zdarma dostupných nástrojů umělé inteligence, které poběží na vašem domácím počítači

2. 1. 2024

Tyto chytré nástroje umělé inteligence mohou mít velký vliv na vaši práci, protože pro řešení obtížných úkolů používají velmi propracované modely.

Mnoho programů využívajících techniky umělé inteligence má otevřený zdrojový kód, a je tedy zcela zdarma – a není to náhodou. Tou prapůvodní příčinou je fakt, že se první pokusy s umělou inteligencí prováděly na akademické půdě, kde jsou bezplatné licence na software běžnou praxí, a to za účelem podpory spolupráce a dalšího vývoje.

Co se dozvíte v článku

Tím nejdůležitějším jsou vždy modely
Final 2× – Zvětšení velikosti obrázků
Meshroom – 3D skener pro chytré telefony
Kdenlive – Sledování objektů pomocí umělé inteligence
Spleeter – Spojování hudby do stop
Microsoft Edge – Vylepšení obrázků
Vosk – rozpoznávání řeči pomocí AI
Digikam – rozpoznávání obličejů na fotografiích
Hugin – vytváření panoramat ze sérií snímků
Subsync – synchronizace titulků

V tomto článku však nejde ani o vývojové platformy (frameworky), ani o knihovny pro různé formy umělé inteligence, ale o hmatatelné a užitečné aplikace umělé inteligence pro váš vlastní počítač. Přitom pod pojem umělá inteligence lze zahrnout různé její aplikace, jako jsou neuronové sítě, strojové učení, hluboké učení nebo zpracování přirozeného jazyka. Na následujících řádcích se budete moci setkat s každou z nich!

Tím nejdůležitějším jsou vždy modely

Různé přístupy k rozpoznávání vzorců, ke strojově zpracovávaným rozhodovacím stromům a k automatizaci úloh jsou postaveny na již hotových tréninkových datech a modelech. Volná dostupnost těchto dat je jedním z hlavních důvodů, proč je možné mít ve volně dostupném softwaru tyto velmi užitečné technologie umělé inteligence.

Vývoj modelů obvykle trvá roky a k dispozici jsou často terabajty nezpracovaných dat, která je třeba vyhodnotit. S rostoucím výpočetním výkonem běžného počítačového hardwaru se však během posledních let vývoj modelů umělé inteligence a analýza tréninkových dat zrychlily, což umožnilo prosadit se v této oblasti i menším výzkumným týmům.

Následující soubor řešení se zabývá praktickými přínosy, tj. implementací metod především ve volně dostupném softwaru pro operační systém Windows, který názorně ukazuje, jak daleko v současnosti technologie pokročila, a to aniž bylo nutno uvolňovat vysoké investice.

Svoji zásluhu na tomto příznivém trendu ovšem má i vývoj v oblasti softwaru šířeného pod licencí Open Source – například díky frameworku pro hluboké učení (deep learning) s názvem Pytorch je od roku 2016 k dispozici vývojová platforma od sociální sítě Facebook a firmy Microsoft. Pytorch nalezl své uplatnění především ve výzkumu a v projektech svobodného softwaru, a to díky svým API pro Python a C++. Mimo jiné je na něm založen i autopilot firmy Tesla.

Dalším velmi populárním a zdarma dostupným frameworkem je Tensorflow, jehož autorem je firma Google a který disponuje velmi těsnou vazbou na Google Cloud. Mimoto samozřejmě obsahuje i celou řadu knihoven pro osobní použití.

Jsou to právě tyto dva frameworky, jejichž umělá inteligence se ve valné míře využívá v námi níže představovaných programech, a to díky propojení algoritmů a datových modelů, případně díky klíčové roli, kterou tyto frameworky hrály při jejich vývoji.

Final 2× – Zvětšení velikosti obrázků

Zvětšeno a velmi dobře: Řešení Final 2x běží na libovolné jednotce CPU i GPU. Rozpixelovaný obrázek vlevo byl oproti originálu čtyřikrát zvětšený (výsledek je vidět vpravo). K této operaci byl použit algoritmus Waifu 2x.

Škálování bitmapového obrázku pouhým zvětšením jednotlivých pixelů vede pokaždé a nevyhnutelně k výrazné ztrátě kvality. V aplikaci Final 2×v ovšem nemusí být zvětšování bitmap nutně ztrátové. Program Final 2× úspěšně zvětšuje grafiku a vyhlazuje ji do posledního detailu – k tomu používá neuronové sítě a příslušné modely.

Díky nasazení algoritmů Real Cugan, Real Esrgan, Waifu 2× a SRMD nabízí řešení Final 2× čtyři způsoby pro úpravu velikosti obrázků, a to s cílem dosažení co možná nejlepších výsledků. Program rovněž dokáže výrazně vylepšit rozpixelované fotografie ve formátu JPG se šumem a silnými deformacemi.

Instalace: Řešení Final 2× neuvádíme jako první z námi nabízeného seznamu velmi užitečných nástrojů náhodou. Jeho výhodou je i velmi snadná instalace v operačním systému Windows, takže se do experimentování můžete pustit doslova zakrátko. Přitom toto řešení ani nemá žádné zvláštní hardwarové požadavky, protože neuronové sítě a algoritmy použité v řešení Final 2× budou fungovat jak na čipech firmy Nvidia, tak na čipech firem AMD či Intel. Dokonce vystačíte i s jednotkou GPU integrovanou na základní desce.

Stejně jako u všech nástrojů pro umělou inteligenci a pro využívání neuronových sítí platí i zde, že je vhodné mít v počítači co možná nejvíce operační paměti RAM. Autor řešení Final 2× nabízí na své internetové stránce na platformě Github velmi komfortní instalační program pro operační systém Windows (jedná se o soubor Final2×-windows-x64– setup.exe o velikosti 260 MB), díky němuž celou instalaci zvládnete doslova několika klepnutími myší.

Princip funkce: Po spuštění řešení Final 2× se zobrazí vstupní pole, do něhož je nutno zadat soubory obrázků ve formátu JPG nebo PNG, které chcete zvětšit (soubory stačí uchopit a následně pustit na zmiňované pole). Poté klepnete na ikonku ozubeného kolečka, které se nachází v okně programu vlevo dole, čímž se vám zobrazí okno s možnostmi nastavení. V sekci Device je možné vybrat jednotku CPU nebo GPU, která se má pro výpočet použít (pokud je jich v počítači více).

Kvality výsledného obrázku velmi závisí na použitém modelu. Takový algoritmus Real-ESRGAN se velmi dobře hodí pro fotografie, zatímco Waifu 2× se specialistou na výkresy. Míru zvětšení definujete v poli Custom Scale. V každém případě doporučujeme povolit volbu TTA, díky níž se vám podaří dosáhnout obrázků obsahujících jen minimum šumu.

Nakonec v hlavním okně programu klepněte na položku Start, kterou výpočet spustíte. Doba výpočtu závisí na složitosti obrázků – u složitých obrázků může celá operace trvat i několik minut.

Meshroom – 3D skener pro chytré telefony

Vítejte v trojrozměrném světě: Řešení Meshroom vytvoří u fotografií skutečných objektů trojrozměrnou mřížku, takže je pak můžete následně zpracovávat v programech typu CAD nebo v programech pro práci s 3D modely, jako je například Blender.

Při skenování reálných objektů používá 3D laser a ze získaných dat pak vytváří soubor, který je možné použít pro další zpracování v programech typu CAD či programech pro vytváření a zpracování animací. To, co zní velmi složitě, je ve skutečnosti možné provést i v malém měřítku – například pomocí běžného chytrého telefonu nebo digitálního fotoaparátu – v kombinaci se zdarma dostupným softwarem Meshroom. Tento software je založen na fotogrammetrických knihovnách vývojáře Alicevision a je k dispozici pod licencí Open Source a pro bitový operační systém Windows. Program provede analýzu celé série snímků, vypočítá tvar fotografovaného objektu a vytvoří nakonec vytvoří soubor obsahující mřížku.

Instalace: Vzhledem k používání rozhraní Cuda, které je pro provádění výpočtů nezbytné, je třeba mít v počítači, kde hodláme používat program Meshroom, grafickou kartu Nvidia s podporou rozhraní minimálně ve verzi Cuda 2.0. Seznam grafických karet, které toto rozhraní podporují, najdete v podobě tabulky na webu firmy Nvidia. Mimochodem: velikost ovladačů Cuda od společnosti Nvidia pro Microsoft Windows se pohybuje okolo 3 GB.

Po dokončení konfigurace grafické karty a rozhraní od firmy Nvidia můžete začít s instalací aplikace Meshroom (1,3 GB). U grafických karet AMD a čipů Intel funguje Meshroom pouze v méně přesném režimu skicování. A ti, kdo jsou skutečně hodně trpěliví, si mohou vyzkoušet alternativní verzi Meshroomu bez podpory rozhraní Cuda.

Princip funkce: Při fotografování objektu, který má být následně skenován, je důležité, aby se nacházel samostatně v prázdné místnosti. Pak je třeba pořídit desítky fotografií z každé strany pod různými úhly, s velkou hloubkou ostrosti a bez rozmazání. Pozor! Nepoužívejte snímky o velikosti větší než 10 megapixelů. Pořízené soubory se snímky následně přetáhněte do levé části s názvem Images. Následně se spustí výpočet, který i na grafických kartách Nvidia může trvat klidně i několik hodin.

Pro další optimalizaci sítě se pak doporučuje použít 3D software, například zdarma dostupný program Blender.

Kdenlive – Sledování objektů pomocí umělé inteligence

Sledování objektu: Algoritmus DaSIAM pro sledování objektů spolupracuje v novějších verzích editoru videa s KITechniques a dokáže například rozmazáním učinit obličeje nerozpoznatelnými.

Tento zdarma dostupný editor videa si umělou inteligencí, resp. její implementací v různých funkcích pohrává již celé dva roky. Třeba taková funkce sledování pohybu, přesněji automatické sledování objektů ve videích, dokáže na detekované motivy aplikovat masku a na ni potom nasadit požadované efekty. Tuto funkci například ocení všichni ti, kdo potřebují ve videu například pixelizovat nějaké objekty.

Instalace: Program Kdenlive je k dispozici pro operační systém Windows (64bitovou verzi), a to pod licencí Open Source, a to v podobě instalačního souboru o velikosti 100 MB, což znamená, že jeho instalace probíhá velmi rychle. K dispozici jsou navíc i modelová data pro algoritmus sledování pohybu. Jedná se o tři soubory – soubor „dasiamrpn_kernel_cls1.onnx“, „dasiamrpn_kernel_r1.onnx“ a "dasiamrpn_model.onnx“ – všechny pochází od vývojářů programu Kdenlive. Všechny tři soubory je třeba umístit do složky, kam se aplikace Kdenlive instaluje, což zajistíte následovně: Spusťte program Průzkumník souborů a do jeho panelu Adresa zadejte adresu %AppData%/kdenlive. Následně v této složce vytvořte podsložku s názvem opencvmodels a do ní následně vložte ony tři zmiňované soubory modelů.

Princip funkce: V aplikaci Kdenlive je sledování pohybu k dispozici v podobě efektu. Pokud tedy budete chtít tuto funkci použít, je třeba nejprve umístit importované video ze seznamu vlevo nahoře na časovou osu, která se nachází níže. Následně se přesuňte na záložku Effects, která se nachází na prostředním panelu s nabídkami, a zde vyberte položku Alpha, Mask and Keing – Motion Tracker. Když nyní zmiňovaný efekt přetáhnete na otevřené video, zobrazí se přehled možností tohoto efektu a v okně náhledu se zobrazí červený čtverec. V nastavení je nyní třeba nastavit pro algoritmus na sledování pohybu (Tracker algorithm) typ DaSIAM. Poté na časové ose přejděte na první snímek, umístěte červený rámeček výběru kolem objektu a poté stiskněte tlačítko Analysis, jež spustí výpočet klíčových snímků kolem objektu. Současně je samozřejmě možné nastavit i případnou pixelizaci detekovaných objektů, například obličejů.

Spleeter – Spojování hudby do stop

Šikovně provedená rozborka: Program Spleeter pracuje na příkazovém řádku a využívá umělou inteligenci a rozsáhlé modely k tomu, aby soubory s hudbou ve formátu MP3 rozložil na jednotlivé stopy, přičemž každá stopa reprezentuje jeden hudební nástroj.

Pomocí nástroje Spleeter se z namixované hudby dají opět izolovat jednotlivé skladby: Ano, je to tak – program Spleeter využívající umělou inteligenci si získal velkou pozornost již před dvěma lety, kdy byl představen poprvé. Dokáže totiž velmi zajímavou věc, a to rozdělit hudbu ve formátu MP3 na dvě, čtyři nebo pět jednotlivých stop, k čemuž používá předem natrénované modely.

Program Spleeter dokáže ve skladbě rozpoznat různé hudební nástroje či složky, jako jsou například vokály, basy, bicí či rytmická sekce. Tento nástroj pracující v prostředí příkazového řádku totiž využívá pro analýzu datového toku v hudebních skladbách knihovnu umělé inteligence s názvem Tensorflow a k rozdělení izolovaných stop do jednotlivých souborů MP3 pak nástroj pro kódování s názvem Ffmpeg.

Samotný nástroj umělé inteligence včetně natrénovaných modelů pochází od francouzské streamovací služby Deezer, která dostala svolení použít skutečně obrovský katalog popové hudby jako analytický materiál pro rozpoznávání vzorů. Tato tréninková data jsou k dispozici zdarma i pro soukromé použití, je však nutné je instalovat samostatně.

Instalace: Díky popularitě, kterou si tento program získal, mají zájemci možnost získat verzi programu Spleeter pro operační systém Windows. Tato verze jim ušetří zdlouhavou instalaci jednotlivých součástí programu v jazyce Python. Tento kompaktní instalační soubor pro operační systém Windows je k dispozici prostřednictvím správce balíčků Chocolately, který je ovšem třeba nejprve nastavit. Proto je třeba nejprve spustit prostřednictvím nabídky Start program Windows PowerShell, a to tak, že na ikonku této aplikace v nabídce Start klepnete pravým tlačítkem myši a z místní nabídky, která se vzápětí zobrazí, vyberete položku Spustit jako správce. Následně v prostředí programu Windows PowerShell zadejte příkaz:

Set-ExecutionPolicy AllSigned

Tím upravíte oprávnění pro spouštění. Následně zadejte příkaz:

Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString(‚https://chocolatey.org/install.ps1‘)))

Tímto příkazem nainstalujete Chocolately – správce balíčků pro operační systém Windows.

Následujícím příkazem se pak již může nainstalovat námi požadovaný program Spleeter – tentokrát v prostředí PowerShell a pomocí správce balíčků Chocolately:

choco install spleeter-msvc-exe.

To ale není všechno, protože teď přichází na řadu instalace tréninkových modelů. K tomuto účelu se použije dávkový soubor „download_models.bat“ v nově vytvořeném adresáři „C:\ProgramData\chocolatey\lib\spleeter-msvc-exe\tools\models“, který se rovněž vyvolá v prostředí Windows Powershell a stáhne asi 1,2 GB dat, což není žádná maličkost. A nakonec je ještě třeba nainstalovat Visual C++ Redistributable od firmy Microsoft, protože toto řešení Spleeter vyžaduje také.

Princip funkce: Po dokončení všech výše uvedených kroků můžete pokračovat v prostředí Powershell nebo v příkazovém řádku. Příkazem

spleeter.exe soubor.mp3

rozdělíte zadaný soubor ve formátu MP3 v aktuálním adresáři na vokály a nástroje, které program umístí do samostatných souborů ve formátu MP3. Jedná se o nejjednodušší příklad použití tohoto programu, který navíc na současném počítači s průměrným výkonem zabere jen několik sekund výpočetního času. V typické popové hudbě však Spleeter dokáže rozpoznat i další stopy, které je schopen následně oddělit do samostatných souborů ve formátu MP3, jako například bicí nebo baskytaru.

spleeter.exe -m 4stems soubor.mp3

V tomto příkladu používá Spleeter funkci rozpoznávání vzorů k vyhledání čtyř samostatných stop v hudební skladbě, a to vokálů, basy, bicích a rytmu/doprovodu. Výpočet v tomto případě trvá o něco déle – ono to totiž přece jen nějakou tu chvíli trvá, než se jednotlivé stopy uloží do pracovního adresáře jako samostatné soubory ve formátu MP3.

Pokud se v hudební skladbě doprovod nějakým způsobem výrazně odlišuje, dokáže program Spleeter rozdělit hudební skladbu dokonce do pěti samostatných stop. Nejlépe z tohoto pohledu funguje dělení na vokály, basy, bicí, klavír a rytmickou složku. K rozdělení hudební skladby do pěti soubor je třeba použít následující příkaz:

spleeter.exe -m 5stems soubor.mp3

Dobře fungující rozložení hudebních skladeb na jednotlivé stopy: Program Spleeter je nástroj příkazového řádku, který využívá umělou inteligenci a pokročilé modelování k rozdělení hudebních souborů ve formátu MP3 na jednotlivé stopy, přičemž každá stopa obsahuje jeden hudební nástroj.

Microsoft Edge – Vylepšení obrázků

Firma Microsoft, za kterou stojí její vlastní datová centra, velmi intenzívně pracuje na obohacení každodenně využívaných programů co největším množstvím technik umělé inteligence. Co se z toho trendu v budoucnu osvědčí, ještě uvidíme. V každém případě velmi slušných výsledků firma Microsoft dosahuje již nyní při zobrazování obrázků a dokonce videí na monitorech s vysokým rozlišením. Konkrétně jde o nové funkce internetového prohlížeče Edge, které dokáží provádět automatické zvětšování právě obrázků či videí.

Instalace: Internetový prohlížeč Microsoft Edge je sice standardní součástí operačního systému Windows, nicméně techniky umělé inteligence pro vylepšení obrazu jsou k dispozici pouze ve vývojářské verzi prohlížeče Edge. Instalační soubor této veřejně dostupné vývojářské verze internetového prohlížeče Microsoft Edge je k dispozici.

Princip funkce: Internetový prohlížeč neprovádí zmiňované vylepšení obrazu místně v počítači, nýbrž odesílá obrázky na servery firmy Microsoft, kde jsou extrapolovány a odeslány zpět do internetového prohlížeče. Z toho vyplývá, že firma Microsoft přesně ví a vyhodnocuje, které obrázky uživatelé na webu načítají. Z tohoto důvodu není tato funkce využívající umělou inteligenci ve výchozím nastavení povolena. Aktivaci funkce je nutné provést na stránce s možnostmi nastavení internetového prohlížeče, a to na adrese edge://settings/privacy/enhanceImages , kde je třeba povolit příslušný přepínač.

Tam lze tuto funkci také aktivovat konkrétně pro jednotlivé internetové stránky. V alfa verzích prohlížeče Microsoft Edge nazvaných Canary (a pouze v nich) je k dispozici funkce umělé inteligence, která dokáže vylepšit rozmazaná videa až do rozlišení 720p, k čemuž používá vlastní grafický procesor. Tato varianta nasazení umělé inteligence dostupná v internetovém prohlížeči Edge je ovšem použitelná pouze u počítačů, v nichž se nachází novější čipy grafických karet od firem AMD nebo Nvidia. Současně musí být na těchto počítačích nainstalovány i vhodné ovladače. Na druhou stranu tato varianta neodesílá žádná data na servery firmy Microsoft.

Vosk – rozpoznávání řeči pomocí AI

Od mluvené řeči až k titulkům: V této ukázce jsme nechali program Vosk rozpoznávat mluvenou řeč nacházející se na zvukové stopě videa ve formátu MP4 nacházejícího se na portálu YouTube. Výstupem z činnosti programu pak byl soubor ve formátu SRT, který je vidět na obrázku.

Od mluveného slova zaznamenaného v souboru k čistému přepisu do podoby psané v současnosti není až tak daleko, jak by se mohlo zdát. Jedním z řešení na tomto poli je vývojový rámec (framework) Vosk, který je založen na enginu pro rozpoznávání řeči s názvem Kaldi. Jedná se o projekt Univerzity Johnse Hopkinse vyvíjený pod licencí Open Source.

Instalace: Vývojový rámec Vosk potřebuje mít v počítači s operačním systémem Windows pro svou správnou funkčnost nainstalovaný programovací jazyk Python 3.11. Při instalaci je třeba povolit možnost Add Python to PATH. V příkazovém řádku pak v rámci instalace zadejte následující dva příkazy:

pip install ffmpeg

pip install vosk

Výše uvedené příkazy zajistí instalaci všech komponent potřebných pro správnou funkčnost vývojového rámce Vosk. Dále je nutno do počítače nainstalovat enkodér/dekodér videa zvuku s názvem Ffmpeg, a to v podobě souboru „ffmpeg-git-essentials.7z“. Obsah archivu je pak třeba umístit do nově vytvořeného adresáře „C:\Program Files\ffmpeg“ tak, aby se v něm v podsložce „bin“ nacházel soubor „ffmpeg.exe“. Nyní je třeba přidat cestu „C:\Program Files\ffmpeg\bin“ do proměnné prostředí systému Windows s názvem „Path“. To lze provést prostřednictvím tlačítka Windows na Hlavním panelu > Nastavení > Systém > O systému > odkaz Upřesnit nastavení systému > tlačítko Proměnné prostředí > sekce Systémové proměnné > tlačítko Nová.

Princip funkce: Nyní se přesuňte na internetové stránky platformy Github, a to na internetovou adresu http://github.com/alphacep/vosk-api, kde stiskněte tlačítko Code a následně z nabídky, která se vzápětí zobrazí, vyberte položku Download ZIP. Tímto způsobem získáte několik ukázkových skriptů, které následně ze staženého archivu ve formátu ZIP rozbalte do libovolného adresáře. V tomto adresáři pak v podsložce „\pythonvosk\transcriber“ najdete ukázkový skript „transcriber.py“. Ten následně stačí spustit v následující podobě:

vosk-transcriber -l cs-us -i test.mp4 -t srt -o english.srt

Konkrétně tento příkaz vezme soubor videa s názvem test.mp4, provede rozpoznání řeči, vytvoří časové značky a konečně výstup uloží do souboru s titulky s názvem „english.srt“ Skript automaticky stahuje vhodný jazykový model. Hotový soubor pak lze dále zpracovat v jiných překladatelských programech a vytvořit tak titulky pro jiný jazyk.

Digikam – rozpoznávání obličejů na fotografiích

Program Digikam provádí rozpoznávání obličejů: Ze snímků ve vaší galerii fotografií vytvoří tento správce fotografií místní databázi osob a poté umožní značkování (tagging) a vyhledávání osob.

Digikam je databázově orientovaný nástroj pro organizaci rozsáhlých sbírek fotografií, který se neustále vyvíjí, a to již více než 15 let. Původně byl sice určen pro Linux, nicméně je pravidelně převáděn i pro použití v operačním systému Windows. Důvod je jednoznačný: program Digicam totiž disponuje celou řadou skutečně rozsáhlých možností: kromě třídění a uspořádání fotografií podle alb, značek a klíčových slov umožňuje třídění i na velmi pokročilé úrovni. I tento program využívá umělou inteligenci, a to konkrétně při rozpoznávání obličejů a automatickém vyhodnocování kvality snímků, což jsou funkce, které patří v programu mezi ty novější.

Instalace: Program Digikam do počítače s operačním systémem Windows (vyžadována je 64bitová verze) nainstalujete velmi snadno, a to spuštěním instalačního programu (114 MB). Při instalaci budete instalačním programem vyzváni k zadání některých potřebných údajů, pro ty ostatní pak použije (dlužno říci rozumně zvolené) výchozí parametry. Po prvním spuštění programu Digikam pak aplikace sama nabídne možnost stažení dat pro model umělé inteligence potřebných pro rozpoznávání obličejů, což na disku zabere dalších přibližně 420 MB.

Princip funkce: Program Digikam experimentuje s rozpoznáváním obličejů ve snímcích prostřednictvím neuronových sítí už od verze 2.0. Ovšem až od verze 7.2 se tato technologie umělé inteligence v programu Digikam osvědčuje i v praxi. Samotné rozpoznávání obličejů na snímcích funguje tak, že po otevření se na snímku zobrazí ikonka osoby se znakem plus. Pomocí této ikonky pak jednoduše na snímku vyberete obdélníkovou oblast, která obsahuje obličej a tento obličej pojmenujete.

Tento postup následně opakujete s několika dalšími snímky, které obsahují stejnou osobu, a nakonec její jméno vyberete ze zobrazeného seznamu. Poté můžete danou osobu (nebo samozřejmě všechny další, které máte v databázi programu) zkusit vyhledávat v celé své sbírce fotografií – stačí k tomu použít nabídku Search > People.

Hugin – vytváření panoramat ze sérií snímků

Nástroj Hugin automaticky slučuje obrázky na základě společného vzoru. Funguje tak, že ze souboru na sebe navazujících snímků vypočítá celistvou scenérii nebo panoramatický snímek. K tomu pak využívá kontrolních bodů, které jsou vidět na tomto obrázku.

A máme tu další program pro práci s fotografiemi, který vám ušetří spoustu hodin zdlouhavé práce s vašimi snímky a který vám umožní z fotografií krajiny vytvářet zcela nové scenérie. Program Hugin jinými slovy dokáže ze vzájemně se překrývajících sérií jednotlivých snímků vytvořit panoramatické fotografie. Panoramata se u fotografování krajin používají zejména pro zachycení napětí a dramatických okamžiků, což samozřejmě dokáží vytvářet i aplikace pro chytré telefony. Program Hugin vám ovšem nabízí možnost mít nad celým procesem a výsledkem úplnou kontrolu a mimochodem dokáže spojovat jednotlivé snímky i do svislých řad.

Instalace: Hugin je program určený pro operační systém Windows. Jeho instalace je velmi snadná: stačí jej rozbalit z archivu ZIP do libovolné složky. Aplikaci následně spustíte poklepáním na spustitelný soubor hugin.exe, který najdete v podsložce „bin“.

Princip funkce: Hugin je nástroj pro pokročilé uživatele a neměli byste být ochuzeni o zdlouhavé experimenty, dokud neprozkoumáte všechny funkce programu. Doporučujeme začít s malými panoramaty sestávajícími ze dvou jednotlivých snímků přidaných na kartu Obrázky. Pro dosažení dobrých výsledků byste měli vždy ručně přidat ohniskovou vzdálenost z metadat jednotlivých snímků. Přidané kontrolní body mezi překrývajícími se snímky prostřednictvím stejnojmenné karty výrazně zlepšují výsledek.

Subsync – synchronizace titulků

Výpočet časových kódů v souborech s titulky za účelem synchronizace s videem: Program Subsync používá pro rozpoznávání hlasu modul Pocketsphinx, který je integrovaný přímo v programu. Při své činnosti provádí analýzu celého souboru videa.

Skutečně opravdoví fanouškové filmu jednoznačně upřednostňují sledování filmů či seriálů v původním znění, tj. bez dabingu. Nicméně takové titulky se hodí vždy, a pokud se jedná o film v neznámém jazyce, jsou naprostou nutností.

Na Internetu existují internetové stránky, jako je například web opensubtitles.org, které nabízí titulky k seriálům a filmům ve formátech, které jsou podporovány multimediálními přehrávači, jako je třeba VLC. Potíž zde často spočívá v nalezení vhodného souboru s titulky, který běží synchronně s daným videosouborem. Vždyť pokud titulky ve filmu neodpovídají aktuálnímu mluvenému slovu, je zážitek z filmu minimální.

Synchronizaci titulků s mluveným slovem ve filmu však dokáže provést zdarma dostupný nástroj Subsync, a to díky kombinaci využití technologie pro rozpoznávání řeči a umělé inteligence.

Instalace: Ani v tomto případě není nutné se nijak vypořádávat s příkazovým řádkem. Na internetové stránce projektu – tj. na webu https://github.com/sc0ty/subsync/releases je k mání instalační program a přenosná verze pro všechny 64bitové edice operačního systému Windows (k dispozici zdarma, 42 MB).

Po spuštění spustitelného souboru EXE se program rozbalí do podsložky, ve které pak najdete vlastní soubor programu.

Princip funkce: V rozhraní programu stačí do horního pole s názvem Subtitles zadat cestu k souboru ve formátu SRT obsahujícího titulky a vedle něj pak zadáte jazyk, v jakém jsou titulky obsažené v tomto souboru. Pod popisovaným polem se nachází políčko References, kam je třeba zadat soubor videa a vedle něj a vedle něj je třeba zvolit jazyk.

Když nyní klepnete na tlačítko Start, stáhne program Subsync pro vybrané jazyky příslušné soubory se slovníky o velikosti několika desítek megabajtů.

Nakonec se na základě nalezených shod spustí synchronizace a Subsync ještě navíc provede přepis časových značek nacházejících se v souboru SRT.

Získejte pro svůj produkt či službu ocenění IT produkt roku! Soutěž „IT produkt roku“ vyhlašuje redakce Computerworldu s cílem vyzdvihnout výrobky disponující vlastnostmi, které je významně odlišují od konkurenčních produktů stejné kategorie. Může přitom jít jak o celkově inovativní pojetí produktu, tak o jednotlivé funkční zdokonalení, výrazně zjednodušené ovládání nebo třeba o výjimečně příznivou cenu.

Soutěž probíhá ve třech samostatných kolech v kalendářním roce a každý postupující produkt či služba do jednoho ze tří finálových kol získává právo na titul IT produkt roku.

Máte-li zájem účastnit se soutěže IT produkt roku, neváhejte. Kontaktujte nás prosím na itprodukt@iinfo.cz.

O přihlášku a více informací si můžete napsat nebo zavolat na telefonech 776 204 420 nebo 604 266 707 či 725 326 893, případně na také na adrese itprodukt@iinfo.cz.

Našli jste v článku chybu?

Sdílet

Tím nejdůležitějším jsou vždy modely

Final 2× – Zvětšení velikosti obrázků

Meshroom – 3D skener pro chytré telefony

Kdenlive – Sledování objektů pomocí umělé inteligence

Spleeter – Spojování hudby do stop

Microsoft Edge – Vylepšení obrázků

Vosk – rozpoznávání řeči pomocí AI

Digikam – rozpoznávání obličejů na fotografiích

Hugin – vytváření panoramat ze sérií snímků

Subsync – synchronizace titulků

Autor článku

Roland Freist

David Čepička

Témata:

Mohlo by vás zajímat

Anketa

Využíváte už některé z inovativních metod šifrování?

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Nedostatečné zabezpečení koncových zařízení ohrožuje firmy

České rodinné firmy podceňují zapojování nástupců do klíčových rozhodnutí

Canalys: Trh chytrých náramků a hodinek vyrostl o 3 %, o trůn se dělí Apple s Xiaomi

Jak zabránit zneužívání umělé inteligence – je AI Akt řešením?

Finanční ohodnocení za práci v roce 2024: Více peněz dostalo 46 % zaměstnanců, nejčastěji o 2 až 5…

Entec Solutions představuje xFusion pro extra výkon

Co najdete v posledním letošním magazínu CIO 6/2024

Třináctý plat dá letos zaměstnancům třetina firem

Mastercard: Česká ekonomika příští rok zrychlí růst na 2,6 procenta

Devět zdarma dostupných nástrojů umělé inteligence, které poběží na vašem domácím počítači

Sdílet

Tím nejdůležitějším jsou vždy modely

Final 2× – Zvětšení velikosti obrázků

Meshroom – 3D skener pro chytré telefony

Kdenlive – Sledování objektů pomocí umělé inteligence

Spleeter – Spojování hudby do stop

Microsoft Edge – Vylepšení obrázků

Vosk – rozpoznávání řeči pomocí AI

Digikam – rozpoznávání obličejů na fotografiích

Hugin – vytváření panoramat ze sérií snímků

Subsync – synchronizace titulků

Autor článku

Roland Freist

David Čepička

Témata:

Mohlo by vás zajímat

Kybernetická bezpečnost: Podcast o tajemstvích bezpečnostních operačních center s Pavlem Hrabcem

Neinstalujte novou aktualizaci Windows. Způsobuje problémy se skenery a tiskárnami

Co je nejoblíbenější způsob použití umělé inteligence v práci?

Anketa

Využíváte už některé z inovativních metod šifrování?

Kvíz týdne

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Z našich webů

Nedostatečné zabezpečení koncových zařízení ohrožuje firmy

České rodinné firmy podceňují zapojování nástupců do klíčových rozhodnutí

Canalys: Trh chytrých náramků a hodinek vyrostl o 3 %, o trůn se dělí Apple s Xiaomi

Jak zabránit zneužívání umělé inteligence – je AI Akt řešením?

Finanční ohodnocení za práci v roce 2024: Více peněz dostalo 46 % zaměstnanců, nejčastěji o 2 až 5…

Entec Solutions představuje xFusion pro extra výkon

Co najdete v posledním letošním magazínu CIO 6/2024

Třináctý plat dá letos zaměstnancům třetina firem

Mastercard: Česká ekonomika příští rok zrychlí růst na 2,6 procenta

Dále u nás najdete

Ona pracuje s jehlou a nití, on se štětci a barvami

Díky aplikaci placené pojišťovnou se povedlo objevit devět melanomů

Úřad a zpracovatelé masa chtějí, ať se vege párky a rostlinné burgery jmenují jinak

Neplaťte si IT kurzy sami, využijte dotace od EU

640 kB paměti by mělo stačit každému: skutečně?

Simona Kijonková: Dívala jsem se na investice za 1,4 miliardy

Nové HDMI 2.2 už je za rohem

Vytvořil Google první použitelný kvantový počítač?

Vánočka se pletla z devíti pramenů. Ale klidně ji upleťte jen ze čtyř, pěti nebo šesti

OpenAI zavádí do ChatGPT „Santa Mode“. Co říká na Ježíška?

Online nákupy pohodlně. Známe trendy v e-commerce pro rok 2025

Petr Zahálka je novým obchodním ředitelem Thein Security

Ivanti dává hattrick třemi kritickými zranitelnostmi

Češi rádi nakupují přes mobil, na bezpečnost ale dbají málo

Mykoplazmata řádí, jak lékaři čekali. Před Vánoci přibude chřipky

Limity pro registraci k DPH v roce 2025

Vánoční hvězda může vydržet do dalších Vánoc. Záleží na umístění a zalévání

Příjem z prodeje nemovitosti a uspokojení vlastní bytové potřeby

Mozilla má nové logo a vizuální identitu

Nedostatečné zabezpečení koncových zařízení ohrožuje firmy