Dolujeme weby

1. 3. 2007

Sdílet

Testujeme programy umožňující získávání obsahů webů cd/dvd Webový prohlížeč je dnes základní komponento...


Testujeme programy umožňující získávání obsahů webů cd/dvd


Webový prohlížeč je dnes základní komponentou každého počítače. Existují však také programy, které umožňují lokální stahování celých webových serverů. K čemu mohou být v současné době užitečné a jak si mezi nimi vybrat? V tomto článku se dozvíte, jak snadno a bez problémů stáhnout do počítače celý širý web.
Všechny webové prohlížeče, bez ohledu na systém a platformu, fungují stejně. Po zadání nebo zvolení URL adresy, která se má zobrazit, kontaktují příslušný server (nebo otevřou soubor na disku počítače) a požádají jej o obsah. Server následně začne zařízení, v němž se prohlížeč nachází, posílat obsah požadovaného serveru v podobě, kterou je aplikace schopna zpracovat. To znamená jako hypertextový dokument s místními skripty. Prohlížeč dokument prochází (parsuje), zobrazuje jeho obsah a v případě potřeby žádá o další objekty. Těmi mohou být obrázky, video, ovládací prvky aktivního skriptování, případně další podobné věci.
Výsledkem zde popsaného procesu je, že uživatel vidí hotovou webovou stránku v okně prohlížeče tak, jak ji vymyslel její tvůrce. Procesy, k nimž došlo, aby se tohoto efektu docílilo, jsou pro uživatele transparentní. Tedy nacházejí se "někde" mezi ním a serverem. Jakmile uživatel klepne na odkaz nebo použije jinou směrovací funkci, může být z otevřené webové stránky "odeslán" jinam, což znamená, že prohlížeč začne nahrávat jinou stránku. Ta současná není úplně zapomenuta: webový klient ji zaznamená do historie navštívených a z úsporných důvodů si zachová v mezipaměti některé její části. Při dalším pokusu o její zobrazení je však potřeba znovu kontaktovat server a vyžádat si přinejmenším některé části stránky k opětovnému stažení.
A zde je kámen úrazu. Čas od času se totiž vyskytne situace, kdy si chceme prohlížet stránku nebo obsah nějakého serveru off-line. To znamená přecházet z jedné stránky na druhou a zpět, aniž by ale prohlížeč mohl kontaktovat server, z něhož stránky pocházejí. Stejně tak v případě, že klepneme na odkaz, není možné stahovat další komponenty daného webu prostě proto, že například není k dispozici připojení k internetu, nebo že obsah je potřeba z nějakého důvodu zobrazit bez jakékoliv prodlevy, z lokálního zdroje. K tomu již schopnosti běžného webového prohlížeče pro načítání stránek nestačí. Je tedy nezbytné zajistit, aby se kompletní weby, případně jejich části nacházely v lokálním počítači a byly odtamtud plně čitelné. K dosažení "lokálnosti" potřebujeme speciální aplikaci nástroj pro "stahování webu", neboli Web Grabber.

Proč?

Stahování kompletního obsahu webu v době, kdy není problém získat vysokorychlostní internet prakticky na jakémkoliv civilizovaném místě v naší zemi, může mnoha čtenářům připadat jako anachronismus. Přesto má své velmi důležité místo, a to hned z několika důvodů. Především je zde potřeba archivace. Čas od času zkrátka chceme uchovat obsah webového serveru v tom stavu, v jakém se nacházel dne XY. Ačkoliv samozřejmě existují služby, které dělají přesně totéž, například http://web.archive.org, není možné se na ně vždy dokonale spolehnout a archivaci je tak výhodnější provádět vlastními silami. Za předpokladu, že nemáme přístup k FTP, na kterém je web uložen (v případě, že se jedná o web statický), nebo/a k SQL serveru s obsahem (u dynamických webů s redakčním systémem nebo podobnou aplikací), nezbude nám nic jiného, než použít grabber.
Druhým případem jsou počítače bez stálého připojení k internetu nebo ty, kde se připojení platí v závislosti na čase stráveném on-line. Pak je totiž lacinější stáhnout si kompletní prezentaci či časopis a po odpojení si ji přečíst, než zůstávat on-line jen proto, aby bylo možné občas načítat další stránky. S PDA nebo notebookem ve vlaku se můžeme ocitnout v situaci, kdy je spojení realizováno například přes mobilní telefon a službu GPRS, je pomalé a nestabilní, často vypadává a web se tak stává de facto nepoužitelným. Totéž platí v libovolném jiném dopravním prostředku.
Specialitou zařízení typu PDA je jejich potřeba uzpůsobit prezentované informace malému displeji a omezeným možnostem zobrazování multimediálního obsahu. I když je možné redukci stránek, respektive prezentací provádět on-line v průběhu jejich stahování, daleko praktičtější je upravit web předem a až následně si jej číst, nehledě na již zmiňovaný deficit stabilního připojení třeba při cestování.
Konečně existují lidé, kteří webové stránky jednoduše sbírají. Když vynecháme nepříliš čestnou možnost kopírování jejich vzhledu a struktury, případně trestnou možnost plagiátorství obsahu nebo využití stránek k aktivitám souvisejícím s phishingem, někteří uživatelé si vytvářejí soukromé archivy svých oblíbených serverů. Také k tomu je potřeba mít dostatečně výkonné nástroje, jež přenesou obsah z těchto serverů do lokálních počítačů.

Jak?

Škála aplikací pro stahování a zpracování kompletních webů je poměrně široká, i když v současnosti těchto programů není v aktivním vývoji tolik, kolik jich existovalo ještě před několika lety. To je dáno především rozšiřováním vysokorychlostního internetu a s tím souvisejícím koncem jednoho ze základních důvodů, proč weby stahovat. Základním principem těchto aplikací je vždy schopnost procházet odkazy v HTML dokumentu, tedy stránce, a následně stahovat stránky a objekty, na něž tyto odkazy ukazují. Grabber, který se chová analogicky jako běžný webový prohlížeč, tak v podstatě simuluje uživatele, který kliká na vše s tím, že stažené objekty na rozdíl od pravého klienta nezobrazuje, ale ukládá k pozdějšímu použití. K této činnosti je potřeba používat přesná nastavení a algoritmy detekující například křížové odkazy, jinak by se totiž aplikace snadno ocitla v nekonečné smyčce stránek. Stejně tak musí umět reagovat na nekorektní odkazy, případně další zvláštnosti ve struktuře dokumentů, "zákaznická" chybová hlášení a podobně. Sestavit ji není nic jednoduchého.

Poznámka

Některé webové prohlížeče, například Mozilla Firefox, dokáží po otevření stránky procházet odkazy a na pozadí načítat ty komponenty, o nichž se domnívají, že je uživatel navštíví. Protože se často jedná o další stránky téhož serveru, chovají se vlastně jako kdyby šlo o grabbery. Ve skutečnosti jimi však samozřejmě nejsou.

Ukládání webových stránek jako vlastnost prohlížeče

Již rané verze prohlížečů Netscape i Internet Explorer byly vybaveny funkcemi pro ukládání webových stránek. Tyto funkce umožňovaly uložit lokálně na disk aktuálně otevřenou stránku. Stránka se ale ukládala bez přídavných objektů, tedy hlavně bez obrázků, uložit bylo navíc možné jen jednu. Z toho vyplývá hlavní omezení této funkce hodí se jen pro uložení stránky s textem, bez použití metody zkopírovat a vložit. I když se zachovala prakticky ve všech prohlížečích dodnes, její využití je minimální.
S postupem vývoje si autoři prohlížečů tento nedostatek uvědomili. Další generace ukládaly stránku včetně jejího okolí, tedy i s obrázky a dalšími prvky. Bohužel tyto prvky se nahrávají do adresáře, kam chceme umístit stránku, což je dosti nepraktické. Fakticky totiž musíme pro každou stránku vytvořit zvláštní složku. Poslední generace tento problém řeší tak, že příslušnou složku založí automaticky. Toto ukládání není příliš vhodné, pokud stránka obsahuje odkazy na své prvky v absolutním tvaru prohlížeč je nemusí uložit správně.
Autoři Internet Exploreru přišli (v důsledku vývoje jiné aplikace poštovního klienta Outlook Express) s alternativním řešením. Při něm je celá stránka uložena v jediném souboru včetně všech svých doplňků a její "rozebrání" provádí prohlížeč. Výhodou je právě ten jediný soubor. Nevýhodou pak vazba na Internet Explorer. Formát MHT, který se zde používá, byl určen původně k transportu HTML dokumentů elektronickou poštou.

Jak uložit webovou stránku z prohlížeče?

V případě prohlížeče Mozilla Firefox jednoduše klepnete pravým tlačítkem myši do stránky (rámu), kterou chcete uložit, a zvolíte příslušnou položku v kontextovém menu. V Internet Exploreru vybereme položku Uložit jako... z menu Soubor, u obou prohlížečů funguje klávesová zkratka Ctrl+S. V případě Internet Exploreru lze v dialogu pro typ souboru pro uložení vybrav položku Webový archív, jediný soubor, tedy MHT, musí však být instalován Outlook Express.

Co je to grabber?

Na rozdíl od běžného webového prohlížeče je posláním grabberu stáhnout do počítače kompletní strukturu a obsah webového serveru. Používá se především u mobilních zařízení, nicméně grabbery najdou své místo i tam, kde je připojení k internetu pomalé či nestabilní, nebo kde vyvstává potřeba z nějakého důvodu archivovat kompletní obsah daného serveru, aniž bychom se k němu mohli dostat například s využitím FTP. I když grabbery byly hojně využívanými nástroji hlavně v minulosti, rozhodně to neznamená, že by již nyní patřily do starého železa. Počet jejich uživatelů se sice snížil, avšak přesto vykonají poctivou práci.

Aplikace pro stahování

Plucker

URL: www.plkr.org
Licence: GNU/GPL
Použití: PDA

Plucker (dudlík) je v oboru stahování webů do lokální formy historickou a dodnes velmi žádanou aplikací, byť již existuje několik jeho více nebo méně zdařilých alternativních variant, kam patří třeba JPluck a další. Program, který existuje ve verzích pro různé operační systémy, dokáže stahovat a zpracovávat weby do zadané hloubky odkazů a upravovat je pro prohlížení v různých rozlišeních a s různým počtem barev. To odpovídá základnímu použití aplikace, tedy na zařízeních typu PDA. Jeho ovládání je velmi jednoduché, předpokladem je pravidelné stahování předdefinovaných serverů, takzvaných "kanálů". Ačkoliv může jít o servery, které jsou speciálně upraveny pro prohlížení na přístrojích s omezeným rozlišením displeje, ve skutečnosti je Plucker velmi dobře použitelný i na serverech pro klasické stolní počítače. Omezením je relativně nižší inteligence algoritmu pro procházení obsahem serveru, kdy jediným vodítkem je požadovaná hloubka odkazu. Při příliš nízkém nastavení Plucker stáhne jen malou část požadovaného obsahu, při příliš benevolentním nastavení dochází k situacím, kdy klientskou aplikaci příliš velké množství dat zablokuje (na Windows občas i se zbytkem počítače). Vzhledem k záměrům použití je Plucker takřka ideální program, a to přes již zmíněné i další drobné vady.

SurfOffline

URL: www.bimesoft.com
Licence: shareware
Použití: domov

SurfOffline je aplikace určená pro platformu Windows a její předností je velice snadné použití. Uložené obsahy webových serverů lze přímo v aplikaci prohlížet, případně exportovat. Každý server je z pohledu programu uložen jako "projekt", pro který je na výběr z několika možností. Z nich k těm nejpodstatnějším patří výběr úrovně odkazů, po níž má být webová prezentace prohlížena, a výběr komponent, které mají být do stahování zahrnuty. Předností tohoto přístupu je možnost blokovat náročný multimediální obsah.
Samotné fungování programu je bezproblémové. Pro potřeby off-line procházení stažených stránek se program chová jako webový server ukrytý v operačním systému. Umí pracovat s prohlížecími jádry běžných klientů, přičemž upřednostňuje ten, který je v operačním systému registrován jako výchozí.
Jestliže této aplikaci něco chybí, je to především možnost bohatší volby, provedení exportu uložených webových serverů a podpora některých moderních technologií, které jsou v nich využity. V některých případech stažené obsahy nefungují tak, jak by správně měly, případně v nich chybí nutně vyžadované prvky. Základní konfigurace se provádí pomocí jednoduchého průvodce, pro odborníky je k dispozici expertní režim. Nicméně jsme se nesetkali s tím, že by správce vybral špatnou volbu. Celkově je aplikace SurfOffline jednoduchým a užitečným nástrojem, který doporučujeme vyzkoušet a jehož hlavní klad spočívá v transparentnosti, s jakou díky webovému serveru v operačním systému funguje.

Grab-a-Site

URL: www.bluesquirrel.com
Licence: shareware
Použití: domov/kancelář

Grab-a-Site patří k webovým grabberům standardního provedení. S jednotlivými servery pracuje jako s "projekty", u nichž je možné individuální nastavení. Vyjma typů stahovaných, respektive nestahovaných souborů můžete nastavit, zda při stahování obsahu z webového serveru program může nebo nemůže opustit výchozí doménu webu. Díky této funkci je možné nastavit stahování mnohem přesněji a vyhnout se vadám některých jiných aplikací, zejména v kombinaci s webovými servery, jež obsahují větší množství externích, tedy se svým původním obsahem nesouvisejících odkazů. Aplikace nedokáže zobrazovat získaný obsah ve svém vlastním okně, a tak po každém načtení serverů volá implicitní webový prohlížeč. Bezplatná verze před stažený web přidává svou vlastní upoutávku, kterou je ale stejně dobře možné použít pro identifikaci staženého serveru. Nástroj si poradí s většinou současných serverů. Případy, kdy by byl obsah stažen, respektive následně zobrazen nekorektním způsobem, jsou u něj spíše vzácné.
Zajímavou vlastností této aplikace je schopnost obnovení již staženého off-line obsahu. V takovém případě se provádí jakási rozdílová aktualizace, při níž jsou z webu stahovány pouze ty stránky a komponenty, které se od poslední návštěvy aplikace změnily. Tato akce může ušetřit množství přenesených dat i čas stahování, v praxi jsme zjistili, že šetří především data.
Aplikace je sice použitelná, nicméně v průběhu testování několikrát havarovala. Celkově se jedná o poměrně stabilní software, který si jen někdy nedokáže poradit s nestandardními situacemi. Má jednoduché, velmi přímočaré ovládací rozhraní a je vhodný i pro laického uživatele. Instalace vyžaduje registraci, nicméně pravost zadaných údajů není s výjimkou syntaxe webové adresy nijak kontrolována. Pro dlouhodobé použití je nutné program zakoupit. Rozhodně platí, že je vhodný k vyzkoušení, mimo jiné pro své zcela minimální nároky a schopnost exportu uloženého obsahu webových serverů.

BackStreet Browser

URL: http://www.spadixbd.com/backstreet/
Licence: freeware
Použití: kdekoliv

Schopnost zobrazovat interně weby pouze v připojeném panelu Microsoft Internet Exploreru to je jediná vada této aplikace, která je, na rozdíl od jiných konkurentů, poskytována jako freeware. S výjimkou uživatelů, kteří jsou úplnými začátečníky, ji můžeme směle doporučit absolutně všem, jež potřebují stahovat obsahy webových serverů do off-line podoby, jako nástroj první volby.
Základní filozofie BSB je identická s ostatními programy pro stahování obsahu webových serverů. Po spuštění program zobrazuje zadání "projektu", tedy názvu serveru, výchozího URL a výběru hloubky pro procházení webu. K dispozici je ve výchozím režimu množství dalších nastavení, která umožňují velmi přesně vyladit to, co má a co nemá být aplikací stahováno, a vybrat si tak jak obsah, tak rozsah adresářů, jež BSB následně zpracuje. K dispozici je i volba hloubky a možnosti aktualizace již staženého webu pro potřebu následného občerstvení obsahu, například na notebooku s nestálým připojením k internetu.
Stahování probíhá standardně s tím, že v jeho průběhu je možné ovlivnit maximální zatížení linky, které aplikace vyvine prostřednictvím změny současně zpracovávaných vláken. Program ukazuje svou aktivitu v podobě malého grafu. U některých souborů tvořících standardní součásti webu jsme objevili nepatrné problémy se stahováním, avšak celkově si aplikace vždy se vším poradila. Před každým stahováním, pokud je vyvoláno u již stávajícího "projektu", je možné si vybrat, zda uložený obsah pouze občerstvit nebo zda má aplikace provést nové kompletní načtení. U velkého webu byl rozdíl mezi oběma těmito akcemi markantní, u webu do několika desítek stránek pak v případě v současnosti standardního připojení (2 MB ve směru stahování) zcela marginální. Takže jde pouze o množství přenesených dat.
Obsah stažených webů lze zobrazit v připojeném okně Internet Exploreru, které může být zavřeno, nebo v libovolném prohlížeči. Místo, kam se obsah uloží, je možné primárně nastavit při "zakládání" projektu, pozdější změna je relativně komplikovaná. Jednotlivé komponenty webu dále můžete zobrazovat s využitím systémových asociací daných Windows, ale také je individuálně měnit, obnovovat z webu, případně vyloučit ze stahování. Díky tomu velmi přesně vyladíte to, co má a co nemá být napříště stahováno, můžete tedy optimalizovat využití přenosové kapacity v době synchronizace požadovaných dat.
BackStreet Browser je prakticky profesionálním programem, který má tu výhodu, že je poskytován zadarmo. Obsahuje veliké množství užitečných funkcí pro stahování webů k off-line použití. Neobjevili jsme u něj žádnou závažnější vadu, která by se projevovala vůči uživateli, a proto jej doporučujeme pro jakékoliv použití. Jediným omezením této aplikace je skutečnost, že vzhledem k množství nastavení a chybějícímu "laickému" režimu není vhodná pro začínající uživatele. Za pozornost nicméně stojí možnosti konfigurace jak samotného programu, tak především jeho činností na jednotlivých webech, registrovaných jako "projekty". BSB je rozhodně nástroj první volby a za své možnosti i stabilitu si zaslouží naše plné uznání.

HTTrack Web Site Copier

URL: www.httrack.com
Licence: opensource
Použití: profesionál

Jestliže je zde uváděný BackStreet Browser nástrojem první volby pro každého s výjimkou úplných začátečníků, Web Site Copier (WSC) si zaslouží pozornost profesionála. Jedinou jeho funkcí je synchronizace vzdálené a lokální kopie webového serveru. Program není určen pro stažení serveru k lokálnímu prohlížení (ačkoliv i na to může být použit), ale spíše k zálohování a archivaci webů.
Za pozornost stojí především možnosti konfigurace stahování vůči klientské aplikaci i vůči zvolenému webu. Na výběr je značné množství voleb, jež se týkají průběhu i procesu stahování. Program obsahuje funkce, které jsou obvyklé u nástrojů, velmi zatěžujících hostitelský operační systém. Akce tedy synchronizaci je možné naplánovat na zvolenou dobu, respektive ji o zvolenou dobu odložit, po dokončení je možné nechat provést požadovanou akci, ukončení programu, vypnutí či restartování hostitelského počítače.
Z výše uvedených vlastností vyplývá, že se WSC nehodí pro domácího uživatele, platí to také vůči němu samotnému. Aplikace neobsahuje funkce, které by po stažení webu do zvoleného umístění nějak ulehčovaly práci s tímto webem, jejich procházení či obnovování. Nebereme to v tomto případě jako vadu, protože je pravděpodobné, že takové použití autoři programu nepředpokládali. Naproti tomu, na rozdíl od ostatních programů nástroj obsahuje volbu několika různých režimů stahování, lišících se podle zamýšleného užití uloženého obsahu. Jeho chování je velmi propracované, a to i v případě, že se při stahování vyskytnou chyby na straně serveru. Troufáme si tvrdit, že se s nimi WSC dokáže vyrovnat lépe než aplikace určené pro amatéry. Velkým pozitivem je podpora českého jazyka v rozhraní a především pak skutečnost, že se jedná o program, který je šířený pod licencí open source a je tedy dostupný každému včetně svých zdrojových kódů.

WebGrab

URL: www.glnetsoftware/webgrab
Licence: shareware
Použití: kancelář

WebGrab si klade za cíl být jednoduchým nástrojem pro stahování webů. I když samotná jeho funkce v bohaté konkurenci komerčních i volně dostupných alternativ poněkud zapadá do pozadí, má tato aplikace přece jen některé funkce, jimiž se může oproti více rozvinutým kolegům pyšnit.
První z těchto vlastností je porušení úzu, že webový grabber má fungovat na principu "projektů", které jsou reprezentovány jednorázově či dávkově stahovanými servery. WebGrab (WG) funguje velmi přímočaře a místo vytváření pro někoho nedůležitých záznamů stačí zadat jen výchozí URL. Po něm následuje výběr typu stahování. K dispozici jsou tři možnosti: stažení stránky, stránky se stránkami odkazovanými, nebo stažení celého serveru. Podrobnější nastavení chybí, avšak na druhé straně "celý server" odpovídá hodnotě hloubky odkazů ve dvou úrovních, ale s omezením na lokální, tedy výchozí doménu většině uživatelů toto nastavení plně postačuje. Stahování se zahajuje stisknutím velikého knoflíku.
Uložené stránky je možné uzamknout na heslo, což je vlastnost, kterou patrně využijí zájemci o některé druhy webového obsahu. V podrobném nastavení je možné u každého serveru vybrat několik položek pro experty, avšak většina uživatelů si jich ani nevšimne. V seznamu webů (a webech) lze omezeným způsobem vyhledávat, k dispozici je i podpora tisku. Obsah webů se ukládá do specializovaných "databází", což je výhoda a na druhé straně i zásadní omezení tohoto programu, volby databází jsou u volně dostupné verze omezeny, za neomezenou verzi musíte zaplatit licenční poplatek. Nástroj celkově pracoval bez jakýchkoliv problémů, vynikal jednoduchým a kompaktním uživatelským rozhraním, které se nikoho nesnaží trápit množstvím pokročilých nastavení nebo specializovaných funkcí. Své uživatele si WebGrab nejspíše najde, ale jak laika, tak profesionála spíše potěší jiné ze zde nabízených aplikací, a to ať už ty komerční nebo dostupné zadarmo.

Závěr

Webový stahovač neboli Grabber není aplikace, kterou bychom používali každý den. Právě vzhledem k tomu, že bude spíše omezeným nástrojem v softwarovém portfoliu vašeho počítače, je jeho výběru vhodné věnovat zvýšenou pozornost. Výběr musíte udělat sami, nicméně z našeho malého průzkumu, který je zde uveden, vyplynuly dva závěry. Za prvé, i v současnosti existuje poměrně pestrá nabídka jak komerčních, tak volně dostupných a dokonce otevřených variant těchto programů. Za druhé, pokud požadujete plně profesionální nebo i jednoduše použitelné řešení, můžete se naprosto spolehlivě obrátit na ty aplikace, které jsou k dispozici s otevřeným zdrojovým kódem nebo úplně zadarmo. Pouze ti uživatelé, kteří potřebují něco speciálního (možnost uzamknout uložený web na heslo) nebo kteří trvají na maximálně triviálním rozhraní s průvodcem a z hlediska laika co nejvyšší optimalizací, se budou muset poohlédnout spíše po profesionální a tedy po placené variantě.
Všechny zde představené nástroje pro stahování webů jsou pro každodenní použití dostatečně stabilní. To ale neznamená, že by v jejich užitečnosti neexistovaly vážné rozdíly. V současnosti je trendem používat weby s množstvím externě volaných funkcí, s velkým důrazem na aktivní část webového a databázového serveru. V této situaci není možné očekávat, že by jakýkoliv grabber fungoval stoprocentně, ať už se jedná o pouhé detaily v zobrazení jednotlivých stránek cílovým prohlížečem nebo o nefunkčnost jednotlivých celků. To je ale skutečnost, s níž se je v případě těchto aplikací potřeba smířit.7 0049/ZAJ o