Jak se dají řídit tuny dat

Jaké množství dat spravují velké společnosti? Tuny. Pojem "tuny dat" intuitivně navozuje představu stohů papírů je ...


Jaké množství dat spravují velké společnosti? Tuny. Pojem "tuny dat" intuitivně
navozuje představu stohů papírů je to ovšem trochu neobvyklý způsob, jak
popisovat informace uložené v počítači, jejichž objem se obvykle určuje v počtu
znaků a ve velikosti souborů. Ale převod na tuny může poněkud rozšířit vaši
představu o tom, kolik dat obsahuje jeden terabajt. Možná budete překvapeni a
znovu vás to přiměje položit si otázku: Co s tolika daty?
Takže pro představu: Vyjděme třeba z hmotnosti diskové jednotky, média, které
je dnes využíváno k uchovávání dat nejhojněji. Běžný 8GB pevný disk má hmotnost
něco přes 1 libru (0,45 kg). Vezmeme-li v úvahu, že hmotnost přídavného krytu,
konektorů a elektroniky (včetně řadičů apod.) zhruba zdvojnásobí hmotnost
jednotky, můžeme prohlásit, že 1 tuně je ekvivalentní objem cca 8 TB dat.
Uznejte, že takový skladovací objem je už poněkud těžkopádný.
Jak se může firma elegantně a efektivně vypořádat s takovými nemotornými horami
informací? Požádali jsme představitele čtyř velkých společností, ve kterých
dochází k intenzivní kumulaci dat Aetnu, Boeing, Atos Origin a AT&T aby nám
řekli něco o problémech, se kterými se museli vypořádat při řízení a správě
masivních datových skladů, a také jakým způsobem je vyřešili. Jak na to
Data jsou významným majetkem každé firmy a jsou výsledkem velkých časových
investic a úsilí. Data jsou také zdrojem mnohých zkoušek a trápení pracovníků,
kteří je ostražitě střeží.
Velké firmy shodně tvrdí, že dobré nástroje jsou důležité pro řízení a správu
velkých objemů informací počítaných na TB, zatímco jejich pracovníci IT a
správci databází navíc upozorňují, že ještě důležitější a přímo klíčové je
získat jasný a komplexní přehled o pořízených datech prostřednictvím logických
i fyzických pohledů. Jak dále zdůrazňují, bezpečnost, integrita dat a
dostupnost dat nejsou bezvýznamnými maličkostmi a zajištění snadného přístupu
uživatelů k datům je nikdy nekončící úkol. 21,8 tun pojištění
Renee Zauggová, vedoucí oddělení centrální podpory IT služeb zdravotní
pojišťovny Aetna, je každý den odpovědná za 21,8 tun dat (174,6 TB). Z nich je
119,2 TB uloženo na diskových jednotkách mainframového počítače a zbývajících
55,4 TB je na discích připojených k midrange počítačům, na nichž běží AIX od
IBM anebo Solaris od Sun Microsystems. Téměř všechna data jsou soustředěna v
centrále společnosti v Connecticutu. Většina informací se nachází v relačních
databázích provozovaných pod DB2 Universal Database od IBM (verze 6 a 7 pro
OS/390), DB2 pro AIX, Oracle8 na Solarisu a Adaptive Serverem 12 od Sybase na
Solarisu. A aby to všechno bylo ještě zajímavější, externí zákazníci mají
přístup asi k 20 TB informací. Data se zpracovávají ve čtyřech propojených
datových centrech, kde je 14 mainframových počítačů a přes 1 000 midrange
serverů. Hlavní databáze společnosti Aetna vyžadují více než 4 100 zařízení pro
ukládání dat s přímým přístupem.
Hlavní část nekonečně rostoucí hory dat v Aetně představují informace o
zdravotní péči. Tato pojišťovací společnost spravuje záznamy pro klienty a
pracovníky ve zdravotnických zařízeních, kteří mají uzavřené smlouvy o
zdravotním pojištění. Aetna má detailní záznamy o poskytovatelích
zdravotnických služeb, jako jsou lékaři, nemocnice nebo lékárny a monitoruje
všechna pojistná plnění a pojistné události. Někteří větší zákazníci posílají
do centra Aetny pásky obsahující data o pojištěných zaměstnancích, ale podle
Nancy Tillbergové, ředitelky strategického plánování, firma již postoupila o
krok dopředu, protože začala používat ke shromažďování těchto dat Internet.
"Integrita dat, zálohování, bezpečnost a dostupnost, to jsou naše největší
priority a také hlavní starost," říká Zauggová. Své nástroje, procedury a
harmonogramy operací pro řízení a správu dat musí Zauggová udržovat v časovém
předstihu, a to nejen před běžným nárůstem dat, který je výsledkem činnosti
pracovníků z oddělení prodeje, uzavírání smluv a vyřizování pojistných plnění,
ale také před rostoucím objemem dat, který může vyplynout z nákupů a fúzí firem.
Stejně jako Atos Origin a Boeing, používá Aetna Virtual Tape Servers (VTS) od
IBM, čímž řeší úzké hrdlo spočívající v kapacitě páskových jednotek. Zauggová
vysvětluje, že se Aetně použitím VTS podařilo zmenšit objem páskové knihovny z
téměř 1 milionu pásků na čtvrtinu tohoto množství. "Hlavním impulzem ke
konsolidaci páskových jednotek byl čas potřebný ke zpracování a správě pásků,
nikoli jejich cena," zdůrazňuje Zauggová. Protože DB2 V6 nepodporuje okamžité
on-line zálohování, musejí pracovníci oddělení IT za účelem vytvoření záložních
kopií celý systém DB2 V6 přepnout do stavu off-line. Od zavedení VTS potřebuje
Aetna mnohem kratší dobu k zálohování DB2 V6 a jiných dat, což naopak
prodloužilo dobu, po kterou jsou data k dispozici uživatelům. "Cílem Aetny je
mít samostatný systém páskových operací na mainframech," říká Tillbergová.
Navíc upozorňuje, že Aetna rozběhla plán konsolidace serverů s cílem snížit
vynaložené úsilí při správě a řízení dat na midrange počítačích. "Nicméně,"
dodává, "ještě dlouho bude přetrvávat potřeba vyrovnat zatížení jednotlivých
serverů." Na svých webových serverech Aetna používá Global Dispatch od firmy
Resonate z Kalifornie. Ten přesměrovává HTTP provoz na ten ze serverů, který je
momentálně nejméně vytížen. Tillbergová chválí, jakým způsobem Global Dispatch
řídí zrcadlení serverů pro internetový provoz, bez ohledu na to, kde jsou
umístěny ať už ve stejné místnosti, nebo třeba ve zcela vzdálených zeměpisných
oblastech. Aetna také rozšiřuje využití technologie SAN k centralizaci a
zrychlené správě dat. Podle Tillbergové používá pro monitorování sítě,
distribuci souborů a sledování využití dat software Global Enterprise
Management od firmy Tivoli Systems z Texasu.
"Správci databází Aetna mají na starost přes 15 000 databázových tabulek a
spravují je pomocí nástroje ERWin pro modelování dat," vysvětluje Michael
Mathias, specialista na údržbu uložených dat v informačních systémech. Manuální
údržba definic tabulek začala být podle něj nezvládnutelná již před několika
lety. Pro Mathiase je důležitý pohled na údržbu velkých datových objemů z
logické perspektivy. Uznává, že fyzická údržba velkých datových skladů rozhodně
není jednoduchou záležitostí, ale špatná organizovanost dat vede nevyhnutelně a
zcela zbytečně k problémům v pracovních procesech uživatele, ke znehodnocení
dat a nakonec i ke stížnostem zákazníků.
Tuny létajících dat
Lea Anne Armstrongová, ředitelka centra pro správu distribuovaných serverů ve
společnosti Boeing ze Seattlu, dbá na to, aby zhruba 50 až 150 TB (6 až
necelých 19 tun) dat, která společnost vlastní, zůstávala stejně spolehlivá a
bezpečná jako letadla a rakety, které společnost vyrábí. Odhad 50 až 150 TB
podle ní ilustruje situaci v IT Boeingu. Uživatelé ne vždy ukládají svá data na
server, proto je tak nesnadné kvantitativně určit objem dat na všech 150 000
desktopových počítačích v Boeingu.
Podobně jako Aetna, má i společnost Boeing desítky mainframových počítačů a
tisíce midrange serverů, na nichž běží Unix a Windows NT. "Mnoho dat je uloženo
v relačních databázích," říká Armstrongová, "ale obecně používá Boeing v
podstatě každý formát souboru, jaký může člověk znát." Podle Armstrongové
představují soubory v Boeingu celou škálu od Adobe Portable Document Format až
ke CADu. Společnost má relační databáze DB2 na mainframech, Oracle na unixových
midrange počítačích (HP-UX, AIX a Solaris) a SQL Server 7 nebo SQL Server 2000
na menších počítačích na platformě Intel s Windows NT.
Vzhledem k terabajtům různorodých informací v Boeingu má Armstrongová stejné
základní priority jako Zauggová: integritu dat, zálohování, bezpečnost a
dostupnost. Obě společnosti mají rovněž podobné metody a přístupy ke zvládání
velkých objemů dat. Sejně jako Aetna používá i Boeing VTS od IBM k ukládání a
řízení svých pásků u mainframů i dalších páskových zařízení. Společnost Boeing
plánuje v blízké budoucnosti zavést technologii SAN a konsolidovat své midrange
servery spíše, než aby jejich počet stále zvyšovala.
Armstrongová také říká, že efektivní použití virtuální pásky nebo některého
jiného systému HSM, hierarchického řízení ukládání dat, závisí na identifikaci
kategorií dat v rámci firmy a na správném zpracování každé kategorie. Například
zdůrazňuje, že Boeing dodržuje jemný, ale důležitý rozdíl mezi zálohovacími
páskami s transakčním obsahem a archivními páskami se statickými návrhy letadel
a výrobními soubory. A dodává: "Data se musejí pečlivě roztřídit, aby každá
páska přinesla co největší užitek."
Datové sklady Boeingu jsou rozprostřeny přes 27 států a několik zámořských
poboček, ale největší díl počítačových operací se odehrává ve Washingtonu.
Podle Armstrongové společnost v současné době používá řadu různých softwarových
utilit pro zálohování a obnovu dat. Každá pobočka si kupuje vlastní zařízení
pro zálohování a provádí vlastní operace zálohování a obnovy dat. "Zatím ještě
nedošlo k vážnější ztrátě dat," říká Armstrongová, "ale uvědomujeme si všechna
rizika, a proto do budoucna plánujeme centralizovat zálohování a obnovování
souborů."
Armstrongová doufá, že dodavatelé pevných disků, optických disků a páskových
jednotek časem nabídnou Boeingu paměťové médium pro uložení dat, které bude
vhodné pro všechny pobočky a bude schopné spolupracovat s jinými systémy. I
když pevné disky nejsou v dnešní době drahé, podle Armstrongové jsou náklady na
řízení dat na principu jednotlivých disků nebo pásků natolik vysoké, že se
zaměří na omezování "bílých míst" na discích a na páskách to znamená na tu část
kapacity paměťových médií, kterou Boeing nevyužívá.
"Technologie virtuálních pásků nám pomáhá splnit naše požadavky," říká, "ale
přejeme si, aby všechny pásky a disky v Boeingu pracovaly v modelu
,storage--on-demand (ukládání na objednávku)." Boeing si tak jednoduše
pronajme od externího dodavatele tolik kapacity, kolik bude potřebovat, a
nebude se muset potýkat s nedostatkem prostoru pro uložení svých dat.
Hojnost telefonních hovorů Mark Francis, ředitel firemní datové architektury ve
společnosti AT&T, odpovídá za řízení několika terabajtů informací. Jeden z jeho
největších datových skladů je multiterabajtová mainframová databáze DB2
obsahující podrobné záznamy o všech telefonních voláních. Ve chvíli, kdy
zákazník AT&T uskuteční hovor, nebo se pokusí navázat spojení, přepojovací
zařízení automaticky vloží nový řádek do ohromné databáze. Avšak pro Francise
je zajímavější nová operační databáze o kapacitě 650 GB s daty zákazníků,
pracovními příkazy a účetními daty. Říká, že společnost spojuje různé databáze
odlišných typů, které obsahují data zákazníků, do jediné, kompaktní a
konzistentní databáze. Projekt se vyvíjí dobře. "Cílem je, aby všichni v AT&T
měli jediné místo, kde si mohou vyhledat veškerá data ohledně svých zákazníků,"
říká Francis. V minulosti se používaly IMS-DBDC, DB2, Oracle a systémy
Informixu pro řízení přístupu ke všem segmentům dat, ale Francis a jeho tým si
zvolili Oracle, aby měli jediný repozitář pro novou konsolidovanou databázi
zákazníků. Nový datový sklad obsahující data zákazníků je zrcadlen ve dvou
datových centrech ve státech Georgia a Missouri a je přístupný na počítačích
Sun Ultra 10000. Počítače Sun Ultra 5500 provádějí funkce zálohování dat a obě
dvě datová centra jsou opticky propojena. To umožňuje rychlé přesměrování
činností při selhání jednoho serveru v případě nečekané nouzové situace.
Společnost má podle Francise vyhrazený jeden den v týdnu neděli k provádění
plného zálohování a údržbě softwaru. K vytváření kopií zákaznické databáze
používá NetBackup od Veritas Software. "Průběžné zálohování redo logů Oracle
vytváří přírůstkovou záložní kopii dat," vysvětluje Francis a dodává, že by si
velice přál, aby tento proces nebyl tak náročný na čas.
Francis plánuje pravidelný nácvik pohotovostních operací, při nichž se ověřuje
spolehlivost rychlého a bezproblémového přesměrování z jednoho serveru na druhý
v případě selhání. Zdůrazňuje, že řízení velkých datových skladů v několika
datových centrech obnáší mnohem víc práce než jen monitorování zařízení s
pevnými disky. "Při nouzovém přesměrování musí celé datové centrum počítače,
záznamová zařízení, operační infrastruktura a počítačová propojení ihned
převzít celý objem probíhajících činností bez jediného škobrtnutí." K docílení
efektivního řízení datových velkoskladů Francis doporučuje: "Nepodceňujte čas,
který musíte věnovat tomu, abyste datový model a operační prostředí dotáhli do
správné formy." Stejně jako Mathias ze společnosti Aetna vyzdvihuje Francis
závažnost přesného a dobře organizovaného logického pohledu na velké datové
sklady.
Terabajty jdoucí za sluncem Mark Eimer, ředitel zavádění nástrojů pro globální
automatizaci ve firmě Atos Origin z Paříže, má na starost zhruba 300 TB (37,5
tuny) dat externích uživatelů. Většinou jsou to relační data, ale podobně jako
v Boeingu i jeho firma spravuje tisíce různých formátů souborů. Atos Origin
poskytuje firmám outsourcingové služby zpracování a uchování dat. Podle Eimera
je jeden zákazník Atosu např. sám o sobě podnikem se 130 000 zaměstnanci. Tito
uživatelé mají přístup k datům Lotus Notes v terabajtových objemech na 600
serverech. Atos Origin řídí 22 globálních datových center pro stovky klientů,
kteří využívají outsourcing a mají stovky tisíců uživatelů v 31 zemích. Datová
centra firmy, sídlící převážně v Dallasu, Singapuru a v Nizozemí, mají
dohromady 60 mainframů a kolem 5 000 midrange serverů. Na šedesáti procentech
těchto serverů běží Unix (AIX, Sun Solaris, HP-UX a DEC Unix) a OS/400 od IBM,
zatímco na zbývajících serverech jsou Windows NT od Microsoftu nebo NetWare od
Novellu. Většina počítačů je vybavena procesory, které jsou specifické pro
určité aplikace podporující ERP a jiné vertikální obchodní systémy.
Atos Origin zaměstnává 27 000 lidí, ale má přes 60 vysoce odborných specialistů
na řízení operací v sedmi střediscích po celém světě, kteří spravují a řídí
mainframy a midrange počítače zpracovávající data. Eimer je přesvědčen, že jeho
firma má dostatečné odborné předpoklady a zkušenosti k tomu, aby se mohla
starat o velké datové sklady, neboť pracuje tvrdě na tom, aby zajistila
konzistentní, standardní počítačové prostředí. "Řídíme se striktními standardy,
které jsme si sami vytvořili pro údržbu a provoz svých serverů," dodává Eimer.
Pro účely zálohování a obnovy velkých objemů dat Origin používá Storage Manager
od Tivoli a také produkty od Legato Systems, ARCserve od Computer Associates
International a OmniBack od HP. Eimer tvrdí, že přestože v Atos Origin
používají softwarové nástroje podle přání zákazníka, sami preferují pro řízení
více mainframů a midrange počítačů Enterprise suite od Tivoli a pro mainframy
páskové zálohování ve VTS od IBM.
Atos Origin je firma zajišťující provoz počítačů, kde se pracuje 24 hodin denně
a kde slunce nikdy nezapadá její pracovní prostředí je rozšířené po celém
světě, proto je spolehlivost firemní sítě skutečně klíčová. Aby zajistila
bezproblémové propojení serverové sítě, používá NetView a NetScout Manager Plus
od IBM.
Starost o sklad Přirovnáme-li správu gigabytů dat k letu na Rogallu, pak správu
několika terabajtů dat můžeme přirovnat jedině k řízení raketoplánu: je tu
tisíckrát větší složitost. K tomu, abyste úspěšně zvládli řídit tuny dat,
nemůžete jen vyvozovat závěry ze svých zkušeností s menšími a středními
datovými sklady. V takovém případě i jednoduchá operace jako je zálohování
databáze, může být strašidelnou záležitostí, jestliže doba potřebná k dokončení
kopírování všech dat překročí dobu, která je skutečně k dispozici.
Integrita dat, zálohování, bezpečnost a dostupnost to všechno spolu tvoří Svatý
Grál pro zvládnutí velkých datových skladů. Skutečný objem dat činí z těchto
cílů výzvy a vysoce decentralizované prostředí komplikuje celou skutečnost
ještě více. Proto je dobré si vytvořit standardy a přísně je dodržovat ve všech
procesech údržby dat ve firmě tím můžete nejlépe zhodnotit vložené investice a
zajistit si tak klidný spánek. Z terabajtů těch nejvíce hýčkaných, nejlépe
ošetřovaných dat na světě, se stanou jen neforemné haldy bitů, jestliže nejsou
zavedeny přesné a smysluplné definice a schémata. Budete-li ve své firmě
analyzovat operační postupy pro správu velkých datových skladů, dbejte na to,
abyste do svého plánu zavedli definice informací (například jako modelové
soubory ERWin nebo PowerDesigner Data Architect). Jakmile máte pohromadě data a
jejich definice, máte v nich také firemní majetek, který zvyšuje hodnotu
vložených prostředků a také máte cenný základ, bez nějž byste se jen těžko
obešli v další práci.
1 0971 / pen
Tipy pro správu velkých datových skladů
lPři zavádění hierachického systému řízení dat (HSM, Hierarchical Storage
Management) proveďte pečlivý výběr dat. Místo toho, abyste vzali bez rozdílu
všechna data a zadali je do robotického procesu HSM, nejprve raději analyzujte
a snažte se utřídit všechna firemní data podle frekvence jejich využití, abyste
věděli, jak často se určitá data používají a potom teprve zvažte zavedení
systému HSM, aby byl efektivní. lLogická perspektiva dat je stejně důležitá
jako fyzická perspektiva. Zjistíte-li, které části dat jsou ve vaší databázi
duplicitní a z jaké příčiny k duplicitě dochází, pak budete moci stanovit nejen
rozsah normalizace, ale také budete přesně vědět, ve které části databáze
probíhají nadbytečné I/O operace. lPravidelně a svědomitě provádějte
pohotovostní operace zálohování a obnovy dat, abyste měli jistotu, že nedojde
ke ztrátě dat v důsledku chyby člověka nebo přírodní katastrofy.
lPočítejte s tím, že by mohla vzniknout potřeba vyvinout si vlastní zálohovací
software zejména v případě, kdy vaše databáze neustále roste a váš ovladač
relační databáze nepodporuje okamžité zálohování (tzv. hot backups). Není to
žádná legrace, když vám doběhne čas vymezený na off-line vytváření záložních
kopií. lV zájmu bezpečnosti pečlivě oddělte externě přístupná data od vašich
interních dat. Jeden gram prevence je lepší než tuna léčebných prostředků.

Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.