Jak se (ne)chovat ke svému datovému médiu?

25. 4. 2011

Sdílet

Z pohledu odborníka se problematika záchrany a obnovy dat dá rozdělit do tří specifických skupin - záchrany dat z vadných pevných disků klasické konstrukce, potom z RAID polí a nejnověji z nemechanických SSD disků a flash pamětí.

Většina z nás na svém počítači nebo notebooku denně pracuje s různými daty. Běžně si na disk počítače, na externí disk nebo třeba na flash disk ukládáme pracovní dokumenty, účetnictví, databázi produktů, fotky z dovolené, seminární práce a jiné důležité materiály. Obvykle bez zálohy. Riskujeme? V následujícím článku pojednává odborník na záchranu a obnovu dat Štěpán Mikeš o tom, jaké problémy jsou dnes s datovými médii.

 

Toto téma by se hodilo zahájit tvrzením, že 100% bezpečné médium pro uchování digitálních dat asi neexistuje. Z pohledu odborníka se problematika záchrany a obnovy dat dá rozdělit do tří specifických skupin - záchrany dat z vadných pevných disků klasické konstrukce, potom z RAID polí a nejnověji z nemechanických SSD disků a flash pamětí. Každá z uvedených skupin médií má svá specifika, výhody a slabiny. Každá také slouží jinému účelu. Zkusíme si nyní podrobněji popsat jejich nejběžnější poruchy a vysvětlit si, čeho se při běžné práci s nimi vyvarovat a na co si dát pozor.

 

Nejrozšířenější jsou stále pevné disky

Mezi nejběžnější paměťová média stále patří klasické pevné disky. U těch dochází k selhání jak elektronických, tak mechanických částí. I přes různá řešení parkování hlav při pádu jsou klasické disky na otřesy stále citlivé. Proto je více než rozumné s nimi nemanipulovat za chodu. To bývá problém především u notebooků. S nástupem disků s velkou kapacitou se také začíná objevovat na první pohled paradoxní příčina závad: malý objem uložených dat. Pokud je na TB disku uloženo například 10 GB intenzivně používaných dat, pak je používána jen velmi malá plocha diskových ploten. V praxi se pak setkáváme s poruchami disků, které mají vadný povrch plotny pouze v malém rozsahu, ale právě v místech kde jsou uložena důležitá data.

 

U disků klasické konstrukce došlo k v posledních letech k výraznému přepracování architektury firmware a korekce chyb. Firmware moderních disků není již celý uložen v eprom elektroniky, ale je částečně zapsán i na plotnách disku. Toto řešení snižuje cenu disku a od kapacit 1 TB je vzhledem k velikosti servisních dat nutností. Ale nese to i rizika. Právě chyba v mechanizmu relokace vadných bloků byla příčinou častého selhávání disků Seagate řady 7200.11. U těch dochází v určité kombinaci firmware k tomu, že dojde k nekorektnímu zápisu do chybových tabulek a následné nefunkčnosti disku. Svým způsobem se jedná o pád velmi specializovaného operačního systému, který má své jádro zapsané v elektronice, ale data potřebná k alokaci paměťových buněk jsou uložena v servisních oblastech ploten. U disků dalších výrobců (jako např. WD a Samsung) může dojít k selhání disků ze stejných příčin. S těmito případy se ale setkáváme podstatně méně často, na druhou stranu zase trpí jinými závadami.  

 

Jak poruchové jsou jednotlivé značky pevných disků?

 

V tabulce níže jsou uvedena data poruchovosti disků u společnosti Datahelp za posledních 5 let. Výsledek hodně ovlivňuje prodejnost disku. WD a Seagate jsou nejprodávanější, proto mají statisticky i nejvíce poruch. Poslední dobou přibývá poruch u disků Samsung. Souvisí to opět s tím, že se ve větším množství začaly prodávat až poslední 2 roky.

 

Samsung 5 %

WD 34 %

Seagate 30 %

Hitachi 9 %

IBM 4 %

Fujitsu 3 %

Toshiba 6 %

Maxtor 8 %

Quantum 1 %

 

Celkově se dá říct, že životnost moderních disků je dle našich zkušeností cca 2-3 roky. To je daň především za vysoké hustoty zápisu a kapacity v řádu TB. Pokud porovnáme poměr cena/kapacita, pak to není tak děsivé, jak to na první pohled vypadá. Jen je potřeba na to pamatovat a po uplynutí této doby disk uložit do archivu. Nebo si pro jistotu pořídit ještě jeden a opravu důležitá data si na něj pravidelně archivovat.

 

Disková RAID pole – záchrana dat je zde obvykle dost náročná

 

U diskových polí dochází ke ztrátě dat z několika příčin. U redundantních polí typu RAID 1,5, 5ee, 6 je příčinou ztráty dat selhání více disků. Naše zkušenost je taková, že k selhání disků v poli většinou nedojde ve stejný okamžik, ale v určitém časovém rozpětí. Modelová situace je následující. V RAID poli je vadný jeden disk, ale pole dále funguje. Výměna vadného disku se odkládá, až se na ní zapomene a výpadek dalšího disku je již pro uložená data smrtelný. Není výjimkou, že se z logů dozvíme, že RAID pole běželo déle jak několik měsíců v degradovaném režimu.

 

Jinou příčinou ztráty dat z diskových polí je selhání jiné části HW než disků. Klasicky je vadný řadič, který již není k dispozici. Pak je nutné pole složit pomocí jiných nástrojů. V takovém případě někdy zjišťujeme, že provozovatel serveru ani neví, v jaké konfiguraci pole běželo. Případně se dozvíme, že před lety pole konfiguroval zaměstnanec, který již v dané firmě nepracuje a o tyto důležité informace se při odchodu s nikým samozřejmě nepodělil.

 

SSD disky a flash paměti také mají své problémy

 

Situace u SSD a Flash pamětí se liší hned z několika důvodů. Především je to zcela odlišný fyzikální princip fungování těchto paměťových médií. Spočívá v tom, že je omezená životnost paměťové buňky. Z toho plyne nutnost použití algoritmů, které se starají o relativně rovnoměrné využití paměťového prostoru. V současné době si každý výrobce vyvíjí vlastní algoritmy pro optimalizaci rozložení dat.

 

Častou závadou SSD a Flash pamětí je selhání řídícího čipu, ve kterém je zapsán algoritmus a jeho parametry. Samotné paměťové čipy přečíst většinou není problém. Oříškem bývá většinou až následná analýza přečtených obrazů paměťových čipů a jejich složení do smysluplného obrazu. Na druhou stranu s tím souvisí i problematika bezpečného mazání flash pamětí. Pokud se totiž neustále mění adresování paměťových buněk, může dojít k tomu, že některé buňky, které měly být prázdné, stále obsahují data.

 

Navíc i způsob zápisu u těchto médií je zcela odlišný od klasických disků. Zatímco u klasického disku se do paměťové buňky zapíše požadovaná hodnota bez ohledu na předchozí hodnotu, u SSD disku se musí nejprve paměťová buňka "vynulovat" a teprve poté je možné novou informaci zapsat. To přinášelo u prvních modelů SSD disků výrazně horší parametry zápisu. Dnes je to řešeno příkazem trim, který však může při chybném použití spustit velmi rychlé smazání všech dat na SSD bez ohledu na použitý operační systém. Problém spočívá v tom, že pokud se tento proces spustí, nelze jej nijak přerušit a nulování paměťových buněk pokračuje při každém následném zapnutí SSD. Takováto selhání SSD jsme zatím řešili jen ojediněle a výrobce velmi rychle vydal opravu příslušného firmware. Každopádně ale představa, že by tento mechanismus využili tvůrci virů, je poměrně děsivá.

ICTS24

 

Štěpán Mikeš, Datahelp.cz