Jak zajistit co nejdelší životnost (nejen) pevného disku?

19. 8. 2011

Sdílet

Většina z nás na svém PC denně pracuje s různými daty. Běžně si na disk ukládáme pracovní dokumenty, účetnictví, databázi produktů, fotky z dovolené, seminární práce a jiné důležité materiály. Obvykle bez zálohy. Riskujeme?

Na výše položenou otázku se bude snažit odpovědět odborník na záchranu a obnovu dat Štěpán Mikeš ze společnosti DataHelp, který se zaměří na to, jaké problémy jsou dnes s datovými médii.

Toto téma by se hodilo zahájit hláškou, že 100% bezpečné médium pro uchování digitálních dat asi neexistuje. Z pohledu odborníka se problematika záchrany a obnovy dat dá rozdělit do tří specifických skupin – záchrany dat z vadných pevných disků klasické konstrukce, potom z RAID polí a nejnověji z nemechanických SSD disků a flash pamětí. Každá z uvedených skupin médií má svá specifika, výhody a slabiny. Každá také slouží jinému účelu. Zkusíme si podrobněji popsat jejich nejběžnější poruchy a vysvětlit si, čeho se při běžné práci s nimi vyvarovat a na co si dát pozor.

Nejrozšířenější jsou stále pevné disky
Mezi nejběžnější paměťová média stále patří klasické pevné disky. U těch dochází k selhání jak elektronických, tak mechanických částí. I přes různá řešení parkování hlav při pádu jsou klasické disky na otřesy stále citlivé. Proto je více než rozumné s nimi nemanipulovat za chodu. To bývá problém především u notebooků. S nástupem disků s velkou kapacitou se také začíná objevovat na první pohled paradoxní příčina závad: malý objem uložených dat.

Pokud je na terabajtovém disku uloženo například 10 GB intenzivně používaných dat, pak je používána jen velmi malá plocha diskových ploten. V praxi se pak setkáváme s poruchami disků, které mají vadný povrch plotny pouze v malém rozsahu, ale právě v místech, kde jsou uložena důležitá data.

U disků klasické konstrukce došlo v posledních letech k výraznému přepracování architektury firmwaru a korekce chyb. Firmware moderních disků není již celý uložen v EPROM elektronicky, ale je částečně zapsán i na plotnách disku. Toto řešení snižuje cenu disku a od kapacit 1 TB je vzhledem k velikosti servisních dat nutností. Ale nese to i svá rizika.

Právě chyba v mechanizmu relokace vadných bloků byla příčinou častého selhávání disků Seagate řady 7200.11. U těch dochází v určité kombinaci firmwaru k tomu, že dojde k nekorektnímu zápisu do chybových tabulek a následné nefunkčnosti disku. Svým způsobem se jedná o pád velmi specializovaného operačního systému, který má své jádro zapsané v elektronice, ale data potřebná k alokaci paměťových buněk jsou uložena v servisních oblastech ploten. U disků dalších výrobců (jako např. WD a Samsung) může dojít k selhání ze stejných příčin. S těmito případy se ale setkáváme podstatně méně často. Na druhou stranu zase trpí jinými závadami.

Celkově se dá říct, že životnost moderních disků je podle našich zkušeností cca 2–3 roky. To je daň především za vysoké hustoty zápisu a kapacity v řádu TB. Pokud porovnáme poměr cena/kapacita, pak to není tak děsivé, jak to na první pohled vypadá. Jen je potřeba na to pamatovat a po uplynutí této doby disk uložit do archivu. Nebo si pro jistotu pořídit ještě jeden a opravdu důležitá data si na něj pravidelně archivovat.

Disková RAID pole a náročná záchrana dat
U diskových polí dochází ke ztrátě dat z několika příčin. U redundantních polí typu RAID 1,5, 5ee, 6 je příčinou ztráty dat selhání více disků. Naše zkušenost je taková, že k selhání disků v poli většinou nedojde ve stejný okamžik, ale v určitém časovém rozpětí. Modelová situace je následující: V RAID poli je vadný jeden disk, ale pole dále funguje. Výměna vadného disku se odkládá, až se na ni zapomene a výpadek dalšího disku je již pro uložená data smrtelný. Nejsou výjimky, že se z logů dozvíme, že RAID pole běželo déle než několik měsíců v degradovaném režimu.

Jinou příčinou ztráty dat z diskových polí je selhání odlišné části hardwaru než samotných disků. Klasicky je vadný řadič, který již není k dispozici. Pak je nutné pole složit pomocí jiných nástrojů. V takovém případě někdy zjišťujeme, že provozovatel serveru ani neví, v jaké konfiguraci pole běželo. Případně se dozvíme, že před lety pole konfiguroval zaměstnanec, který již v dané firmě nepracuje a o tyto důležité informace se při odchodu s nikým samozřejmě nepodělil.

Problémy SSD disků a flash pamětí
Situace u SSD a pamětí flash se liší hned z několika důvodů. Především je to zcela odlišný fyzikální princip fungování těchto paměťových médií. Vychází se z toho, že je omezena životnost paměťové buňky. Z toho plyne nutnost použití algoritmů, které se starají o relativně rovnoměrné využití paměťového prostoru. V současné době si každý výrobce vyvíjí vlastní algoritmy pro optimalizaci rozložení dat.

Častou závadou SSD a flash pamětí je selhání řídicího čipu, ve kterém je zapsán algoritmus a jeho parametry. Samotné paměťové čipy obvykle není problém přečíst. Oříškem bývají většinou až následná analýza přečtených obrazů paměťových čipů a jejich složení do smysluplného obrazu. Na druhou stranu s tím souvisí i problematika bezpečného mazání flash pamětí. Pokud se totiž neustále mění adresování paměťových buněk, může dojít k tomu, že některé buňky, které měly být prázdné, stále obsahují data. Celá problematika je podrobně rozebrána ve studii Reliably Erasing Data From Flash-Based Solid State Drives od autorů z University of California v San Diegu (ta je dostupná z adresy cseweb.ucsd.edu/users/m3wei/assets/pdf/FMS-2010-Secure-Erase.pdf).

Navíc i způsob zápisu u těchto médií je zcela odlišný od klasických disků. Zatímco u klasického disku se do paměťové buňky zapíše požadovaná hodnota bez ohledu na předchozí hodnotu, u SSD disku se musí nejprve tato buňka „vynulovat“ a teprve poté je možné novou informaci zapsat. To přinášelo u prvních modelů SSD disků výrazně horší parametry zápisu. Dnes je to řešeno příkazem trim, který však může při chybném použití spustit velmi rychlé smazání všech dat na SSD bez ohledu na použitý operační systém. Problém spočívá v tom, že pokud se tento proces spustí, nelze jej nijak přerušit a nulování paměťových buněk pokračuje při každém následném zapnutí SSD. Takováto selhání SSD jsme zatím řešili jen ojediněle a výrobce velmi rychle vydal opravu příslušného firmware. Každopádně představa, že by tento mechanizmus využili tvůrci virů, je poměrně děsivá.

Jak poruchové jsou jednotlivé značky pevných disků?
V tabulce níže jsou uvedena data poruchovosti disků, které byly v servisu u společnosti Datahelp za posledních pět let.

Výsledek hodně ovlivňuje prodejnost disku. WD a Seagate jsou nejprodávanější, proto mají statisticky i nejvíce poruch. Poslední dobou přibývá poruch u disků Samsung. Souvisí to opět s tím, že se ve větším množství začaly prodávat až poslední dva roky.

WD 34 %
Seagate 30 %
Hitachi 9 %
Maxtor 8 %
Toshiba 6 %
Samsung 5 %
IBM 4 %
Fujitsu 3 %
Quantum 1 %

Koupit
Vyšlo v Computerworldu 11/2011
Časopis lze koupit se slevou 20 %