facebook LinkedIN LinkedIN - follow
IT SYSTEMS 4/2010 , IT Security

Deduplikace dat – fenomén moderního zálohování

Tomáš Šilar


Společně s neustálým růstem objemu dat i požadavky na jejich ochranu se stále zvyšují i nároky na systémy pro jejich bezpečné zálohování. Tradiční pojetí zálohování přitom naráží na své limity, a výrobci proto musejí hledat nové cesty k uspokojení požadavků svých zákazníků. Co přinášejí možnosti moderní deduplikace dat podnikovým uživatelům?


Možná jste se již s přístupem tzv. deduplikace dat sami setkali. O co v ní jde? Představme si jednoduchý příklad. V rámci podniku je rozeslán e-mail s přílohou o velikosti 1 MB (třeba pozvánka na firemní společenskou akci a podobně). Pokud si každý z adresátů tuto přílohu uloží do svého lokálního úložiště, zabere celkem 500 MB (tedy 500 × 1 MB). Existuje však relativně snadná možnost, jak téměř 499 MB dat ušetřit. Jde o to, uložit pouze jeden originál a ostatní umístění stejné přílohy nahradit odkazem na něj. Ba co víc, tento postup funguje i v případě změny originálního souboru, kdy mohou být ukládány právě jen rozdíly oproti originálu. Zde ale záleží také na objemu takových změn, jelikož čím je jich více, tím rychleji metoda deduplikace druhé úrovně ztrácí své výhody.

Zálohování v centru pozornosti

Než se začneme věnovat konkrétním trendům v deduplikaci dat, shrňme si nejdůležitější fakta, se kterými lze setkat při návrzích zálohovacích řešení:
  • meziroční nárůsty objemu dat přinášejí potřebu stále větších kapacit zálohovacích systémů (diskových polí, páskových knihoven a dalších),
  • roste podíl kriticky důležitých dat – a s ním i požadavky na jejich ochranu a zabezpečení,
  • prodlužuje se čas nutný k provedení záloh, zároveň se ale zálohovací okno zkracuje,
  • roste objem dat na vzdálených pobočkách firem,
  • virtualizace infrastruktury přináší zcela nové výzvy pro zálohování.
Jedním z moderních směrů vývoje zálohovacích systémů – a odpovědí na některé z výše uvedených požadavků – jsou právě deduplikační technologie.

Jak probíhá moderní zálohování?

Při zálohování dat dochází k mnoha operacím, které jej pomohou zrychlit či lépe zabezpečit. Asi nejznámější z nich jsou:

Komprese

Přináší zmenšení objemu dat, a tedy i snížení požadavku na velikost úložiště. Běžně se používá při ukládání na magnetické pásky, ale zdaleka nejen zde.

Šifrování

I přes nevýhody, plynoucí zejména z možného zpomalení zálohovacího procesu a obnovy dat, představuje šifrování efektivní způsob ochrany dat proti zneužití.

Duplikace

Záloha vzniká ve více umístěních (a například i na různém typu médií) – hlavní výhodou je ochrana proti možné ztrátě dat vlivem poškození jednoho z úložišť.

Deduplikace

Vychází z předpokladu, že není nutno ukládat více instancí stejných dat. Místo kopií je tak ukládán pouze odkaz na originální umístění. Viz také příklad v úvodu článku.

Různé možnosti deduplikace dat

Moderní deduplikační technologie pracují na souborové či takzvaně sub-souborové úrovni. Zde algoritmus dělí každý soubor na datové bloky.
Rozlišujeme proto tři základní druhy deduplikace:
  • na úrovni souboru (celé, binárně shodné soubory),
  • s konstantní velikostí datového bloku,
  • s proměnnou velikostí datového bloku.
Výhoda deduplikace s proměnnou velikostí datového bloku spočívá v algoritmu, který provádí rozdělování souborů na jednotlivé části tak, aby pravděpodobnost, že jsou tyto části shodné, byla co možná nejmenší.
Nástroje pro deduplikaci můžeme – s ohledem na umístění, kde k deduplikaci dochází – dále rozdělit na dvě základní skupiny:
  • s deduplikací na cíli, kterým je myšleno cílové úložiště dat – jedná se tedy o technologie integrované do diskových polí, úložišť typu NAS, CAS, VTL a dalších,
  • s deduplikací na zdroji, respektive na klientovi – systém identifikuje redundantní data a minimalizuje jejich množství ještě před tím, než jsou odeslána přes síť (LAN/WAN) k zálohování.
Za hlavní kritéria deduplikace považujeme:
  • deduplikační poměr – hlavní parametr ukazující úsporu kapacity zálohovacího úložiště,
  • zkrácení doby zálohy – významný parametr u deduplikace na zdroji (zálohují se pouze změněné části souborů),
  • úspora kapacity datových linek, respektive snazší centralizace zálohování dat.

U zdroje, nebo raději až v cíli?

Deduplikace na cíli řeší primárně otázku úspory kapacity zálohovacího úložiště – v případě zálohování na disky tedy šetří diskovou kapacitu, v případě zálohování na pásky šetří kapacitu knihovny, respektive potřebu páskových médií. Málokdy vede ke zkrácení času potřebného pro zálohování, protože všechna data stejně musí být nejdříve přenesena na cíl. Tato metoda má nicméně univerzální použití – hodí se, pokud má zákazník zájem o deduplikaci záloh, ale v danou chvíli již používá stávající zálohovací řešení a nechce migrovat na jiný zálohovací software.
Deduplikace na zdroji přináší (v porovnání s deduplikací na cíli) další dvě zásadní výhody. Stejně jako u prvního řešení snižuje objem dat – a tím šetří místo na úložišti. Navíc výrazně snižuje zatížení sítě (LAN/WAN) a zásadně redukuje čas potřebný k provedení zálohy – přenášíme pouze změny. Součástí těchto řešení může byt i takzvaná globální deduplikace, která je prováděna na úrovni všech dat v prostředí, nikoli pouze na úrovni daného klienta. Systém tedy přenese celý datový fond pouze jednou a potom již vytváří plné zálohy prostřednictvím inkrementálních rozdílů s tím, že každá záloha je kompletní (full backup), i když se zálohují pouze změny. Tato metoda je ideální pro rozsáhlé virtuální prostředí, centrální zálohování vzdálených poboček nebo centrální zálohování velkého počtu koncových zařízení (PC, notebooky).

Očekávaný vývoj u deduplikace dat

S ohledem na obrovské nárůsty dat se nasazení deduplikační technologie stává standardem u zálohování velkého objemu dat (desítky terabytů a více). Zejména u deduplikace na cíli se budou prosazovat otevřené systémy kompatibilní s řadou zálohovacího softwaru různých výrobců – jejich nasazení nebude vyžadovat žádný složitý zásah do stávající infrastruktury. Do budoucna se jeví jako pravděpodobnější využívání systému s proměnnou délkou bloku, protože dosahuje výrazně vyššího deduplikačního poměru.
Přístup označovaný jako deduplikace dat se v současnosti stává neoddiskutovatelným trendem při zálohování. Nejen, že snižuje zatížení sítě a potřebu úložné kapacity, ale umožňuje i rychlejší obnovu dat. A protože úspory jsou vždy až na prvním místě, pomáhá významným způsobem snižovat investiční náklady do hardwaru. Nejvhodnější formu deduplikace je vhodné zvolit na základě realistické analýzy – důležité může být, jak často provádíte plné a inkrementální zálohy, kde je uchováváte a s jakými objemy dat pracujete. Pokud tyto okolnosti vezmete v úvahu, nemůžete zvolit špatně.

Autor působí jako business unit manager EMC ve společnosti Servodata.
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.

Inzerce

Ochrana dat a bezpečnost v éře DORA a NIS2

Klíčová role IBM Guardium a SIEM QRadar

Security AIS rostoucími nároky na ochranu citlivých dat a dodržování regulatorních požadavků se firmy stále více obrací k pokročilým nástrojům, které jim umožňují efektivně čelit výzvám moderního IT prostředí. Směrnice DORA a NIS2, které zdůrazňují operační odolnost a správu kybernetické bezpečnosti, stanovují jasné standardy pro ochranu dat a řízení přístupu. V tomto kontextu hrají zásadní roli řešení IBM Guardium a SIEM QRadar.