facebook LinkedIN LinkedIN - follow
IT SYSTEM 7-8/2002

Archivace - jediný možný cíl vašich dat, 1. díl

Oliver Blšták


Potichu a nenápadně, ale o to vytrvaleji se slovo Archivace stává neodmyslitelnou součástí IT terminologie. Z hlediska obsahové náplně pojem archivace ale ještě nedoznal potřebné osvěty. Položíme-li odborné veřejnosti otázku: "Archivujete data?", dostane se nám velmi často odpovědi: "Samozřejmě. Každou noc jsou naše důležitá data kopírována na pásky nebo disková pole". I s touto odpovědí však není nutné podléhat skepsi. Další pokrok v práci s daty jednoznačně směřuje k tomu, že za několik málo let bude archivování podmnožinou problematiky zvané Informační systémy.


Mnoho nezasvěcených si pod pojmem archivace skutečně představí prosté kopírování dat na vybraná zálohovací média. Statistické průzkumy říkají, že přibližně 50 % firem má na své datové zdroje připojené potřebné zálohovací mechaniky a IT pracovníci i management jsou spokojeni při pohledu na vyrovnané řady pásek nebo disků. Ponechme zatím stranou naivitu představy, že v případě havárie se zálohy dat z pásek přenesou zpět na servery a všechny systémy se opět rozběhnou, možná jen s malými potížemi. Věnujme se nejdříve názvosloví.

Klíčové pojmy
Pod pojmem ZÁLOHOVÁNÍ se obvykle skrývá kopie databází, transakčních logů, jiných datových zdrojů a životně důležitých informací pro běh aplikace do vybraného úložiště. V případě výpadku systému, nepředvídané havárie nebo dokonce živelné pohromy, kdy dochází ke zničení části nebo všech "živých" dat, slouží zálohy k obnově provozu systému. Naproti tomu ARCHIVACE představuje trvalé odstranění dat ze systému, které již nemusí být dostupné on-line. Princip si můžeme představit například jako vyřízení úředního spisu nebo účetního dokladu v klasické papírové podobě. Dokud nejsou vyřízeny všechny formální a věcné náležitosti tohoto dokumentu, musí být neustále po ruce. Jakmile je ovšem vyřízen, schválen a všemi odpovědnými podepsán, putuje do zvláštní místnosti s tajemným názvem archiv. Oba způsoby archivace, klasická - papírová i datová, ovšem předpokládají neustálou dostupnost archivované položky minimálně po dobu předepsanou zákonem nebo vnitropodnikovou směrnicí. Podstatnější rozdíl je jen v rychlosti nalezení a způsobu zobrazení konkrétní archivní položky.

Objem dat a závislost na nich roste
Co je důvodem k tomu, abychom informace archivovali? Pádných důvodů je samozřejmě více, tím hlavním a podstatným je však vytrvalý a stále se zrychlující nárůst dat. Každý seminář či konference na téma zálohování nebo archivace dat začíná touto strohou, ale pravdivou skutečností: Objem ukládaných a spravovaných dat stále roste. Do středu pozornosti se přitom dostávají namísto systémů právě informace v těchto datech obsažené. Dnes již nikdo z vrcholového managementu nepochybuje o strategickém významu informací. Samotné výpočetní systémy lze sice považovat za významné, ve své podstatě ale jsou a zůstanou využívány pouze jako podpůrné procesy.

Je zvláštní, že zatímco růst populace se často stává středem pozornosti médií nebo světových politiků a odborníci na demografii bijí denně na poplach, datová exploze zůstává stranou zájmu veřejnosti. Skutečný zájem o tuto problematiku v celosvětovém měřítku projevuje jen málo odborníků, pohříchu často jen z důvodu oněch zajímavých čísel a prognóz. Mezinárodní průzkumy se přitom zmiňují jednoznačně - lidstvo vyprodukuje v současné době přibližně 1,5 miliardy GB ročně. To je asi 250 MB na člověka včetně posledního starce a dítěte v zapadlé čínské vesničce. Mluvíme zde prosím o datové explozi, nikoliv populační. Digitalizace dat a jejich uložení je přitom na samotném počátku. Filmy, videa, fotografie, tisk včetně knižní publikace migrují do digitální formy. Ročně vzniká přes 80 miliard fotografií, což digitálně vyžaduje 80 petabyte úložného prostoru. Naše domácnosti se zatím v tomto ohledu chovají střízlivě. Jakmile ale bude vyžadován digitální záznam zejména pro vlastní videa a fotografie, bude nutné připravit další terabyte (TB) prostorů.
 
Naše závislost na digitálně zpracovaných a uložených informacích rovněž stoupá. Každý z nás je předmětem životně důležitých záznamů, například v úřadech státní správy, v bankách, pojišťovnách, sociálních i zdravotních institucích. Všichni počítačově gramotní lidé produkují soukromé nebo služební digitální informace, které neleží pouze na lokálním disku vlastního počítače, ale jsou mnohdy "rozházeny" po firemních nebo webových serverech. A určitě mi dáte za pravdu, že mazání těchto dat je velmi nepopulární činností, protože co kdyby… O převážnou část lidstvem vytvořených dat je tak nutné neustále pečovat. Pro průmyslově vyspělé a rozvinuté společnosti se hrozba ztráty klíčových dat postupně stává zároveň ohrožením vlastní existence.

Jediným možným řešením je archivace
Ale zpět k samotným datům. Z uživatelského hlediska jsou nejzajímavější a nejžádanější informace obvykle právě ty, které byly bez ohledu na formu pořízení do informačních systémů vloženy jako poslední. Postupem času však číselná a znaková data "významově stárnou" a jejich využití se přesouvá zejména do oblastí různých rozborů či statistik. V tomto okamžiku0 již není každý jednotlivý záznam zajímavý ani žádoucí, potřebné jsou pouze souhrnné údaje. U jednodušších řešení zůstanou tyto kumulované výsledky uložené v příslušných tabulkách a informace v nich obsažené jsou využívány dle aktuálních požadavků. Sofistikovaná a výkonná řešení spustí své datové pumpy a výsledkem může být velké množství informačních kostek v datovém skladě (data warehouse). Odlišným způsobem samozřejmě přistupujeme k informacím v podobě například skenovaných podkladů, obrázků nebo souborů výkresové dokumentace. Datová archivace navíc nabízí ještě další možnosti řízeného odkládání dat do archivu a to již v momentě jejich vzniku. Příkladem může být přesměrování tiskových výstupů přímo do archivu a jejich následné zobrazení standardními prostředky (GUI) nebo univerzálním prohlížečem. Další možností je skenování příchozích dokumentů a uložení takto vzniklého obrazu přímo do archivu spolu s příslušným propojením na datový záznam. Pro všechny typy "živých" dat uložených obvykle přímo do databáze ale nakonec platí jedno společné - s poklesem aktuálnosti se stávají pro daný informační systém přítěží. V jistém momentě je nutné tato data ze systému odstranit. Dočasně je možno situaci zvládat zvyšováním výkonnosti serverů, nárůstem operační paměti a diskových prostor. Bez ohledu na neekonomický výsledek těchto opatření jsou však postupně všechny tyto zdroje ve své podstatě spotřebovány.

Nastává čas na řešení otázky typicky Nerudovské: Kam s nimi? Jak vyplývá z názvu tohoto článku, v zájmu zachování dostupnosti těchto dat je jediným možným cílem archiv. Data je nutno bezpečným a transparentním způsobem přesunout na média, která jsou schopna dlouhodobě uchovávat a zpřístupňovat tyto uložené informace uživatelům. Významné ERP systémy jsou přímo vybaveny výkonnou funkcionalitou, která nativně obsahuje všechny operace potřebné jak pro samotnou archivaci, tak následně i pro komfortní práci s těmito archivy. Každý archivní běh obvykle představuje složitý proces testování a prověřování konzistence a kontinuity dat. Je nutné provést nejen správné načasování archivace, ale také připravit správné pořadí odkládání dat jednotlivých datových modelů do archivu. Někdy probíhají i desítky kontrol všech logických vazeb, aby se zamezilo odstranění dat, která vzápětí bude jiná část systému potřebovat. U těch aplikací, které vlastní proces archivace přímo nepodporují, je nutno řešit tuto funkční oblast individuálně. Výsledné řešení se však obvykle ukáže natolik náročné, že se k realizaci přistupuje, když příslušná data skutečně rostou nade všechny provozně a technicky přípustné meze. Rychlost a technický komfort přístupu k archivům je úzce spojen s pořizovací cenou datových úložných prostor. Je nutné také pamatovat na to, že archiv je nakonec jediným místem, kde se archivovaná data vyskytují, proto zde musí být zajištěno vytváření záložních kopií.

Klasifikace dat
Hned na počátku definice procesů archivace se nevyhneme důležité otázce - kdo rozhodne o tom, která data jsou již zralá k archivaci a která ne. V případě jediné významné aplikace, která je v organizaci provozována (například ERP systém) je řešení této otázky usnadněno. Z hlediska provozních podmínek aplikace, stáří a velikosti dat se vytipují archivní objekty, nastaví se podmínky pro archivaci a perioda archivních běhů.

Z praxe víme, že po takovém opatření volají sami uživatelé systému. Protože spouštějí denně transakce náročné na zpracování dat, velmi rychle si uvědomí, že rozsáhlá data stará několik let jen zpomalují odezvu systému a pro denní praxi jsou již nepotřebná. Jinak tomu bude u informačních systémů, kde je využíváno aplikací více. Některé tyto aplikace jsou právě po svém produktivním startu, jiné mají svůj zenit dávno za sebou, všechny však mohou být důležitým zdrojem informací a zatím není možné je zcela odstavit z provozu. Na přehlednosti a kvalitě datových zdrojů, které jsou aplikacemi obhospodařovány, se mohly významně podepsat nejen změny IT infrastruktury (přesun na nový server), ale často také velká fluktuace IT specialistů v podniku. Dostáváme se do problematiky zvané klasifikace dat. Zde se může dostat ke slovu speciální software, který umí sledovat a vyhodnocovat aktuálnost těchto dat zejména z hlediska četnosti přístupů k těmto datům, tzv. měření "aktuálnosti" dat.
 
Před uživateli například systému SAP R/3 nebo jiných takto vysoce komplexních ERP systémů neleží otázka "Archivace ano, či ne?", ale "Kdy začít?". V zahraničí, kde jsou velké aplikace provozovány o několik let déle, byla spousta podniků nucena archivaci již řešit. V Česku se do fáze přetékání dat v systémech teprve dostáváme. Toto zpoždění bylo samozřejmě způsobeno revolucí a teprve následným příchodem zahraničního kapitálu, který inicioval potřebný rozvoj podnikových IT infrastruktur. O tom, jak vzniklou situaci podniky řeší a jaké jsou dosavadní zkušenosti a výsledky, si povíme zase příště.

Pozn. red.: Autor článku, Oliver Blšták, pracuje ve společnosti Plaut Consulting jako Sales Manager a specializuje se na oblasti Archivace/Storage konsolidace a služby Outsourcing/Remote Supportu.

Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.


Inzerce

Mají pevné disky budoucnost?

Western Digital nastavuje nové standardy pro kapacitu a hustotu úložišť

Digitalizace neustále roste a rozvíjí se nové technologie, jako je umělá inteligence (AI) a strojové učení (ML). Všichni, kdo zajišťují hyperškálování úložišť, poskytují cloudové služby a obsluhují datová centra vyžadují obrovské množství úložné kapacity pro stále rostoucí pracovní zátěž.