facebook LinkedIN LinkedIN - follow
Data warehousing a Business intelligence , AI a Business Intelligence

Řízení kvality dat prostřednictvím SQL Serveru 2012



Intelligence Technologies Microsoft vstoupil na pole master data managementu (MDM) poprvé ve verzi SQL Server 2008 R2, jejíž součástí byla služba Master Data Services (výsledek akvizice společnosti Stratature z roku 2007). Nová verze vlajkové databázové lodi, Microsoft SQL Server 2012, přináší některé nové funkce a rozšíření a přidává zcela novou službu – Data Quality Services.


Master data management je soubor procesů, technologií a nástrojů, které umožňují vytvářet a udržovat základní firemní seznamy a číselníky. MDM není jenom technická disciplína – často jsou vyžadovány změny v obchodních procesech, kde přichází na řadu politická rozhodnutí. S růstem firmy roste i potřeba aktivně řídit master data. Přestože jsou master data důležitým aktivem každé společnosti, čím větší společnost je a čím více informačních systémů používá, tím více roste počet sdílených číselníků a seznamů:

  • Malé firmy většinou necítí žádnou potřebu řízení master dat. Mají krabicový ERP systém a excelovské tabulky. Je snadné určit vlastníka jednotlivých oblastí. Je zde ale také nejjednodušší stanovit plán pro údržbu a rozvoj master dat, který pak poroste s firmou dále.
  • Střední firmy mají několik systémů, které spoléhají na stejnou sadu master dat, a proto vznikají komplikace při jejich synchronizaci. Počet lidí zainteresovaných na jednotlivých oblastech dat je stále dostatečně malý na to, aby se relativně efektivně domluvili.
  • Velké firmy a zejména firmy holdingového typu a korporace, které akvírují další společnosti, již používají řadu systémů – navzájem nepropojených, kde pro každou oblast existuje několik užití. Každá změna master dat vyžaduje vyjádření řady uživatelů a do hry vstupují i firemně-politické aspekty.

Podle průzkumu InformationWeek Reports je za nejčastější bariéru BI řešení považována kvalita dat a související problémy. Není tak náhodou, že MDM projekty jsou často časově propojeny s implementací datového skladu.

Master Data Services

V obecné rovině MDS umožňují extrakci dat ze zdrojových systémů, validaci, vyčištění, odstranění duplicit, obohacení o další atributy a následnou synchronizaci s původními či externími systémy. Tyto úlohy jsou díky rozhraní MDS delegovány datovým stevardům (vlastníkům dat), kteří tak přebírají odpovědnost za master data své organizace.
Správa a tvorba MDS řešení je prováděna skrze webový prohlížeč (nikoho asi nepřekvapí, že aplikace je postavená na technologii Silverlight), Excel komponentou a samozřejmě prostřednictvím služby Integration Services. Mezi hlavní komponenty Master Data Services patří:

  • Explorer – prostřednictvím webového prohlížeče lze prozkoumávat data a provádět zjednodušeně operace, jako je validace a dočištění dat,
  • System administration – komplexní správa MDS, umožňuje vytvářet modely, entity, atributy, hierarchie, kolekce, business pravidla apod.,
  • MDS doplněk pro Excel – zcela nová komponenta umožňující prohlížení, vkládání, čištění, integraci více datových zdrojů, validaci dat, a tedy všechny důležité úlohy MDS,
  • Integration management – umožňuje vytvářet, spravovat a spouštět automatizované úlohy, na základě výsledků pak může data stevard provést dočištění a validaci dat,
  • Versioning – možnost auditovat změny v čase, předcházet změnám v datech před jejich validací oproti business pravidlům, revertovat změny, nastavit nebo naopak uzamknout model pro automatizované subskribce (extrakci dat) do analytických a jiných systémů,
  • User and Group Permission – umožňuje konfiguraci oprávnění uživatelům a skupinám z Active Directory pro přiřazení nebo zamezení přístupu k jednotlivým funkcionalitám, modelům, entitám nebo oblastem dat.

Model a jeho objekty

Základním prvkem MDS je model. Model je kontejner objektů definující strukturu master dat. Každý model obsahuje alespoň jednu entitu (tabulku analogicky k relačnímu chápaní databází) a každá entita vyžaduje povinné atributy „název“ a „kód“. Další atributy entit jsou volitelné – kromě popisu to mohou být i cizí klíče k jiným entitám. Každou entitu lze chápat jako doménu (definovanou množinu záznamů entity).
Hierarchie a kolekce patří mezi významné objekty každého modelu mající velký význam zejména pro analytické modely. Hierarchie se rozdělují na explicitní (explicit) a odvozené (derived). Explicitní hierarchie se vytváří ručně prostřednictvím definice vazeb uvnitř jedné entity. Odvozené hierarchie vycházejí z několika entit spojených cizími klíči prostřednictvím domén (kategorie – subkategorie – produkt). Kolekci si lze představit jako skupinu členů entit seskupující se na základě společné charakteristiky.
Business pravidla jsou klíčovými objekty každého modulu, jejichž prostřednictvím se provádí klíčová úloha, kterou je validace dat. Definováním kvalitní sady business pravidel pro každý model a entitu zabezpečíme, že master data budou kvalitní a splňující všechny naše požadavky. Business pravidla lze kromě toho navíc využít i pro odesílání e-mailových notifikací v případě problému s validací, spouštění definovaných SharePoint workflow nebo individuálních akcí.

Import dat a MDS metadata

Aby mohl být master data management v SQL Serveru 2012 opravdu skutečně použitelný, musí být import dat samozřejmě automatizovaný. Proto existuje ucelené schéma staging tabulek, do kterých se data extrahují a z nichž MDS služba čte a zpracovává data do modelů a entit:

  • tblSTGMember – slouží pro extrakci záznamů jednotlivých entit,
  • tblSTGMemberAttribute – slouží pro extrakci záznamů atributů entit,
  • tblSTGRelationship – slouží pro extrakci vazeb v hierarchiích a kolekcích.

Vytvoření sady automatizovaných úloh pro jednotlivé modely a verze umožňuje stevardům sledovat výsledky pravidelných spouštění a v případě nekonzistence (porušení business pravidel) data dočistit a validovat.
Samozřejmostí je, že veškeré transakce jsou logovány a datoví stevardi mají úplný přehled o všech operacích a změnách v datech. Transakce lze vyhledávat na základě výběru libovolného modelu (verze) a samozřejmě také použitím definovaných filtrů.

Data Quality Services (DQS)

Data Quality Services usnadní datovému stevardovi práci s udržováním a vynucováním kvality dat. DQS je řešení postavené na znalostních databázích (slovnících) a umožní jak automatickou, tak ruční práci směřující k vyšší integritě dat. DQS poskytuje následující služby:

  • Knowledge Base – umožňuje vytvářet vlastní nebo použít a spravovat externí znalostní databáze,
  • Data Cleansing – změny, odstranění, rozšíření dat, která jsou neplatná nebo nekorektní, ručně nebo pomocí strojové úlohy,
  • Matching – identifikace sémantických duplicit, vedoucí ke sloučení takovýchto záznamů,
  • Reference Data Services – ověření dat skrze externího poskytovatele referenčních hodnot, poskytovatelé mohou data publikovat na Windows Azure Marketplace (tržiště pro data),
  • Profiling – získávání informací o kvalitě dat z datového zdroje (unikátnost, rozložení, validita ručních vstupů),
  • Monitoring – sledování toho, co DQS služba vykonává a jaké produkuje výsledky.

DQS komponenta se skládá z vrstvy serveru a klienta. DQS Client je webová aplikace umožňující vytváření a správu znalostních databází, projektů a auditování automatizovaných úloh. Jako alternativa k ruční správě DQS prostřednictvím webového rozhraní je zde nová SSIS komponenta DQS Cleansing, která nabízí možnost automatizovaného spouštění DQS služeb (operací) mimo uživatelské rozhraní klienta přímo uvnitř SSIS balíčků. Monitorování lze poté sledovat opět prostřednictvím webového rozhraní nebo provedením integrací do nejrůznějších workflow. Navíc zde existuje i celá řada nových T-SQL funkcí, které umožňují integrovat tyto procesy do vlastních aplikací a nástrojů.

Závěr

Master data management je disciplína, které by měla věnovat pozornost každá větší firma s více informačními systémy. Microsoft SQL Server 2012 Master Data Services je dostupnou a spolehlivou platformou, na které se dá vybudovat řešení pro firemní master data management. MDS pak zejména plní funkci autoritativního datového zdroje, formalizuje a vynucuje procesy okolo master dat pomocí workflow a zaručuje kvalitu dat pomocí definovaných obchodních pravidel.

Luboš Bednář
Autor působí jako DWH/BI consultant/architect ve společnosti Intelligent Technologies s.r.o.

Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.

Inzerce

Microsoft Fabric umožňuje analýzu dat založenou na AI

GOPASEfektivní řízení a analýza dat je klíčovým faktorem úspěchu každé organizace. Společnost Microsoft představila platformu Microsoft Fabric, která nabízí revoluční možnosti v oblasti sběru, ukládání a analýzy dat.