facebook LinkedIN LinkedIN - follow

Jaké si to uložíš, takové to máš. Na kvalitě vstupních dat záleží důvěryhodnost AI odpovědí, říká Ross Porter z Dellu

-PR-

Více než polovinu své kariéry spojil Ross Porter se společností Dell Technologies, kde dnes řídí presales v regionu EMEA. Jeho specializací je oblast nestrukturovaných dat. V rozhovoru se rozpovídal mimo jiné o problematice jejich ukládání v prostředí datových jezer a skladů, reálných zkušenostech s aplikací umělé inteligence na velké objemy dat nebo úskalích s důvěryhodností odpovědí generovaných AI.


Jaké jsou aktuální trendy v uchovávání, spravování a analyzování nestrukturovaných dat?

Aktuálně registrujeme obrovský nárůst objemu nestrukturovaných dat. Analytici odhadují, že 80–90 % celosvětového objemu dat můžeme klasifikovat jako nestrukturovaná. Jsou mimo formálně strukturované databáze a vytvářejí se všude. Sociální sítě, video a streamy, ale také PowerPointové prezentace... a v posledním čase také obsah generovaný AI. Je zřejmé, že tento růst se nezpomalí a že tato data obsahují množství cenných informací. Hodnotu mají samozřejmě i z pohledu trénování AI modelů. Proto je třeba tato data nejen uchovávat, spravovat a chránit, ale především z nich vytěžit maximum informací.

Můžete porovnat Dell Data Lakehouse s klasickými datovými sklady, resp. datovými jezery?

Datové sklady se používají pro vyčištěná a strukturovaná data, takže umožňují jednoduché vyhledávání a analýzy. Datová jezera pak umožňují ukládat obrovské množství nezpracovaných dat v jejich původním formátu, který může být strukturovaný, nestrukturovaný nebo polostrukturovaný. Datová jezera, zejména ta v cloudu, jsou relativně levná, lehce škálovatelná a často se používají s aplikovanou analýzou strojového učení. Když k tomu přidáme metadata, v podstatě víte, kde je co uložené. K datům je možné přistupovat prostřednictvím různých protokolů včetně filtrování. Můžete využít kombinaci údajů z různých zdrojů, abyste dosáhli požadovaný výstup.

Dell Data Lakehouse spojuje výhody těchto dvou světů napříč všemi typy dat, ať jsou strukturované nebo nestrukturované. Poskytuje vysoký výkon a flexibilitu včetně stahování dat do těch prostředí, kde na ně můžete aplikovat AI modely nebo je můžete přichystat do požadované formy.

Pro stávající zákazníky bude pravděpodobně velkou výzvou migrace z technologie klasického datového skladu.

Jednou z klíčových výhod koncepce Dell Data Lakehouse je minimalizování potřeby migrovat data. Klíčová je proto, že migrace vyžaduje čas a práci. Musíte vše přesunout na nové místo, zabezpečit přístupy pro uživatele a aplikace… Toto všechno však odpadá, protože data zůstanou tam, kde jsou. Naše řešení umožňuje získat rychlejší přehledy, respektive získat informace z dat, která už máte, bez nutnosti je přesouvat či jinak upravovat. A když odpadá migrace, šetří se čas a náklady. Je to výhodné i z pohledu bezpečnosti. Můžete totiž využít všechna osvědčená řešení, která už máte implementovaná, nemusíte zavádět nové nástroje a procesy. Samozřejmě máme partnerství, řešení a nástroje, díky kterým umíme pomoci s migrací tam, kde je to potřebné.

Jaké jsou ohlasy zákazníků na tuto technologii? Zajímá mě samozřejmě i to, jestli Data Lakehouse využíváte interně ve společnosti Dell.

Dell, jako každá firma, zápasí s množstvím dat, které potřebujeme spojit do jednotného prostředí, abychom z nich vytěžili informace na podporu rozhodování. Samozřejmě intenzivně implementujeme naše vlastní technologie a využíváme čím dál tím víc AI nástrojů pro zvýšení produktivity zaměstnanců.

Naši zákazníci se snaží vypracovávat vlastní strategie správy dat, vlastní strategie pro AI, snaží se zjistit, která jejich data jsou relevantní pro které modely umělé inteligence. Kvalitních výstupů dosáhnou jen tehdy, pokud do těchto modelů dostanou nejkvalitnější data s minimem chyb. Pozitivní přijetí Dell Data Lakehouse umocňuje naše partnerství se společností Starburst, která poskytuje nástroje Dell na analýzu dat. Máme velmi mnoho příkladů úspěšné implementace a kladných referencí. Zmínit mohu finanční instituce, které chtějí urychlit odhalování podvodů. Agregaci heterogenních dat oceňují i firmy v mediálním a zábavním průmyslu. Ty potřebují analyzovat údaje ze set-top boxů v domácnostech, aby zjistily, co lidé hledají, a mohly jim nabídnout personalizovaný obsah. Dell Data Lakehouse umožňuje firmám využívat údaje jako aktivum, z něhož dokáží vytěžit maximum. Dell má ekosystém a partnerství v rámci AI Factory, má metodiky pro správný výběr AI modelů s ohledem na maximální využití jejich potenciálu. Spolupracujeme s firmou Microsoft při využívaní jejich nástroje Copilot, ale i mnohými dalšími společnostmi.

Co nás v budoucnu čeká v oblasti ukládání, zpracování a analýzy dat, ať strukturovaných, tak nestrukturovaných?

Myslím si, že v blízké budoucnosti se všechno zrychlí, a doufám, že i zjednoduší. AI nástroje jsou už teď jednoduše dostupné, dají se intuitivně používat nejen v práci, ale také soukromě. Klíčová bude důvěra, kterou lidé budou mít ohledně vygenerovaných výstupů. Jinými slovy, aby věděli, že výstupům mohou věřit a jsou pro ně užitečné. Firmy budou používat, případně vytvářet a ladit AI modely, které jim dovolí efektivně využít jejich data, dokumenty nebo multimédia. Efektivní využívání AI zvýší hodnotu jejich podnikání. Samozřejmě, výstupům bude možné důvěřovat jenom tehdy, pokud se do AI modelů budou vkládat kvalitní, důvěryhodná data. Při použití nekvalitních, či dokonce nesmyslných vstupů se budou generovat nesmyslné výstupy. Dell pomáhá a bude pomáhat firmám identifikovat, jaké řešení potřebují. A následně jim pomůže vybrat a implementovat příslušnou infrastrukturu – ať už on-premise, nebo cloudovou. Data jsou nejdůležitějším a nejcennějším aktivem v jejich organizaci a budou se posouvat vpřed i s využitím AI.

Z hlediska objemu dat je velmi těžké přesunout to všechno do cloudu, zejména když víte, že některá data se nepoužívají. Ukládání do cloudu je nákladné a náročné na místo. Proto Dell zastává filozofii nepřenášet data do AI, ale naopak přinášet AI k datům. A je jedno, jestli jsou v cloudu nebo on-premise. Správný workload a správné soubory v cloudu mohou být velmi efektivní a zároveň ekonomické. V některých případech se zase vyplatí fyzický přesun vybraných dat z cloudového prostředí zpátky do interní sítě. Osvědčený postup je analyzovat data on-premise a následně zvážit, co má smysl přesunout do cloudu, a co ne. V tom je krása hybridních modelů, hybridního cloudového prostředí.