www.systemonline.cz

Tematické sekce

ERP systémy

CRM systémy

Plánování a řízení výroby

AI a Business Intelligence

DMS/ECM - Správa dokumentů

HRM/HCM - Řízení lidských zdrojů

EAM/CMMS - Správa majetku a údržby

Účetní a ekonomické systémy

ITSM (ITIL) - Řízení IT

Cloud a virtualizace IT

IT Security

Logistika, řízení skladů, WMS

IT právo

GIS - geografické informační systémy

Projektové řízení

Trendy ICT

E-commerce B2B/B2C

CAD/CAM/CAE/PLM/3D tisk

Branžové sekce

Automobilový průmysl

Banky a finanční organizace

Energetika a utility

Potravinářský průmysl

Stavebnictví - BIM, CAFM

Veřejný sektor a zdravotnictví

Inzerce

SystemNEWS


	Přihlaste se k odběru zpravodaje SystemNEWS na LinkedIn, který každý týden přináší výběr článků z oblasti podnikové informatiky

Archiv SystemNEWS

Přehledy

Přehledy IS
APS (25)
BPM - procesní řízení (23)
Cloud computing (IaaS) (10)
Cloud computing (SaaS) (31)
CRM (52)
DMS/ECM - správa dokumentů (19)
EAM (17)
Ekonomické systémy (68)
ERP (75)
HRM (28)
ITSM (6)
MES (33)
Řízení výroby (36)
WMS (28)
Dodavatelé IT služeb a řešení
Datová centra (25)
Dodavatelé CAD/CAM/PLM/BIM... (41)
Dodavatelé CRM (38)
Dodavatelé DW-BI (50)
Dodavatelé ERP (66)
Informační bezpečnost (43)
IT řešení pro logistiku (48)
IT řešení pro stavebnictví (26)
Řešení pro veřejný a státní sektor (27)

Inzerce

Partneři webu

Best WordPress Themes

Hlavní strana -> Časopis IT Systems -> Rok 2024 -> IT Systems 4/2024 -> Vytěžování informací z dokumentů pomocí AI

IT SYSTEMS 4/2024 , AI a Business Intelligence , DMS/ECM - Správa dokumentů

Vytěžování informací z dokumentů pomocí AI

Dalibor Lukeš

V dnešní době je velká část informací uložena ve formě dokumentů, jako jsou faktury, smlouvy, formuláře, zprávy, články, knihy a další. Tyto dokumenty obsahují cenná data, ale je potřeba je umět zpracovat. Nejprve je ale musíme z dokumentů získat – vytěžit. Vytěžování dat z dokumentů je proces, který se snaží extrahovat a strukturovat data z dokumentů pomocí různých metod a technik. Nástup umělé inteligence tuto oblast výrazně zjednodušil a umožnil provozovat ve velkém měřítku. Podívejme se, jak to vlastně funguje.

Co je to vytěžování dat z dokumentů?

Podívejme se nejprve, co to vlastně je vytěžování dat z dokumentů. Je to schopnost získávat data z různých typů a formátů dokumentů, jako jsou PDF, obrázky, skeny, e-maily, tabulky, prezentace, webové stránky a další. Cílem je převést neuspořádaná a nehomogenní data do uspořádané a strukturované formy, která umožňuje jejich snadné zpracování, analýzu a využití v dalších systémech (ERP, CRM, DMS a Workflow...). Vytěžování dat z různých dokumentů je důležitou součástí digitalizace a automatizace procesů.

Nejen faktury

V současné době se s pojmem vytěžování dat setkáme nejčastěji v souvislosti s fakturami a účtenkami. Je to důsledkem toho, že faktury jsou nejčastěji rutinně a ručně zpracovávané dokumenty v rámci firem. Ruční přepis těchto dat často zaměstnává i několik účetních, jejichž kapacita je tak mrhána na rutinní činnosti, místo aby se věnovali smysluplnější a odbornější práci. Vytěžování dat z faktur umožňuje extrahovat důležité informace, jako je datum, číslo, dodavatel, položky, ceny, DPH a další, a automaticky je zaúčtovat do účetního systému, či například spustit schvalování. Tím se zrychlí a zjednoduší celý proces zpracování faktur, sníží se chybovost a ušetří se čas a náklady.

Vytěžování dat z různých dokumentů však není omezeno jen na faktury a účtenky. Existuje mnoho dalších možných scénářů využití této technologie nejen ve firemní sféře. Například:

Vytěžování dat z dodacích listů a skladových dokladů umožňuje efektivněji sledovat pohyb zboží, stav zásob či vyřizování objednávek.
Vytěžování dat ze smluv, objednávek a nabídek umožňuje extrahovat klíčové podmínky, jako jsou lhůty, ceny, slevy, garance, sankce a další. Tato data lze pak automatizovaně zpracovat v obchodních či CRM systémech a zefektivnit tak kontrolu, vyhodnocování a plánování obchodních aktivit.
Vytěžování dat z životopisů, pracovních smluv a hodnocení umožňuje získat informace o zaměstnancích, jako jsou jejich kvalifikace, zkušenosti, kompetence, plnění cílů a další. Data z těchto dokumentů lze využít pro nábor, řízení lidských zdrojů, motivaci a odměňování.
Vytěžování dat z lékařských zpráv lze využít k rychlejší a automatizované detekci nestandardních situací – například sekundárních nemocničních infekcí.
Vytěžování dat z finančních dokumentů, jako jsou výkazy, transakce nebo auditní zprávy, umožňuje získat informace o finanční situaci, výkonnosti, rizicích nebo příležitostech. Data z těchto dokumentů lze využít pro finanční analýzu, obchodní aktivity nebo detekci podvodů.
Vytěžování dat z právních dokumentů, jako jsou smlouvy, rozsudky, žaloby nebo patenty, umožňuje získat informace o právních předpisech, precedentech, argumentech nebo inovacích. Data z těchto dokumentů lze využít pro právní analýzu, poradenství, vymáhání práva nebo ochranu duševního vlastnictví.

Tyto a mnoho dalších příkladů nejsou většinou žádné objevy ani průlomová nová řešení. Většinu těchto dat již máme. Přínosem je ale automatizace a rychlost získání těchto dat ve strukturované podobě pro jejich další zpracování. To, že nejsme závislí na ručním přepisování dat, které někdy vytváří chyby, někdy zpomaluje proces a někdy se vůbec nestane, přináší možnost spustit řadu automatických procesů a především se na ně více spolehnout. I když i kontrola těchto dat, z principu využití AI, musí být pochopitelně součást procesu.

Jak to ta AI dělá?

Nástroje na bázi umělé inteligence využívají různé metody, jako je strojové učení, zpracování přirozeného jazyka nebo optické rozpoznávání znaků, aby extrahovaly data z textu, obrázků, tabulek nebo grafů. Již řadu let se pro získávání dat z dokumentů, nejčastěji třeba právě faktur a účtenek, používají nástroje na bázi strojového učení (Machine Learning – ML). Data se nejprve z obrazové podoby pomocí OCR převedou na text tak, že obsahují i informace o umístění konkrétních slov či čísel v rámci dokumentu (koordináty). Tyto informace následně zpracuje ML model, naučený na historických datech, který určí význam konkrétních dat a ta přiřadí do definované struktury. Tato data jsou pak buď uložena do databáze, nebo předána zpět v určené struktuře (nejčastěji jako XML/JSON soubor). Výhodou těchto modelů je jejich rychlost a možnost učení a úprav pro konkrétní typy dokumentů či požadovaných informací. Právě ale ta možnost učení je současně i určitou nevýhodou – tyto modely musíte na požadovaný typ dokumentů naučit. Současně se tento přístup hodí více na různé strukturované dokumenty (faktury, dodací listy, formuláře...) než na zpracování delších textů.

Co na to populární GenAI?

Některé nástroje na bázi generativní umělé inteligence umí také docela dobře vytáhnout strukturovaná data. Když vyzkoušíte vytěžit fakturu některou z těchto služeb, dostanete celkem dobré výsledky, často na první pohled srovnatelné se specializovanými modely. Nicméně pošlete tam stejnou fakturu znovu. Výsledek, především z pohledu struktury, bude jiný. Museli byste tak před generativní AI postavit propracovaný prompting nástroj, který by se snažil zajistit, abyste dostali stále stejnou strukturu. Současně by tento model nemusel být úplně levný na využití.

Nicméně generativní AI má velkou výhodu při vytěžování textových informací. Její možnosti „pochopení“ textu a získání souhrnu či klíčových bodů se uplatní při vytěžování dokumentů typu smlouvy, nabídky, články, případně poptávky. A toto je velká nová oblast využití vytěžování dat, kde můžeme čekat řadu zajímavých nových řešení.

Jak dál?

Vytěžování dat z dokumentů je aktuální disciplína, která zažívá svou renesanci právě i díky trendu umělé inteligence. Vytěžování faktur a účtenek se pomalu stává běžnou komoditou a součástí běžného SW. Nicméně i zde je stále prostor k posunu a narovnání některých očekávání. O tom, o praktických zkušenostech a také, že 95 % nemusí být 95 %, si řekneme v některém z dalších článků na toto téma.

Dalibor Lukeš
Autor článku je odborník na digitalizaci. Aktuálně z pozice člena představenstva řídí technologické, produktové a marketingové aktivity společnosti MULTIMA.

Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.

Inzerce

Úroveň digitalizace veřejného sektoru rychle roste

V aktuálním vydání IT Systems jsme se zaměřili na digitalizaci veřejné správy, která se logicky dotýká nás všech. V souhrnu jde o velmi rozsáhlou oblast mnoha agend a s nimi souvisejících informačních systémů. Některé z nich nejsou na úrovni, kterou očekáváme na základě zkušeností s moderními aplikacemi z komerčního sektoru, a proto je úroveň digitalizace veřejné správy u nás spíše podceňovaná. Ve skutečnosti se v posledních letech výrazně zlepšila.

» Více

Inzerce

Časopis IT Systems / Odborná příloha

Více o časopisu IT Systems

Archiv časopisu IT Systems

Oborové a tematické přílohy

Inzerce

Kalendář akcí

duben - 2025
Po	Út	St	Čt	Pá	So	Ne
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	1	2	3	4
5	6	7	8	9	10	11

IT Systems podporuje

9.4.	Digitální důvěra: Základ úspěšné digitalizace business...
15.4.	Optimalizovaný sklad v akci: WMS a automatizace v hlavní...
23.4.	Digital Transformation Summit 2025
29.4.	Elektronický podpis v praxi: Digitalizace krok za krokem...
13.5.	Cloud Computing Conference 2025

Formulář pro přidání akce

Další vybrané akce

10.4.	Konference ALVAO Inspiration Day 2025
10.4.	APSolutní jízda: zrychlete výrobu, snižte náklady!
16.4.	On-line webinář \| Optimalizace využití výrobních zdrojů...

Další akce