Pojem OCR (Optical Character Recognition) je už mnoho let uživatelům známý. Nikdo dnes už příliš nepochybuje o tom, co OCR je. V posledních letech se ale začíná častěji objevovat pojem vytěžování dat (Data Mining). A nad ním nejeden uživatel může váhat. Jaký je rozdíl mezi OCR a vytěžováním dat? A co přináší vytěžování dat navíc systémům pro správu elektronických dokumentů (DMS – Document Management System)?
Vytěžováním dat se má na mysli získání strukturovaných dat z dokumentu – např. přijaté faktury, formuláře, dotazníku apod. Pokud dokument máte v papírové podobě, převedete ho do elektronické podoby skenováním. Před vlastním vytěžením dat se provádí prosté rozpoznání textu pomocí technologie OCR a teprve následně se na získaná data aplikuje vytěžovací algoritmus.
Pro vytvoření názornější představy vidíte na obrázku níže hlavičku faktury.
Technologií OCR získáte z takovéto hlavičky faktury data zhruba v této podobě:
Technika, a.s. IČ: 14114141 Faktura - daňový doklad č. 2016-06-11-7 Paříkova 910/11a Datum plnění 10. říjen 2016 19000 Praha 9-Vysočany Datum vystavení 10. říjen 2016 DIČ: CZ14114141 Datum splatnosti 24. říjen 2016 Banka: AirBank, a.s. Číslo objednávky Účet: 14114141/3030 Forma úhrady převodním příkazem Konečný příjemce Příjemce IČ 15115151 DIČ: CZ15115151 IT Tech, a.s. Pešlova 1 190 00 Praha 9-Vysočany
Takhle získaný text je vhodný např. pro fulltextové vyhledávání dokumentů uvnitř DMS. Ale pokud budete mít ambice proces přijatých faktur více automatizovat, není takový výsledek použitelný.
Naproti tomu technologií pro vytěžování dat získáte informace podstatně lépe strukturované:
Typ |
ID |
Hodnota |
Faktura přijatá |
id_Dodavatel |
Technika, a.s. |
Faktura přijatá |
id_AdresaDodavatel |
Paříkova 910/11a |
Faktura přijatá |
id_IcoDodavatel |
14114141 |
Faktura přijatá |
id_DicDodavatel |
CZ14114141 |
Faktura přijatá |
id_CisloUctu |
14114141 |
Faktura přijatá |
id_KodBanky |
3030 |
Faktura přijatá |
id_DatumSplatnosti |
24.10.2016 |
Faktura přijatá |
id_CisloFaktury |
2016-06-11-7 |
Faktura přijatá |
id_Odberatel |
IT Tech, a.s. |
Je to dobré pro automatizaci rutinní práce. Popíšeme zde proces zpracování přijatých faktur, který už dnes využívá řada našich klientů využívajících DMS eDoCat. Vytěžená data uložená např. v souboru typu XML potom mohou sloužit k automatizaci dalších operací nutných k zaevidování přijaté faktury. V několika krocích potom proběhne následující proces:
1. Na vstupu je přijatá faktura. Buď přijde elektronickou poštou jako PDF, anebo asistentka oskenuje papírový dokument. Vytěžovací software pak PDF k vytěžení získá z buď došlého emailu, anebo přímo ze skeneru.
2. Po určité době nutné k zaučení vytěžovacího software (řádově jednotky, popř. nízké desítky dokumentů) proběhne vytěžení přijaté faktury zcela automaticky, bez zásahu operátora/ky. Pokud si přesto software není některým znakem jistý, vyžádá si kontrolu operátora.
3. Z vlastního vytěžení vzniknou dva soubory:
a. PDF s textovou vrstvou určenou k fulltextovému vyhledávání (OCR) a
b. XML soubor se strukturovanými daty (vytěžení dat).
4. Oba dva soubory vloží vytěžovací software přímo do DMS. Ten potom např. do složky Přijaté faktury vloží PDF soubor s obrazem faktury a z přiloženého XML souboru vyplní META data (košilku faktury).
5. Pokud jsou známé všechny informace a není nutný zásah operátora/ky, DMS může automaticky spustit proces schvalování přijaté faktury (workflow).
6. Do XML souboru s daty získanými z faktury potom DMS přidá link, kde se v jeho databázi nachází PDF s obrazem faktury. Takto doplněný XML soubor odešle DMS do účetnictví.
7. Účetní software pak z dat v XML soboru založí datový záznam přijaté faktury, propojí ho s obrazem faktury v DMS a připraví ho paní účetní k zaúčtování.
DMS eDoCat ve spolupráci s nástroji pro vytěžování dat může ušetřit firmě nemálo lidské práce náročné na přesnost a nízkou chybovost.
DMS eDoCat na platformě Alfresco Community Edition je uživateli ověřené řešení. Vyniká dostupností, jednoduchostí a intuitivním uživatelským rozhraním. A hlavně – to, co dělá, dělá pořádně. DMS eDoCat vám pomůže udržet si dokumentaci pod kontrolou. Výkonným pomocníkem může být zejména pro vaše kolegy, kteří mají na starosti ISO certifikace, anebo odborné akreditace vaší společnosti.
Mgr. Pavel Nykl, obchodní ředitel společnosti Onlio, a.s., www.onlio.com, www.edocat.cz
Nelze pochybovat o tom, že pevné základy vaší firmy tvoří produkty, o které mají vaši zákazníci trvale zájem. Nedílnou součástí...