ABBYY FineReader 7.0 - Grafika.cz - vše o počítačové grafice

Odběr fotomagazínu

Fotografický magazín "iZIN IDIF" každý týden ve Vašem e-mailu.
Co nového ve světě fotografie!

 

Zadejte Vaši e-mailovou adresu:

Kamarád fotí rád?

Přihlas ho k odběru fotomagazínu!

 

Zadejte e-mailovou adresu kamaráda:

Poptávka práce


Software

ABBYY FineReader 7.0

18. listopadu 2003, 00.00 | Aktuální sedmá verze OCR balíku FineReader patří mezi špičku programů v oboru převodu tištěných dokumentů do jejich čistě elektronické podoby. FineReader 7.0 bychom mohli označit minimálně několika přívlastky "nej" a proto bude rovnou lepší, když se na jeho základní možnosti podíváme podrobněji.

{Základní informace}

OCR programy bývají téměř vždy vděčným tématem pro preview i delší recenze jejich možností. Stejně tomu doufám bude i u aktuální verze OCR balíku FineReader ze softwarové dílny společnosti ABBYY Software House. I když je v poslední době stále častěji možné sehnat zdrojový dokument v jeho původní elektronické podobě, pořád ještě existuje dostatek tištěných předloh (zejména v oblasti státní správy apod.), které je zapotřebí převést do podoby čistého textu nebo je archivovat v podobě vhodné pro pozdější OCR proces. To vše zvládnou OCR programy, jejichž více než důstojným zástupce je i sedmá verze balíku FineReader.

Program existuje v několika verzích. Běžnou verzí je FineReader Professional prodávaný bez pár korun za zhruba 5 000 Kč bez DPH (při objednání ze zahraničí přes internet cca 130 USD nebo 130 USD + poštovné za krabicové balení včetně tištěného manuálu). Dražší síťová verze FineReader Corporate Edition stojí cca 10 000 Kč bez DPH (cca 260 USD) a její součástí je stejně jako u verze Professional i ABBYY FormFiller (pro registrované uživatele), což je specializovaná aplikace pro vyplňování a tisk skenovaných formulářů. Obě varianty programu jsou k dispozici pouze ve verzi pro Windows, verze pro Macintosh (6 300 Kč bez DPH) používá jiné číslování a od verze pro Windows se trochu liší podporou některých stávajících Mac OS technologií (QuickTime, AppleSpeech, AppleScript apod.) a také o něco menším rozsahem podporovaných jazyků. FineReader 7.0 pro Windows podporuje 177 jazyků včetně češtiny a mnoha dalších slovanských jazyků, pouze pro několik desítek z nich (s vlastním slovníkem), ale můžete používat interní korektor pravopisu. Stáhnout si můžete i kompletní českou lokalizaci prostředí programu, jejíž součástí je i česká nápověda a česká PDF dokumentace. Program navíc existuje i ve zjednodušené verzi FineReader Sprint, kterou najdete přibalenou u některých levnějších skenerů.

Před skenováním je vhodné nastavit rozlišení skenovaného dokumentu. Pro běžné texty s velikostí písma od cca 10 bodů výš (samozřejmě ne obrazových) je obvyklé minimum 300 dpi. U dokumentů s menší velikostí písma (například různé časopisy apod.) je pak vhodné použít rozlišení alespoň 400 dpi, ještě lépe pak 600 dpi. Vyšší rozlišení nemá v běžných případech příliš velký smysl, už jen vzhledem k velikosti výstupního souboru. Dokumenty lze skenovat v několika módech včetně interního skenovacího modulu FineReaderu. Doporučeno je skenování v odstínech šedi (v některých případech i v barvě), při skenování v čb módu se mohou ztratit některé důležité grafické informace používané pro OCR proces (což mohu jen potvrdit). Podpora rozhraní TWAIN je naprostou samozřejmostí. Skenovat lze nově automaticky i oboustranné dokumenty, což ale samozřejmě vyžaduje příslušně vybavený skener.


FineReader 7.0 - základní pracovní prostředí programu s náhledovými okny a integrovaným textovým editorem


FineReader 7.0 - možnosti nastavení interního skenovacího modulu FineReaderu


FineReader 7.0 - základní preference pro skenování dokumentů

Všudypřítomný Průvodce vás v několik krocích provede celým procesem skenování a rozpoznávání dokumentu do jeho elektronické podoby. Součástí Průvodce je i kontrola chybně identifikovaných znaků v primitivním textovém editoru a export hotového elektronického dokumentu. Nechcete-li Průvodce používat, můžete jeho služby hrdě odmítnout a používat FineReader v plně manuálním módu. Mezi novinky sedmé verze programu patří mimo o něco vyšší rychlosti a spolehlivosti rozpoznávání písma také poměrně inteligentní automatická detekce rozvržení částí naskenovaného dokumentu. Rozpoznávání znaků by mělo být údajně o čtvrtinu přesnější, ještě větší navýšení přesnosti (díky novým či vylepšeným slovníkům) nabízí FineReader 7.0 při rozpoznávání specializovaných typů dokumentů jako jsou například různé lékařské zprávy (zatím pouze v několika málo jazycích). Rozpoznávání layoutu patří mezi opravdu silné stránky programu a pokud náhodou FineReader nepozná nějaký atypický sloupec textu, můžete si ho dodatečně nadefinovat ručně s pomocí interního a snadno ovladatelného layout editoru. FineReader 7.0 umí do jisté míry rozpoznávat i komplexní tabulky včetně tabulek s barevně odlišenými políčky, o podpoře libovolného množství textových sloupců na stránce a mírně atypických layoutech ani nemluvě.


FineReader 7.0 - Průvodce OCR procesem


FineReader 7.0 - výběr jazyka pro rozpoznávání


FineReader 7.0 - okamžitá kontrola rozpoznaného textu v rámci Průvodce


FineReader 7.0 - základní možnosti export dokumentu převedeného do elektronické podoby


FineReader 7.0 - nastavení automatického formátování dokumentu


FineReader 7.0 - funkce pro vyhledávání a nahrazování textu patří mezi standardní funkce programu

[-more-]{Export a některé další funkce programu}

Rozpoznaný text a samozřejmě i layout dokumentu lze uložit do několika typů souborů s odlišnou strukturou a v různých formátech. Struktura jednotlivých formátů je poměrně důležitá, neboť ne vždy je u daného formátu možné docílit co nejvěrnější layout originálního skenovaného dokumentu. Je sice pravda, že zdaleka ne vždy budete přesný layout potřebovat (většinou stačí i holý text), už ale jen mít tu možnost layout si uložit je určitě užitečné, neboť ne vždy musí být původní dokument stále k dispozici a například u formulářů ani jiná možnost není. FineReader 7.0 umí text + případně i grafiku uložit ve formátech MS Wordu, ve formátu RTF (nekorigovaná "mizerná" předloha ze staré inkoustové tiskárny ilustrující fakt, že ani to nejlepší OCR není bez péče věnované učení znaků všemocné), jako čistý textový soubor a v mnoha dalších formátech. Některé z nich můžete ovlivnit v preferencích programu, nastavení se týkají především volby kódové stránky (opravdu bohatá nabídka), rozlišení apod.

Novinkou ve FineReaderu 7.0 je export dokumentu ve formátu PDF (bez korektur takříkajíc "na první pokus"), čímž program automaticky povýšil částečně i do kategorie archivačních nástrojů. Dávkový režim skenování je pochopitelně opět naprostou samozřejmostí a je-li váš skener vybavený podavačem dokumentů, získáte schopného pomocníka i při hromadném "OCRkování". Výstup v podobě webové stránky byl doveden téměř na maximální možnou míru, kterou zvládnou současné webové prohlížeče. Ukázka nativního HTML výstupu opět neobsahuje korektury a profesionální webdesignér se patrně zhrozí nad zdrojovým kódem stránky, to ale běžné uživatele vůbec nezajímá - hlavní je pro ně věrnost exportovaného layoutu.

Další novinkou v sedmé verzi FineReaderu je podpora XML při exportu souborů pro MS Office respektive MS Word 2003. Integrace s MS Office umožňuje používat FineReader přímo v rámci MS Wordu 2003 a poté rozpoznaný dokument editovat přímo ve MS Wordu. Výstup v podobě MS PowerPoint kompatibilní prezentace je jistě také zajímavý, nepatří ale mezi to nejlepší, co FineReader 7.0 umí. Při výstupu do elektronické prezentace se hodí nový nástroj pro rozřezání obrázků a další grafiky obsažené v naskenovaném dokumentu, které jsou pak převáděny do samostatných stránek. Grafiku lze ve FineReaderu 7.0 nově otevírat i ukládat též ve formátu JPEG2000.

Dávku vytvořenou ve FineReaderu 7.0 můžete uložit na disk pro pozdější použití, nebo ji využít i jako jakousi databázi obsahující pokročilé možnosti při vyhledávání slov a větných spojení (pouze v rámci něco přes třiceti jazyků s vlastním slovníkem). Zajímavé je určitě i rozpoznávání čárových kódů, tyto možnosti jsem ale netestoval. OCR proces může probíhat na pozadí, což tolik nezdržuje a můžete se věnovat další práci s programem. FineReader 7.0 podporuje u procesorů Intel Pentium 4 technologii Hyper -Threading, nemaje takový procesor ale nemohu potvrdit vyšší produktivitu práce ani vyšší rychlost programu.


FineReader 7.0 - dostupné vlastnosti pro export převedených dokumentů ve formátech RTF/DOC a MS Word XML


FineReader 7.0 - nastavení některých základních vlastností PDF dokumentů


FineReader 7.0 - volba kódové stránky u HTML exportu


FineReader 7.0 - možnosti při exportu PowerPoint prezentace


FineReader 7.0 - rozdělování dokumentu na jednotlivé stránky například pro export prezentací


FineReader 7.0 - editor dostupných jazyků a jejich uživatelských slovníků


FineReader 7.0 - úprava vlastností písma v interním textovém editoru FineReaderu

FineReader 7.0 - možnosti nastavení dávkového režimu

Pokud není FineReader 7.0 v současné době vůbec nejlepší program pro optické rozpoznávání znaků, zcela jistě patří mezi naprostou špičku v tomto oboru. Díky kompletně českému prostředí a podpoře zhruba dvou stovek jazyků včetně češtiny se FineReader 7.0 může stát univerzálním pomocníkem v kanceláři i doma při převodech libovolného množství tištěných předloh do jejich plně editovatelné elektronické podoby. Kvalita rozpoznávání je na velmi vysoké úrovni, zázraky ale FineReader neumí. U typově stejných dokumentů se stejnými nebo velmi podobnými fonty lze výsledky rozpoznávání většinou výrazně ovlivnit "naučením" jednotlivých znaků a jejich kombinací, to ale platí pro všechny profesionální OCR systémy. Pro jednotlivé dokumenty je obvykle lepší opravit text ručně přímo v editoru FineReaderu nebo třeba v MS Wordu, jehož poměrně kvalitní korektor pravopisu je v tomto případě též velmi vítanou pomůckou.

Částečně variabilní cena programu je díky několika dostupným verzím na přijatelné úrovni, zkrátka nepřijdou ani uživatelé počítačů Macintosh. Protože vývoj FineReaderu navíc stále pokračuje (a to poměrně usilovným tempem), určitě se s ním ještě na stránkách Grafiky On-line setkáte; pro dnešek se tedy už jen budete muset spokojit se stručným dodatkem, že FineReader 7.0 je zkrátka skvělý OCR program.

Tématické zařazení:

 » Rubriky  » Go verze  

 » Rubriky  » Skenery  

 » Rubriky  » Software  

Diskuse k článku

 

Vložit nový příspěvek   Sbalit příspěvky

 

Zatím nebyl uložen žádný příspěvek, buďte první.

 

 

Vložit nový příspěvek

Jméno:

Pohlaví:

,

E-mail:

Předmět:

Příspěvek:

 

Kontrola:

Do spodního pole opište z obrázku 5 znaků:

Kód pro ověření

 

 

 

 

 

Přihlášení k mému účtu

Uživatelské jméno:

Heslo: