Extrahování obsahu PDF dokumentů v Adobe Acrobatu a Acrobat Readeru: Text

PŘIHLÁŠENÍ - MŮJ ÚČET

„Jediná kniha, která vás krok pro kroku provede fotografováním s digitální zrcadlovkou a přesně popíše všechny její funkce.

Základy práce v programu AutoCAD

Úvod a základní nastavení - Tato série článků je určena převážně pro začátečníky nebo mírně pokročilé uživatele. To ale neznamená, že i ti, kteří se s AutoCADem setkávají denně, by se nemohly dozvědět něco nového.

Jak vkládat snímky do galerií a soutěží? Stručný obrazový průvodce

Připravili jsme pro vás "obrazového průvodce", který – pevně věříme – bude vítanou praktickou pomocí.

Kompenzace expozice: naučme se ji používat

Minule jsme si vysvětlili, co je to automatické měření expozice a jak u digitálních fotoaparátů funguje. Dnes na toto téma úzce navážeme a ukážeme si, jak takové měření expozice můžeme přímo ovlivnit – rychle, jednoduše a bez složitých výpočtů a vzorečků. Ano! Řeč není o ničem jiném, než o expoziční kompenzaci!

Pečení holubi a božská mana v jednom! zn. zdarma a hned

Tady bych pána i paní poprosil kapkou krve o stvrzenčičku. Čekáte podraz? Nečekejte, nekoná se. Naopak se koná představení a praktická demonstrace nejlepšího zdarma pluginu CINEMY 4D, na který můžete momentálně narazit. Pluginu, který je nejenom skvělý, ale který je ještě skvělejší.

Fotosoutěže

Fotogalerie

Odběr fotomagazínu

Fotografický magazín "iZIN IDIF" každý týden ve Vašem e-mailu.
Co nového ve světě fotografie!

Zadejte Vaši e-mailovou adresu:

Kamarád fotí rád?

Přihlas ho k odběru fotomagazínu!

Zadejte e-mailovou adresu kamaráda:

Nabídka práce

17. ledna 2024

Tiskař na siítotiskových automatech - Jihlava
18. ledna 2024

Tiskař - flexotisk
19. února 2024

Brigáda, občasná práce JBC/LBC
13. března 2024

řezač na Kongsberg, Zund
26. března 2024

DTP operátor/grafik
3. dubna 2024

Pozice Grafik/grafička DTP - Studio 66, Praha 9
3. dubna 2024

Recepční / produční PRAHA 9
8. dubna 2024

Výroba reklamy
11. dubna 2024

Tiskař (velkoformát)
11. dubna 2024

Práce na dílně a montáže

Poptávka práce

24. ledna 2024

3D grafika, animace, tisk
14. února 2024

Externí grafička hledá dlouhodobou spolupráci
14. února 2024

Externí grafička hledá dlouhodobou spolupráci
14. února 2024

Externí grafička hledá dlouhodobou spolupráci
19. dubna 2024

DTP operátor a grafik

Seriály

Více seriálů

Navigace: » » » » »

Příslušenství

Adobe Acrobat Praxe

7. března 2003, 00.00 | Jakými nástroji a s jakou úspěšností lze z PDF souborů vytáhnout jejich obsah v
prostředí Adobe Acrobatu či Acrobat Readeru? V tomto článku se pokusíme o zodpovězení
zmíněné otázky v případě textu.

V diskusních fórech spojených s PDF se velmi často objevuje dotaz po způsobech, jakými lze získat obsah PDF souborů (text, grafika) pro další zpracování. Důvody zde bývají různorodé: můžeme mít například dokument, který jsme získali třeba z Internetu, jehož některé prvky chceme využít v dokumentu vlastním, a jehož předlohové soubory nám nejsou k dispozici. Obdobná situace vzniká i v případě, že by dohledávání předloh bylo časově zbytečně náročné. Praktické je rovněž extrahování či převod PDF dokumentu do jiného formátu při křížovém publikování (převod na Web či pro kapesní zařízení typu PDA či mobilního telefonu) anebo v případě, že v daném PDF byly prováděny dodatečné změny, nezaznamenané v předlohách. Různorodých nároků je tedy zde skutečně celá řada (a to jsme uvedli jen některé) a proto jsme se rozhodli podívat podrobněji na to, jakými nástroji a postupy lze tedy získávat data z PDF dokumentů. V našem přehledu jsme se přitom zaměřili na nasazení nejobvyklejšího nástroje pro práci s PDF, tedy Adobe Acrobatu, resp. jeho freewarového souputníka Acrobat Readeru. Z prostorových důvodů jsme zcela vypustili konkrétní popisy jednotlivých nástrojů a postupů: ty lze nicméně snadno nastudovat z odpovídající dokumentace, dodávané s výše uvedenými produkty. Prostorové důvody nás rovněž vedly k rozdělení tohoto článku do dvou částí. V této první se podíváme na problematiku spojenou s extrahováním textových informací, v druhé pak na obdobné zpracování grafických prvků.

Jaké požadavky lze mít na extrahování textu?

Při extrahování textu můžeme mít různé požadavky na kvalitu výstupu. Základní požadavek bývá reprodukce samotné informace, vyjádřené daným textem. Vyšší nároky vyžadují zachování formátovacích charakteristik znaků (font, řez, velikost apod.), nejvyšší pak reprodukce layoutu (řádkový proklad, odstavce, sloupce, umístění apod.), které bývá zapotřebí například při převodu do formátu RTF či HTML stránek. K získání všech uvedených typů výstupu lze použít v Acrobatu a někdy i Readeru řadu produkčních postupů a nástrojů, o jejichž popis se dále pokusíme.

Ještě předtím však považujeme za vhodné upozornit čtenáře na komplikace, spojené nikoli s dále popisovanými nástroji, ale již samotnými PDF dokumenty. Rozmanitost nástrojů pro tvorbu PDF (a také jejich konfigurací) totiž bohužel umožňuje vytvářet takové PDF soubory, jejichž obsah jednoduše kvalitně extrahovat nejde, a to ani s použitím toho nejlepšího nástroje. V případě textu můžeme jako příklad uvést například dokumenty, vytvořené převodem z PostScriptu nebo určitými (ne všemi!) produkčními postupy v TeXu (použití tzv. virtuálních fontů) - jejich obsah sice vizuálně v pořádku, ale po extrahování jsou znaky národních abeced převedeny neadekvátním způsobem. Lékem na uvedené problémy by mohlo být do budoucna důsledné využití tagovaného PDF, ve kterém je každému znaku přiřazen jeho význam v kódování Unicode. Současným řešením pak obvykle bývá pouze vyžádání odpovídajících podkladů od jejich tvůrce. Není-li něco takového možné, připadá v úvahu i vytištění daného dokumentu a jeho následné předložení OCR aplikaci. Neopomeňme ovšem zdůraznit, že při jakémkoli použití podkladů získaných z PDF dokumentů vytvořených někým jiným, musíme respektovat autorská práva.

Převod přes schránku

Pro extrahování resp. přenos textové informace pomocí schránky lze shodně v Acrobatu i Readeru použít nástroj pro výběr textu (kontinuální výběr), sloupce (nekontinuální výběr) nebo tabulky/formátovaného textu (tabulky, sloupce, svislý text - nabízí pouze Acrobat ve verzi pro Windows). Fungování uvedených funkcí se od sebe poněkud liší, podíveme se nejprve na první dvě možnosti.

Zde se po výběru požadovaného textového úseku (tažením) provede s pomocí odpovídajících příkazů jeho překopírování přes schránku. (Před vložením do jiné aplikace si lze obsah schránky prohlédnout prostřednictvím příkazu Okna-Zobrazit schránku.) Navíc je možný i přímý přenos do okna jiné aplikace pomocí funkce Drag&Drop. Příkazem Úpravy-Vybrat Vše lze ke kopírování označit buďto všechen text na dané stránce (zobrazení v módu Jedna stránka) nebo v dokumentu (Průběžné či Průběžné-Protilehlé zobrazení). Při převodu se zachovávají základní formátovací charakteristiky písma a struktura stránky, výsledek ovšem nemusí být zcela předvídatelný, a je dosti závislý na povaze samotného dokumentu (čím jednodušší, tím lepší výsledky). Poněkud mrzutý je při uvedené formě převodu fakt, že se export snaží zachovat přesně ukončení řádků a vkládá na jejich místo znak odstavce (tvrdé zalomení řádků).

V Acrobatu i Readeru je možný přenos textu přes schránku.

V případě zmíněné třetí varianty (nástroj pro výběr tabulky/formátovaného textu) přibývá možnost uložení vybraného textu do souboru (příkaz je dostupný v odpovídající kontextové nabídce vyvolané nad daným výběrem) ve formátu TXT (ANSI, OEM či Unicode) a RTF. Potěšující pak je možnost odstranit zmíněné tvrdé zalomení konců řádků (opět ve zmíněné kontextové nabídce) a převést tabulková data na odpovídající vyjádření v RTF (při převodu do textu se použijí tabulátory). (Dále je ještě možná svislá selekce vhodná například pro sloupce tabulky či japonštinu. Chování zmíněné funkce lze doladit pomocí příkazu Úpravy-Předvolby-Tabulka/Formátovaný text.) I přes deklarované možnosti jsme nicméně při našich přenosových testech nebyli, zejména u souvislého textu rozděleného do odstavců, příliš spokojeni. Problémem byla především problematická selekce textových úseků, která nefungovala tak, jak bychom předpokládali. Navíc lze uvedeným typem nástroje vybírat pouze textové úseky v rámci stránky, což značně omezuje jeho užití.

Nástroj tabulky/formátovaný text umožňuje při přenosu vypnout tvrdé zalomení řádků.

Nástroj pro retušování objektů v Acrobatu

Podstatně výkonnější práci s textovými atributy zajišťuje při přenosu využití nástroje pro retušování objektů. Ten umožňuje jeden nebo více zvolených objektů, kterými mohou být i textové bloky, otevřít k úpravám v zadané externí aplikaci. (Viz příkaz Úpravy-Předvolby-Všeobecné, položka Retušování.) Nejvhodnější je zde nasazení Adobe Illustratoru, který zachovává značně věrně původní charakteristiky převzaté v PDF, a umožňuje otevřený obsah nejen upravit, ale rovněž přenést do svých dokumentů či jiných formátů. I u něj se ovšem mohou vyskytnout jen těžko odstranitelné problémy, vznikající například absencí použitého písma, různými způsoby zalamování apod. Navíc se u problematičtějšího PDF a slabších hardwarových konfigurací můžeme setkat s pády systému, dané jeho enormním zatížením při uvedeném typu zpracování.

Exportní funkce Acrobatu

Pro ty, kdo potřebují naráz extrahovat obsah celého dokumentu, je v Acrobatu (nikoli Readeru) k dispozici rovněž odpovídající exportní funkce, skrývající se pod příkazem Soubor-Uložit jako. Ta umožňuje veškerý nalezený textový obsah převést do formátů TXT a RTF. Podrobnější vyladění jejího chování pro RTF je možné prostřednictvím odpovídajících preferencí Acrobatu (Úpravy-Předvolby-Tabulka/Formátovaný text), pro korektní zachování formátovacích charakteristik je třeba, aby bylo dané PDF tagované. Obě formy exportu trpí především již zmíněným tvrdým zalomením řádku. Rovněž není možno vyselektovat pouze zvolený textový úsek - pokud uživatel nechce extrahovat celý dokument, musí provést pomocí odpovídajících nástrojů nejprve výběr zvolených stránek do nového dokumentu a ten teprve exportovat.

Nastavení převodu do RTF.

Mimo zmíněné exportní funkce poskytuje Adobe pro Acrobat zdarma plugin Save as XML (viz odkazy ve spodní části odkazované stránky). Jeho použitím lze extrahovat obsah PDF dokumentu do XML či HTML a připravit tak daný obsah například k importu do jiné aplikace podporující XML nebo pro publikování na Webu. (Blíže se hodláme možnostem zmíněného doplňku věnovat ve zvláštním článku.)

Co čeština?

Otázkou je samozřejmě do jaké míry dokáží uvedené metody a nástroje zajistit korektní extrahování češtiny resp. znaků jiných národních abeced. Bez zabíhání do zbytečných podrobností zde pouze konstatujme, že nejspolehlivější výsledky garantují jednoznačně lokalizované verze Acrobatu či Readeru ve verzi 5, přičemž ani ty nedokáží řešit problémy se specifickými PDF dokumenty, o kterých jsme hovořili výše.

Závěrem

Možností, jak v Adobe Acrobatu extrahovat text z PDF dokumentů, je celá řada. Žádný z nich však nenabízí, a to jak díky zatím ne úplně dokonalé implementaci nabízených exportních funkcí, tak zejména vzhledem k současnému způsobu vyjádření textu v PDF dokumentech, úplně ideální výsledky. Zvláště u kratších dokumentů s jednodušší strukturou lze nicméně k přenosu textu poměrně úspěšně využít i bezplatný Reader. Pokročilejší funkce extrahování, nabízející velmi zajímavé možnosti strukturování výstupu i velmi širokou škálu výstupních formátů, dokáží poskytnout specializované nástroje jiných výrobců - na jejich přiblížení se podíváme ovšem až někdy příště. Zvídavý čtenář může nicméně již dnes vyrazit například na server PDF Store, kde nalezne velmi komplexní přehled uvedeného typu produktů.

Tématické zařazení:

» Rubriky » Go verze

» Rubriky » Sazba

» Rubriky » Webdesign

» Rubriky » PDF - Adobe Acrobat

Nejčtenější články

14. května 2014

Jak vkládat snímky do galerií a soutěží? Stručný obrazový průvodce
23. dubna 2014

Konica Minolta přenesla výhody velkých zařízení do kompaktních modelů
12. června 2012

Adobe Photoshop III: Tipy a triky pro pokročilé
9. dubna 2014

Kompenzace expozice: naučme se ji používat
29. listopadu 2013

Soutěž PF 2014 tisíckrát a pokaždé jinak

Nejlépe hodnocené články

6. září 2004

OKI snižuje ceny barevných laserových tiskáren C3100 a C5200n
13. května 2004

Sony představilo dva nové notebooky pro kreativce
19. ledna 2004

QuarkXPress Passport 6: předvedení nové verze na konferenci Apple Forum 27.1.2004
6. února 2001

HighWater v Polygře Brno
30. listopadu 2014

Nový fotoaparát α7 II: první plnoformát s pětiosou optickou stabilizací obrazu na světě

Nabídka bazar

20. ledna 2024

Polygrafická řezačka
20. ledna 2024

Zlatička FOMM
1. března 2024

WACOM Intuuos Pro L
5. března 2024

Tiskový a řezací plotr MIMAKI CJV 150-107
5. března 2024

Řezačka Ideal 4705
5. března 2024

Ruční očkovací lis EP-100 šíře ok 9,5mm
5. března 2024

Plotter HP designjet t520 36 in
23. března 2024

Vybavení grafického studia - pro paspartování a rámování
5. dubna 2024

Konica Minolta 2060L produkční tiskárna
11. dubna 2024

UV LED flatbed tiskárna Xenons X2513

Poptávka bazar

27. února 2024

Koupím Box verzi Corel X7

grafika.cz	Vše o počítačové grafice
fotografovani.cz	Digitální fotografie v praxi
idif.cz	Institut digitální fotografie
printing.cz	Tisk a pre-press
mujipod.cz	Apple iPOD rady, tipy a triky
mujmac.cz	Apple MAC
builder.cz	Server o programování
3dscena.cz	3D grafika jako na dlani

Technické (ovládání fotoaparátu)
		35%

Umělecké (portrét, akt, příroda...)
		23%

Grafické (úprava fotografií grafickým programem)
		43%

Jméno:
E-mail:
Telefon:
Zpráva:
Kontrola:	Do spodního pole opište z obrázku 5 znaků:
	Odeslat

Extrahování obsahu PDF dokumentů v Adobe Acrobatu a Acrobat Readeru: Text - Grafika.cz - vše o počítačové grafice

Příslušenství