Zpracujte své PDF-dokumenty pomocí nástrojů z Xpdf - Grafika.cz - vše o počítačové grafice

Odběr fotomagazínu

Fotografický magazín "iZIN IDIF" každý týden ve Vašem e-mailu.
Co nového ve světě fotografie!

 

Zadejte Vaši e-mailovou adresu:

Kamarád fotí rád?

Přihlas ho k odběru fotomagazínu!

 

Zadejte e-mailovou adresu kamaráda:

Poptávka práce


PDF - Adobe Acrobat

Zpracujte své PDF-dokumenty pomocí nástrojů z Xpdf

5. září 2001, 00.00 | Potřebujete z PDF dokumentu extrahovat text či obrázky a nestačí
vám Acrobat Reader? Chcete zkonvertovat PDF do PostScriptu? Pak se
vám možná bude hodit freewarová sada převodníků dodávaných s
prohlížečem Xpdf.

Úvodem

Čím více se PDF stává publikačním standardem dneška, tím více přibývá nároků na jeho zpracování. Jedním z logických požadavků je zde možnost zpětného extrahování textových či obrazových informací. Obvyklým důvodem tohoto převodu bývá nedostupnost původní předlohy daného dokumentu. K uvedenému účelu je dnes k dispozici celá řada nástrojů různé výkonnosti a pochopitelně i ceny. Základní možnosti poskytuje freewarový Adobe Acrobat Reader (Text a Graphics Select Tools), jeho funkce pak rozšiřuje samotný Acrobat a jeho pluginy i samostatné aplikace od dalších výrobců. My se dnes podíváme na překvapivě výkonnou sadu řádkových utilit, tvořící doplněk alternativního prohlížeče PDF-souborů Xpdf, která je dostupná zcela zdarma.

Download, instalace
Xpdf je prohlížeč PDF souborů, vyvíjený k použití v systému X Windows na platformách Unix, VMS a OS/2. Jeho největšími výhodami jsou rychlost, nenáročnost a volně dostupný zdrojový kód, který jej umožnil přeportovat i na různé další platformy (Acorn, Amiga , BeOS, Epoc). "Přidanou hodnotu" tohoto prohlížeče pak zvyšuje několik utilit pro převod a extrahování PDF-dokumentu. Vedle kompilovaných verzí pro různé klony Unixu (Solaris, Linux ad.) jsou k dispozici i různé spustitelné podoby uvedených utilit (bez samotného Xpdf a převodníku pdftobmp) pro Windows, z kterých je k okamžitému používání určena tato. Instalace balíku je velmi snadná - v podstatě jej stačí rozbalit a pak už je ihned možné začít jednotlivé nástroje používat. Ke každému nástroji je přiložen textový soubor, popisující podrobně jeho funkci i jednotlivé přepínače.

Autorem prohlížeče i přídavných utilit je Derek B. Noonburg.

Popis jednotlivých utilit
pdftotext
Umožňuje obsah PDF souboru převést do textového souboru. Podporováno je několik typů kódování (sedmibitové ASCII, Latin 1, Latin 2, Latin 5, EUC-JP - tedy japonština). Při převodu složitěji strukturovaného textu (sloupce, tabulky) přijde vhod volba -raw, která se pokusí obsah převáděného souboru "linearizovat", to jest odstranit např. formátování do sloupců. Extrahování lze provést pouze se zvolenými stránkami (od/do) a také u uzamčených souborů (je potřeba zadat heslo).

pdfimages
Slouží k extrahování obrázků z PDF dokumentu. Implicitně jsou obrázky převedeny do formátů PBM (Portable Bitmap - pro monochromatické obrázky) a PPM (Portable Pixmap - pro ostatní obrázky), přepínač -j zajistí, že se obrázky uložené do PDF dokumentu ve formátu DCT převedou do JPEG. Možné je opět extrahování pouze zvolených stránek a uzamčených souborů.

pdftops
Převede PDF-soubor do PostScriptu. Při převodu je možno určit (v bodech) šířku a výšku stránky vygenerovaného postscriptového dokumentu. Zajímavé možnosti jsou při volbě formátu vytvořeného PostScriptu: implicitně je užit PostScript Level 2. Dále lze zvolit Level 1 (kompatibilní se zařízeními Level 1, ale generuje soubor, který je pouze černobílý a většího objemu než u Level 2), separovatelný Level 1 (obrázky převedeny do CMYK) a EPS (lze převést vždy pouze jednu stránku). Přepínač -opi extrahuje všechny vložené OPI komentáře. Při generování se implicitně do postscriptového souboru kopírují vložené Type 1 fonty, tuto možnost lze zakázat přepínačem -noemb. (Převodník nepodporuje TrueType a Type 3.) Přepínač -form převede dokument do formulářového postscriptového souboru (konvertuje se pouze první strana). Obdobně jako u předchozích utilit lze pracovat s určeným stránkovým rozsahem a uzamčenými soubory.

pdfinfo
Spíše doplňková utilita, vypisující pro daný PDF-soubor jeho Info Dictionary (titul, subjekt, klíčová slova, autor, tvůrce atd.) spolu s několika dalšími doplňkovými informacemi (počet stránek, zabezpečení, ...).

pdftopbm
Převede PDF dokument do série černobílých obrázků ve formátu PBM (každé stránce odpovídá jeden soubor). U převodu lze stanovit výsledné rozlišení (implicitně 150 dpi) a stránkový rozsah. Ke svému chodu požaduje X server a tak není v současnosti dostupný pro Windows.

Závěrem
Při užívání sady pod Windows jsme zaznamenali různou úspěšnost převodu. Hodně záleželo především na způsobu, jakým byl vytvořen předlohový soubor. Svou cenovou a hardwarovou nenáročností i značnou flexibilitou (možnost automatizovaného nasazení v dávkách apod.) se každopádně všechny nástroje jeví jako dobře použitelné, a to zejména u nepříliš složitě strukturovaných anglických dokumentů. Pokud vám při extrahování informací z PDF-dokumentů nestačí Acrobat Reader, a nechcete rovnou investovat do Acrobatu a komerčních převodníků (jejichž úspěšnost také rozhodně není stoprocentní), stojí vám popsaná sada určitě za vyzkoušení.

Tématické zařazení:

 » Rubriky  » Go verze  

 » Rubriky  » Webdesign  

 » Rubriky  » Download  

 » Rubriky  » PDF - Adobe Acrobat  

Diskuse k článku

 

Vložit nový příspěvek   Sbalit příspěvky

 

Zatím nebyl uložen žádný příspěvek, buďte první.

 

 

Vložit nový příspěvek

Jméno:

Pohlaví:

,

E-mail:

Předmět:

Příspěvek:

 

Kontrola:

Do spodního pole opište z obrázku 5 znaků:

Kód pro ověření

 

 

 

 

 

Přihlášení k mému účtu

Uživatelské jméno:

Heslo: