Tagované PDF v teorii a praxi: Teorie - Grafika.cz - vše o počítačové grafice

Odběr fotomagazínu

Fotografický magazín "iZIN IDIF" každý týden ve Vašem e-mailu.
Co nového ve světě fotografie!

 

Zadejte Vaši e-mailovou adresu:

Kamarád fotí rád?

Přihlas ho k odběru fotomagazínu!

 

Zadejte e-mailovou adresu kamaráda:



skenerista, osvitář

Tagované PDF v teorii a praxi: Teorie

3. února 2003, 00.00 | Co nabízí koncept tagovaného PDF? V tomto článku se pokusíme o
obecné nastínění výhod a principů této technologie.

Několik posledních let se v publikačním průmyslu ozývají stále více hlasy, volající po důslednějším strukturování zde zpracovávaných informací, respektive oddělení obsahu od jeho vizuální prezentace. Uvedeným způsobem by mělo být dosaženo především výrazného usnadnění publikování téhož obsahu na různých médiích (cross-media publishing) a automatizovanějších a pružnějších publikačních toků. Uvedená motivace se odrazila především ve vývoji standardu XML a jeho nejrozmanitějších aplikací, vedle toho se někteří výrobci pokusili uvedeným způsobem modifikovat i své stávající formáty. Konkrétně zde máme na mysli zejména společnost Adobe, která se snaží zmíněnou strukturaci zavést do svého Portable Document Formatu (PDF). V našem článku se pokusíme podívat na dosavadní výsledky snažení Adobe v uvedené oblasti, a to zejména s ohledem na praktickou využitelnost zmíněné technologie.

Nestrukturované PDF a jeho problémy

Základní, tedy nestrukturovaná podoba PDF dokumentu, vycházející z formátu PostScript, nabízí velmi kvalitní možnosti zobrazovaní textu a grafiky, ale trpí některými problémy, které se s postupným vývojem publikačních technologií začínají projevovat čím dál tím palčivěji. Konkrétně můžeme zmínit například tyto:

Rozdíl mezi vizuální a interní reprezentací textu
Textové informace obsažené v PDF dokumentu mohou být na interní úrovni reprezentovány velmi rozmanitým způsobem. To znamená, že i když je tentýž textový obsah vizuálně zcela v pořádku, může po jeho přenesení do jiné aplikace (schránka, export) dojít k špatnému interpretování některých znaků (znaky národních abeced, dělítka atp.). Uvedený problém se dále odráží při zpracování PDF dokumentů pomocí internetových indexovačů.

Nemožnost dynamického přeformátování (reflow) textu
Nestrukturovaný PDF dokument nedisponuje žádnými mechanismy, vedoucími k jeho přeformátování při změně rozměrů stránky, ať už zde hovoříme o pouhém prohlížení na obrazovce či tisku. Uvedené omezení se projevuje různými způsoby: Při prohlížení dokumentů, určených pro tiskovou produkci (zejména vícesloupcových) v prohlížeči má uživatel značně ztíženou navigaci (nutnost rolování, změn velikosti zobrazení ad.). Obdobný problém pak ještě výrazněji pociťují uživatelé personálních digitálních asistentů (PDA). Naopak dokumenty, původně optimalizované pro obrazovku, znamenají při tisku značné plýtvání papírem.

Absence informací o logické struktuře
Zejména při skupinovém korigování podkladů v PDF formátech může působit problém absence informací o postavení daného elementu ve struktuře dokumentu. Korektor dokumentu se může mnohdy jen dohadovat na základě vizuálních charakteristik daného textu, o jakou úroveň nadpisu se jedná, zda daný text patří k záhlaví či zápatí dokumentu nebo do hlavního textu atp.

Problematické zpracování zařízeními pro zrakově postižené
Na stále větší naléhavosti získává v posledních letech potřeba zpřístupnit obsah PDF dokumentů i zrakově postiženým osobám (zejména v souvislosti s aktivitou legislativy USA, označenou jako Section 508 i dalšími obdobnými projekty, které si za své bere stále více softwarových firem i jiných subjektů, a to jak v zahraničí, tak v ČR). Nestrukturované PDF přitom představuje ve stávajících čtecích zařízeních řadu komplikací. Zmínit můžeme například již výše zmíněnou odlišnou interní interpretaci textu, absenci informací o logické struktuře či prakticky nulovou možnost informací o obrázcích a dalších grafických prvcích umístěných na stránce (v podobě alternativních popisek, přibližujících obsah daného grafického prvku).

Perfektní ukázkou tagovaného PDF je nápověda Adobe Acrobatu 5.

Tagované (strukturované) PDF a jeho výhody

Vzhledem k výše naznačeným problémům nabídla Adobe již v předchozí verzi PDF (1.3) a Adobe Acrobatu (4) koncept tzv. strukturovaného PDF. (Pomineme-li poměrně kuriózní skutečnost, že jeden ze zakladatelů Adobe, John Warnock, se již na začátku devadesátých let pokusil naznačeným způsobem zkombinovat PostScript a SGML.) Ten byl pak dále rozpracován a doplněn v PDF 1.4 (resp. Acrobatu 5), kde dostal označení tagované (tagged) PDF. Vzhledem k tomu, že strukturované PDF je v podstatě podformátem PDF tagovaného, zahrneme výklad o něm do našeho popisu tagovaného PDF.

Základní rysy tagovaného PDF dokumentu jsou následující:

Kódování v Unicode
Veškerý textový obsah tagovaného PDF dokumentu je jednoznačně popsán pomocí standardu Unicode. To znamená, že u každého znaku je zřejmý nejen jeho vzhled, ale i význam (například je zřejmý rozdíl mezi měkkým a tvrdým dělítkem, znakem mínus a pomlčkou).

Strom logické struktury
Jednotlivé prvky PDF dokumentu (rastrová a vektorová grafika, text a komentáře) jsou vyznačeny (označkovány) jako elementy, sdružené do stromové struktury. K dispozici jsou elementy předdefinované (pro nadpisy, seznamy, tabulky, obrázky apod.), dále pak lze definovat elementy vlastní. K usnadnění výměny vlastních elementů mezi různými dokumenty slouží tzv. mapa využití (RoleMap), zajišťující převod uvedeného typu elementů na předdefinované. Každý element může mít přiřazen jeden nebo více atributů, elementy se stejnými atributy lze sdružovat do tzv. tříd. Logicky sdruženým prvkům je možno přiřadit tzv. tagované záložky, jejichž pomocí pak lze manipulovat s daným obsahem (členěným podle logické struktury a nikoli fyzického pořadí) obdobně, jako je tomu v případě záložek normálních.

Artefakty
V rámci tagovaného PDF je provedeno rozlišení mezi důležitým (autorským) obsahem dokumentu a tzv. artefakty, což jsou prvky, mající pomocnou roli při zpracování daného dokumentu. Konkrétně se jedná například o ořezové značky, obsah záhlaví či zápatí nebo dělící prvky (čáry mezi sloupci či nad poznámkami apod.). Při různých úkonech prováděných s tagovaným PDF dokumentem (export, zpracování čtecím zařízením apod.) lze tedy tyto prvky částečně či zcela ignorovat.

Pořadí čtení textu
U tagovaného PDF dokumentu musí být jasně stanoveno pořadí čtení textu. To má svůj význam zejména v případě složitějších dokumentů s rámečky či sloupci. Využívá se zejména při zpracování textu čtecími zařízeními či při exportu obsahu dokumentu.

Alternativní text
Jednotlivým prvkům struktury je možno přiřadit tzv. alternativní text. Ten má svůj význam například při zpracování grafických prvků či interpretování zkratek ve čtecích programech.

Naznačené vlastnosti tagovaného PDF přinášejí mimo jiné následující výhody:

Dynamické přeformátování textu
Odpovídající aplikace dokáží při zobrazení obsah tagovaného PDF dokumentu přizpůsobit rozměrům obrazovky. Konkrétně je tato funkce podporována Adobe Acrobatem i Readerem verze 5, a to i na mobilních platformách. Podrobněji se k využití této funkce vrátíme v další části tohoto článku.

Preciznější konverze
Při převodu tagovaného PDF do formátů typu RTF lze zohlednit tagované prvky, jako jsou nadpisy, tabulky či výčty. Bezplatně dostupný plug-in Acrobatu Save as XML (na který se blíže podíváme někdy příště) pak umožňuje sofistikovaný převod do HTML nebo XML souborů.

Dostupnost zrakově postiženým
Zavedení tagovaného PDF odstraňuje nebo přinejmenším alespoň částečně řeší problémy, spojené se zpřístupněním obsahu PDF dokumentů zrakově postiženým.

Závěrem

Jak jsme se pokusili ukázat, důvodů k zavedení strukturace do PDF je skutečně celá řada, a nasazení strukturovaného či tagovaného PDF je tudíž mnohdy víc jak žádoucí. V příští části tohoto článku se proto podíváme na to, jakými konkrétními prostředky lze v současnosti tagované PDF vytvářet a zpracovávat.

Tématické zařazení:

 » Rubriky  » Go verze  

 » Rubriky  » Webdesign  

 » Rubriky  » Polygrafie  

 » Rubriky  » PDF - Adobe Acrobat  

 » Rubriky  » Software  

 

 

 

 

Přihlášení k mému účtu

Uživatelské jméno:

Heslo: