Indexování PDF dokumentů - Grafika.cz - vše o počítačové grafice

Odběr fotomagazínu

Fotografický magazín "iZIN IDIF" každý týden ve Vašem e-mailu.
Co nového ve světě fotografie!

 

Zadejte Vaši e-mailovou adresu:

Kamarád fotí rád?

Přihlas ho k odběru fotomagazínu!

 

Zadejte e-mailovou adresu kamaráda:



Příslušenství

Indexování PDF dokumentů

21. října 2002, 00.00 | Ve formátu PDF se distribuuje stále více dokumentů, které se uživatelům kupí v různých složkách na disku. Jak se v dokumentech vyznat a jak v nich vyhledávat? Většinou stačí málo - dokumenty zindexovat. Jak na to?

Pořádek v souborech na svém disku a záložních médiích má pravděpodobně málokdo. Jde především o pečlivost a dlouhodobou systematičnost při třídění a zakládání dokumentů, na což je vždy právě v dané chvíli po vytvoření nebo stažení dokumentu z Internetu zrovna nejméně času. Komplexní recept na archivaci dokumentů dnes nenabídneme, ale pokusíme se zato upozornit na jednu možnou cestu - archivaci a indexování PDF dokumentů. Situace je o to jednodušší, že v PDF dokumentech se dnes již distribuuje mnoho tiskovin - ceníků, letáků, obchodních nabídek atd. PDF dokumenty se běžně ukládají do adresářové struktury disku, případně zálohují na externí média (CD disk) stejně, jako jakékoliv jiné formáty. Oproti nim má však PDF soubor výhodu v podobě indexeru, který je součástí každé instalace programu Adobe Acrobat (neplést s bezplatným prohlížečem Acrobat Reader - ten umí PDF soubory jen prohlížet, případně s již vytvořenými indexy pracovat).

Co je indexování a fulltextové vyhledávání? Fulltextové vyhledávání je obdobou klasického prohledávání dokumentu na zadaná slova. Prohledává se však většinou celý komplet dokumentů, a aby to nebylo příliš zdlouhavé, vytvoří se nejprve tzv. index, obsahující ve zhuštěné podobě hlavní slova prohledaných dokumentů, jejich váhu a samozřejmě odkaz na dokument, ve kterém se nacházejí. Fulltextové prohledávání pak probíhá již pouze v rámci indexu, takže je velmi rychlé.

Indexování v Acrobatu
Z předchozího textu je jistě již zřejmé, že pro fulltextové prohledávání několika (nebo mnoho) PDF dokumentů si soubory stačí nejprve jednou indexovat a následně s pomocí indexu rychle prohledávat (toto lze provádět například i v síti, takže jde skutečně o velmi mocný nástroj).
Indexování PDF dokumentů je součástí Acrobatu již delší dobu, avšak problém byl dlouho v indexování jazyků používající jiné znakové sady, než původní západní (Latin 1 a Roman) - tedy např. češtinu nebo slovenštinu. Indexování, ani prohledávání (a to ani to běžné v rámci jednoho dokumentu) nefungovalo. To se změnilo v době Acrobatu 4.0 s příchodem nástroje TextSpy, jenž vyvinula společnost Techsoft pro Amos Software. Modul TextSpy se nejprve prodával samostatně, od páté verze Acrobatu je obsažen ve standardní dodávce Acrobatu 5.0 CZ, tedy české lokalizované verze (indexy je podle licenčních podmínek možné bezplatně používat tímto nástrojem pouze pro interní použití, pro veřejnou distribuci na CD je nutné zakoupit speciální licenci). Zkoušíte-li proto indexovat dokumenty, obsahující středoevropské nebo východoevropské znakové sady, je třeba postupovat přes TextSpy, indexace přes původní nástroj Acrobatu nazvaný Catalog na tyto jazyky nefunguje.

Jak na index
Vytvoření indexu je velmi snadné. Otevře se TextSpy Indexer (Úpravy > TextSpy > Vytvořit index) a do pole Titulek Indexu se vloží název právě vytvářeného indexu. Těch můžete mít na počítači libovolné množství, tj. s názvem indexu se pracuje stejně, jako s názvem souboru. Při vyhledávání podle určitého indexu si pak zvolíte, ve kterém indexu se bude vyhledávání provádět. Z tohoto důvodu je dobré vyplnit také čistě informativní pole Popis indexu, které by mělo obsahovat bližší informace o textech, které jsou indexem zpracovány.

Do pole indexované složky se přidávají jednotlivé složky s PDF soubory, které budete indexovat. Volba Vytvořit lexikon pro hledání s ignorováním diakritiky umožňuje vytvořit soubory s daty pro zadávání dotazů bez diakritiky.
Po určení těchto několika málo parametrů stačí zvolit tlačítko Uložit jako... a následně proběhne samotné indexování. Indexy je možné ukládat kamkoliv na disku nebo na síti. Je třeba dát pozor na to, aby se v budoucnu nezměnila cesta mezi indexem a složkami s indexovanými PDF soubory. Proto je asi ideální umisťovat index do stejného adresáře, jako PDF dokumenty - takový adresář je možné i s indexem vypálit na záložní CD a prohledávat tak i kdykoliv v budoucnu.

Vyhledávání pomocí indexu
Ve vytvořených index se vyhledává pomocí nástroje Úpravy > TextSpy > Vyhledat (nebo CTR+E), případně přes ikonu dalekohledu se znaky TS (pozor nezaměňovat za funkci Hledat, prohledávající jen jeden otevřený dokument). Před prvním fulltextovým prohledáváním je třeba určit index, který se bude prohledávat (tj. lokaci, kde budeme hledat - indexů je možné najednou prohledávat i několik). To se provede v dialogovém okně Úpravy > TextSpy > Vybrat indexy.

Zde jsou vidět všechny indexy, které byly dosud používány - nový index stačí přidat tlačítkem Přidat. Prohledávání bude probíhat v rámci všech indexů, které jsou zaškrtnuty. Šedivě vypsané indexy nejsou v dané době k dispozici (jsou umístěny např. na CD disku). Při vyhledávání pomocí dialogového okna Dotaz není výhodou pouze to, že se rychle prohledává mnoho dokumentů najednou, ale dotazy lze zadávat i s logickými spojkami, kdy je zápis obdobný jako např. v prohledávači Google.

Syntaxi je možné nalézt pomocí funkce Nápověda >Co jsou zásuvné moduly > TextSpy Query... Odtud citujeme jednotlivé volby:
Do zadávacího okna se píší vyhledávaná slova (může jich být víc) a řídící znaky pro následující případy:

  1. Vynucování nebo vylučování slov - výskyt slova ve výsledku dotazu lze vynutit umístěním znaku (+) přímo před slovo v okně dotazu. Aby výsledek nějaké slovo naopak neobsahoval, před dané slovo se umístí znaménko (-).
  2. Použití zástupných znaků - zadáním hvězdičky (*) nebo otazníku (?) v zadávaném slově lze vyhledat více tvarů slova. Hvězdička zastupuje libovolný počet libovolných znaků, otazník jeden libovolný znak.
  3. Rozlišování velkých a malých písmen - volí se zaškrtnutím příslušného okénka.
  4. Ignorovaní diakritiky - volí se zaškrtnutím příslušného okénka. Tato volba se uplatní pouze v případě, že index byl vytvořen tak, aby obsahoval data pro vyhledávání bez diakritiky.
  5. Vyhledávání přesných frází s více slovy - požadavek na vyhledání přesné fráze lze zadat jejím umístěním do uvozovek. Fráze se vyhledává jako posloupnost slov, bez ohledu na znaky, které jednotlivá slova oddělují.

Lokální PDF archiv se tak rázem stává sofistikovanou databází informací, kde lze i v obrovském množství informací a souborů rychle nalézt hledaný text. Její vytvoření je přitom velmi snadné.

Výsledek se nejprve zobrazí do okna Výsledek, kde jsou zobrazeny všechny nalezené výskyty seřazené podle váhy, vyjadřující v jakém množství je hledaný výraz v nalezeném dokumentu obsažen (bližší informace o konkrétní relevanci vyhledaného dokumentu se lze dozvědět po stisknutí tlačítka Info). Tlačítkem Zobrazit se otevře příslušná stránka se zvýrazněnými hledanými výrazy.

Závěr
Fulltextové prohledávání PDF dokumentů je nesmírně užitečné a výkonné. Máte-li na disku mnoho nejrůznějších PDF dokumentů rozhodně doporučujeme fulltext vyzkoušet, s velkou pravděpodobností v něm naleznete nenahraditelného pomocníka. Na závěr jen znovu připomínáme - české dokumenty lze fulltextovat výhradně pouze přes modul TextSpy, který se dodává s Adobe Acrobatem od lokalizované verze 5, případně jej lze k verzi 4 zakoupit samostatně. Nástrojem Catalog obsaženým v originálním i lokalizovaném Adobe Acrobatu lze indexovat a následně prohledávat pouze dokumenty napsané v původních západních znakových sadách (Roman a Latin 1). Určitý problém mohou při českém indexování způsobit i špatně lokalizovaná písma (např. ta co nejdou korektně používat v InDesignu), ale to je zase trochu jiný problém. Většinou však vše funguje tak, jak člověk očekává.

Tématické zařazení:

 » Rubriky  » Go verze  

 » Rubriky  » PDF - Adobe Acrobat  

 

 

 

 

Přihlášení k mému účtu

Uživatelské jméno:

Heslo: