Indexování PDF dokumentů

PŘIHLÁŠENÍ - MŮJ ÚČET

„Jediná kniha, která vás krok pro kroku provede fotografováním s digitální zrcadlovkou a přesně popíše všechny její funkce.

Základy práce v programu AutoCAD

Úvod a základní nastavení - Tato série článků je určena převážně pro začátečníky nebo mírně pokročilé uživatele. To ale neznamená, že i ti, kteří se s AutoCADem setkávají denně, by se nemohly dozvědět něco nového.

Jak vkládat snímky do galerií a soutěží? Stručný obrazový průvodce

Připravili jsme pro vás "obrazového průvodce", který – pevně věříme – bude vítanou praktickou pomocí.

Kompenzace expozice: naučme se ji používat

Minule jsme si vysvětlili, co je to automatické měření expozice a jak u digitálních fotoaparátů funguje. Dnes na toto téma úzce navážeme a ukážeme si, jak takové měření expozice můžeme přímo ovlivnit – rychle, jednoduše a bez složitých výpočtů a vzorečků. Ano! Řeč není o ničem jiném, než o expoziční kompenzaci!

Pečení holubi a božská mana v jednom! zn. zdarma a hned

Tady bych pána i paní poprosil kapkou krve o stvrzenčičku. Čekáte podraz? Nečekejte, nekoná se. Naopak se koná představení a praktická demonstrace nejlepšího zdarma pluginu CINEMY 4D, na který můžete momentálně narazit. Pluginu, který je nejenom skvělý, ale který je ještě skvělejší.

Fotosoutěže

Fotogalerie

Odběr fotomagazínu

Fotografický magazín "iZIN IDIF" každý týden ve Vašem e-mailu.
Co nového ve světě fotografie!

Zadejte Vaši e-mailovou adresu:

Kamarád fotí rád?

Přihlas ho k odběru fotomagazínu!

Zadejte e-mailovou adresu kamaráda:

Nabídka práce

17. ledna 2024

Tiskař na siítotiskových automatech - Jihlava
18. ledna 2024

Tiskař - flexotisk
19. února 2024

Brigáda, občasná práce JBC/LBC
13. března 2024

řezač na Kongsberg, Zund
22. března 2024

Brigádník - práce na stroji
26. března 2024

DTP operátor/grafik
3. dubna 2024

Pozice Grafik/grafička DTP - Studio 66, Praha 9
3. dubna 2024

Recepční / produční PRAHA 9
8. dubna 2024

Výroba reklamy
11. dubna 2024

Tiskař (velkoformát)

Poptávka práce

24. ledna 2024

3D grafika, animace, tisk
14. února 2024

Externí grafička hledá dlouhodobou spolupráci
14. února 2024

Externí grafička hledá dlouhodobou spolupráci
14. února 2024

Externí grafička hledá dlouhodobou spolupráci
21. března 2024

Hledám externí spolupráci
19. dubna 2024

DTP operátor a grafik

Seriály

Více seriálů

Navigace: » » » » »

Příslušenství

21. října 2002, 00.00 | Ve formátu PDF se distribuuje stále více dokumentů, které se uživatelům kupí v různých složkách na disku. Jak se v dokumentech vyznat a jak v nich vyhledávat? Většinou stačí málo - dokumenty zindexovat. Jak na to?

Pořádek v souborech na svém disku a záložních médiích má pravděpodobně málokdo. Jde především o pečlivost a dlouhodobou systematičnost při třídění a zakládání dokumentů, na což je vždy právě v dané chvíli po vytvoření nebo stažení dokumentu z Internetu zrovna nejméně času. Komplexní recept na archivaci dokumentů dnes nenabídneme, ale pokusíme se zato upozornit na jednu možnou cestu - archivaci a indexování PDF dokumentů. Situace je o to jednodušší, že v PDF dokumentech se dnes již distribuuje mnoho tiskovin - ceníků, letáků, obchodních nabídek atd. PDF dokumenty se běžně ukládají do adresářové struktury disku, případně zálohují na externí média (CD disk) stejně, jako jakékoliv jiné formáty. Oproti nim má však PDF soubor výhodu v podobě indexeru, který je součástí každé instalace programu Adobe Acrobat (neplést s bezplatným prohlížečem Acrobat Reader - ten umí PDF soubory jen prohlížet, případně s již vytvořenými indexy pracovat).

Co je indexování a fulltextové vyhledávání? Fulltextové vyhledávání je obdobou klasického prohledávání dokumentu na zadaná slova. Prohledává se však většinou celý komplet dokumentů, a aby to nebylo příliš zdlouhavé, vytvoří se nejprve tzv. index, obsahující ve zhuštěné podobě hlavní slova prohledaných dokumentů, jejich váhu a samozřejmě odkaz na dokument, ve kterém se nacházejí. Fulltextové prohledávání pak probíhá již pouze v rámci indexu, takže je velmi rychlé.

Indexování v Acrobatu
Z předchozího textu je jistě již zřejmé, že pro fulltextové prohledávání několika (nebo mnoho) PDF dokumentů si soubory stačí nejprve jednou indexovat a následně s pomocí indexu rychle prohledávat (toto lze provádět například i v síti, takže jde skutečně o velmi mocný nástroj).
Indexování PDF dokumentů je součástí Acrobatu již delší dobu, avšak problém byl dlouho v indexování jazyků používající jiné znakové sady, než původní západní (Latin 1 a Roman) - tedy např. češtinu nebo slovenštinu. Indexování, ani prohledávání (a to ani to běžné v rámci jednoho dokumentu) nefungovalo. To se změnilo v době Acrobatu 4.0 s příchodem nástroje TextSpy, jenž vyvinula společnost Techsoft pro Amos Software. Modul TextSpy se nejprve prodával samostatně, od páté verze Acrobatu je obsažen ve standardní dodávce Acrobatu 5.0 CZ, tedy české lokalizované verze (indexy je podle licenčních podmínek možné bezplatně používat tímto nástrojem pouze pro interní použití, pro veřejnou distribuci na CD je nutné zakoupit speciální licenci). Zkoušíte-li proto indexovat dokumenty, obsahující středoevropské nebo východoevropské znakové sady, je třeba postupovat přes TextSpy, indexace přes původní nástroj Acrobatu nazvaný Catalog na tyto jazyky nefunguje.

Jak na index
Vytvoření indexu je velmi snadné. Otevře se TextSpy Indexer (Úpravy > TextSpy > Vytvořit index) a do pole Titulek Indexu se vloží název právě vytvářeného indexu. Těch můžete mít na počítači libovolné množství, tj. s názvem indexu se pracuje stejně, jako s názvem souboru. Při vyhledávání podle určitého indexu si pak zvolíte, ve kterém indexu se bude vyhledávání provádět. Z tohoto důvodu je dobré vyplnit také čistě informativní pole Popis indexu, které by mělo obsahovat bližší informace o textech, které jsou indexem zpracovány.

Do pole indexované složky se přidávají jednotlivé složky s PDF soubory, které budete indexovat. Volba Vytvořit lexikon pro hledání s ignorováním diakritiky umožňuje vytvořit soubory s daty pro zadávání dotazů bez diakritiky.
Po určení těchto několika málo parametrů stačí zvolit tlačítko Uložit jako... a následně proběhne samotné indexování. Indexy je možné ukládat kamkoliv na disku nebo na síti. Je třeba dát pozor na to, aby se v budoucnu nezměnila cesta mezi indexem a složkami s indexovanými PDF soubory. Proto je asi ideální umisťovat index do stejného adresáře, jako PDF dokumenty - takový adresář je možné i s indexem vypálit na záložní CD a prohledávat tak i kdykoliv v budoucnu.

Vyhledávání pomocí indexu
Ve vytvořených index se vyhledává pomocí nástroje Úpravy > TextSpy > Vyhledat (nebo CTR+E), případně přes ikonu dalekohledu se znaky TS (pozor nezaměňovat za funkci Hledat, prohledávající jen jeden otevřený dokument). Před prvním fulltextovým prohledáváním je třeba určit index, který se bude prohledávat (tj. lokaci, kde budeme hledat - indexů je možné najednou prohledávat i několik). To se provede v dialogovém okně Úpravy > TextSpy > Vybrat indexy.

Zde jsou vidět všechny indexy, které byly dosud používány - nový index stačí přidat tlačítkem Přidat. Prohledávání bude probíhat v rámci všech indexů, které jsou zaškrtnuty. Šedivě vypsané indexy nejsou v dané době k dispozici (jsou umístěny např. na CD disku). Při vyhledávání pomocí dialogového okna Dotaz není výhodou pouze to, že se rychle prohledává mnoho dokumentů najednou, ale dotazy lze zadávat i s logickými spojkami, kdy je zápis obdobný jako např. v prohledávači Google.

Syntaxi je možné nalézt pomocí funkce Nápověda >Co jsou zásuvné moduly > TextSpy Query... Odtud citujeme jednotlivé volby:
Do zadávacího okna se píší vyhledávaná slova (může jich být víc) a řídící znaky pro následující případy:

Vynucování nebo vylučování slov - výskyt slova ve výsledku dotazu lze vynutit umístěním znaku (+) přímo před slovo v okně dotazu. Aby výsledek nějaké slovo naopak neobsahoval, před dané slovo se umístí znaménko (-).
Použití zástupných znaků - zadáním hvězdičky (*) nebo otazníku (?) v zadávaném slově lze vyhledat více tvarů slova. Hvězdička zastupuje libovolný počet libovolných znaků, otazník jeden libovolný znak.
Rozlišování velkých a malých písmen - volí se zaškrtnutím příslušného okénka.
Ignorovaní diakritiky - volí se zaškrtnutím příslušného okénka. Tato volba se uplatní pouze v případě, že index byl vytvořen tak, aby obsahoval data pro vyhledávání bez diakritiky.
Vyhledávání přesných frází s více slovy - požadavek na vyhledání přesné fráze lze zadat jejím umístěním do uvozovek. Fráze se vyhledává jako posloupnost slov, bez ohledu na znaky, které jednotlivá slova oddělují.

Lokální PDF archiv se tak rázem stává sofistikovanou databází informací, kde lze i v obrovském množství informací a souborů rychle nalézt hledaný text. Její vytvoření je přitom velmi snadné.

Výsledek se nejprve zobrazí do okna Výsledek, kde jsou zobrazeny všechny nalezené výskyty seřazené podle váhy, vyjadřující v jakém množství je hledaný výraz v nalezeném dokumentu obsažen (bližší informace o konkrétní relevanci vyhledaného dokumentu se lze dozvědět po stisknutí tlačítka Info). Tlačítkem Zobrazit se otevře příslušná stránka se zvýrazněnými hledanými výrazy.

Závěr
Fulltextové prohledávání PDF dokumentů je nesmírně užitečné a výkonné. Máte-li na disku mnoho nejrůznějších PDF dokumentů rozhodně doporučujeme fulltext vyzkoušet, s velkou pravděpodobností v něm naleznete nenahraditelného pomocníka. Na závěr jen znovu připomínáme - české dokumenty lze fulltextovat výhradně pouze přes modul TextSpy, který se dodává s Adobe Acrobatem od lokalizované verze 5, případně jej lze k verzi 4 zakoupit samostatně. Nástrojem Catalog obsaženým v originálním i lokalizovaném Adobe Acrobatu lze indexovat a následně prohledávat pouze dokumenty napsané v původních západních znakových sadách (Roman a Latin 1). Určitý problém mohou při českém indexování způsobit i špatně lokalizovaná písma (např. ta co nejdou korektně používat v InDesignu), ale to je zase trochu jiný problém. Většinou však vše funguje tak, jak člověk očekává.

Tématické zařazení:

» Rubriky » Go verze

» Rubriky » PDF - Adobe Acrobat

Nejčtenější články

14. května 2014

Jak vkládat snímky do galerií a soutěží? Stručný obrazový průvodce
23. dubna 2014

Konica Minolta přenesla výhody velkých zařízení do kompaktních modelů
12. června 2012

Adobe Photoshop III: Tipy a triky pro pokročilé
9. dubna 2014

Kompenzace expozice: naučme se ji používat
29. listopadu 2013

Soutěž PF 2014 tisíckrát a pokaždé jinak

Nejlépe hodnocené články

6. září 2004

OKI snižuje ceny barevných laserových tiskáren C3100 a C5200n
13. května 2004

Sony představilo dva nové notebooky pro kreativce
19. ledna 2004

QuarkXPress Passport 6: předvedení nové verze na konferenci Apple Forum 27.1.2004
6. února 2001

HighWater v Polygře Brno
30. listopadu 2014

Nový fotoaparát α7 II: první plnoformát s pětiosou optickou stabilizací obrazu na světě

Nabídka bazar

20. ledna 2024

Polygrafická řezačka
20. ledna 2024

Zlatička FOMM
1. března 2024

WACOM Intuuos Pro L
5. března 2024

Tiskový a řezací plotr MIMAKI CJV 150-107
5. března 2024

Řezačka Ideal 4705
5. března 2024

Ruční očkovací lis EP-100 šíře ok 9,5mm
5. března 2024

Plotter HP designjet t520 36 in
22. března 2024

Mycí linka sít INPRO
23. března 2024

Vybavení grafického studia - pro paspartování a rámování
5. dubna 2024

Konica Minolta 2060L produkční tiskárna

Poptávka bazar

27. února 2024

Koupím Box verzi Corel X7

grafika.cz	Vše o počítačové grafice
fotografovani.cz	Digitální fotografie v praxi
idif.cz	Institut digitální fotografie
printing.cz	Tisk a pre-press
mujipod.cz	Apple iPOD rady, tipy a triky
mujmac.cz	Apple MAC
builder.cz	Server o programování
3dscena.cz	3D grafika jako na dlani

Technické (ovládání fotoaparátu)
		35%

Umělecké (portrét, akt, příroda...)
		22%

Grafické (úprava fotografií grafickým programem)
		43%

Jméno:
E-mail:
Telefon:
Zpráva:
Kontrola:	Do spodního pole opište z obrázku 5 znaků:
	Odeslat

Uživatelské jméno:
Heslo:
	Získat zapomenuté heslo

Indexování PDF dokumentů - Grafika.cz - vše o počítačové grafice

Příslušenství

Indexování PDF dokumentů

Přihlášení k mému účtu