1. Úvod
Použitá knihovna pro indexování informací a jejich následné vyhledávání nabízí značné možnosti v tom,
jak daný dotaz formulovat. Veškeré možnosti, které knihovna nabízí jsou prezentovány
zde .
Tato nápověda obsahuje základní syntaxe pro vytváření dotazů pro full-textové vyhledávání dokumentů s ohledem na
implementaci knihovny v aplikaci MIS.
2. Základní pojmy
Dotaz je rozdělen na výrazy (term) a oblasti (field). Existují dva typy výrazů:
- jednoduchý výraz, např. zámek
- fráze, např. hrad Křivoklát
Jednotlivé výrazy a oblasti lze v dotazech kombinovat a vhodně doplnit dalšími operátory.
2.1 Výraz
Nejjednodušší způsob zápisu hledaného řetězce. Je hledáno přesně to, co je napsáno ve vyhledávacím políčku. Buď to může být samostatný výraz "zámek" nebo fráze "zámek Nebílovy".
Příklady:
- zámek Nebílovy
- "zámek Nebílovy"
- zámek
Pozn. je velký rozdíl mezi první a druhou položkou. Dotaz představovaný první položkou hledá vše, kde je výraz zámek a Nebílovy. Kdežto dotaz představovaný druhou položkou se ptá na frázi zámek Nebílovy.
2.2 Oblasti
Někdy máme bližší informaci o tom, kde se hledaný výraz může nacházet. V tomto případě můžeme omezit hledání na danou oblast. MIS nabízí k výběru následující oblasti:
- soubor (jméno souboru)
- format (formát souboru)
- puvSoubor (původní jméno souboru)
- autorZaznamu (autor záznamu)
- umisteni (název pracoviště NPÚ, kde je dokument uložen)
- popis (popis dokumentu)
- obsah (textový obsah dokumentu)
- klicSlovo (základní klíčové slovo)
- uzKlicSlovo (uživatelské klíčové slovo)
- typ (typ/druh dokumentu)
- udalost (událost, během které vzniknul dokument)
- digi (jméno a příjmení uživatele, který dokument digitalizoval)
- poznamka (poznámka k dokumentu)
- metainfo (metainformace z provázaných extérních aplikací - identifikátor záznamu a hodnoty předaných meta-atributů)
- pagis (územní identifikace, identifikátor definičního bodu)
- prirb (územní identifikace, identifikátor přírůstkového bodu)
- lokalita (územní identifikace, identifikátor lokality kód CZ)
- histRegion (územní identifikace, identifikátor historického regionu kód RS)
- castObce (územní identifikace, část obce)
- katUzemi (územní identifikace, katastrální území)
- kraj (územní identifikace, kraj)
- okres (územní identifikace, okres)
- orp (územní identifikace, obec s rozšířenou působností)
- obec (územní identifikace, obec)
- ulice (územní identifikace, ulice)
- realTyp (územní identifikace, reálný typ lokality)
- nazevLokality (územní identifikace, název lokality)
- nazevObjektu (územní identifikace, název objektu)
- nazevHistRegionu (územní identifikace, název historického regionu)
- jinaIdent (jiná územní identifikace)
- uzRozsah (územní rozsah)
- autorOriginalu (autor originálu dokumentu)
- fond (sbírka, ve které je analogový dokument uložen)
- uloziste (úložiště analogového dokumentu)
- archivPopis (jméno archivačního média)
- rokVzniku (rok vzniku dokumentu)
- licence (údaje o licenci vázané k dokumentu vč. držitele)
- jine (tato oblast obsahuje všechny ostatní atributy dokumentu, které nejsou uvedeny v předcházejících oblastech)
Pozn: názvy oblastí jsou uvedeny bez diakritiky.
Syntaxe zápisu je následující:
oblast: hledaný výraz
Příklady:
- format:msword - vyhledá všechny dokumenty ve formátu MS WORD
- obsah:Křivoklát - vyhledá všechny dokumenty s výrazem Křivoklát, které se objevuje pouze v textovém obsahu dokumentu
- vlastnik:jůza - vyhledá dokumenty, které přidal uživatel Jůza.
3. Modifikátory výrazu
3.1 Hvězdička, otazník
Syntaxe nám umožňuje nahradit jeden znak (?) nebo část (*) hledaného výrazu speciálním znakem v případě, že si nejsme jisti určitou částí (v češtině problém různých tvarů, předpon, koncovek) nebo chceme jedním dotazem postihnout více možností.
Jediné omezení je to, že není možné zastupující znaky (?, *) použít na začátku hledaného výrazu.
Příklady:
- te?t - hledá slova text, test apod.
- záme* - hledá slovo záme včetně různých tvarů - zámek, zámeček, zámečku
3.2 Posílení výrazu
Vyhledávací knihovna nám umožňuje říci, že nějaký výraz má vyšší význam resp. je důležitější než jiný výraz. Pro posílení výrazu se používá znak ^ uvedený za daným výrazem následovaný číslem. Čím větší toto číslo je (standardně je u všech nastavena hodnota 1), tím větší význam daný výraz bude mít při vyhledávání.
Příklady:
- zámek Nebílovy^4 - hledá dokumenty s výrazy zámek a Nebílovy s důrazem na výraz Nebílovy.
3.3 Logické operátory
Pro vyjádření vztahů typu "tento výraz a zároveň tento výraz" nebo "tento výraz, ale již ne tento výraz" nám syntaxe umožňuje používat logické operátory - AND, +, OR, -, NOT. Implicitní operátor pro více výrazů je AND.
Následující dva dotazy pro hledání dokumentů jsou ekvivalentní:
- Nebílovy Karlštejn
- Nebílovy AND Karlštejn
Důležité upozornění: všechny logické operátory musí být napsány velkými písmeny, protože jinak budou interpretovány jako výraz pro hledání.
3.3.1 OR
Vyhledání dokumentů, které obsahují buď jeden výraz nebo druhý výraz. Analogie ke sjednocení množin.
Příklad:
3.3.2 AND
Vyhledání dokumentů, které obsahují oba výrazy. Analogie k průniku množin.
Příklad:
- Nebílovy AND Karlštejn - vyhledá všechny dokumenty, které obsahují Nebílovy a zároveň Karlštejn.
3.3.3 +
Pomocí operátoru + lze vyjádřit, že nějaký výraz musí být součástí hledaného dokumentu.
Příklad:
- +Nebílovy OR Karlštejn - hledá dokumenty, které musí obsahovat výraz Nebílovy a mohou obsahovat výraz Karlštejn.
3.3.4 NOT
Operátor NOT vylučuje z vyhledávání dokumenty s určitým výrazem. Analogie k rozdílu množin. Operátor NOT nelze použít pouze s jedním výrazem, např. NOT video.
Příklad:
- Nebílovy NOT Karlštejn - hledá dokumenty s výrazem Nebílovy, ale již tam nesmí být výraz Karlštejn.
3.3.5 -
Pomocí operátoru - lze vyjádřit, že nějaký výraz nesmí být součástí hledaného dokumentu. Operátor - nabízí stejnou funkčnost jako operátor NOT.
Příklad:
- projektor -video - hledá dokumenty, které neobsahují výraz video, ale obsahují výraz projektor.
3.9 Seskupování
Pomocí seskupování lze vytvářet složité a komplikované dotazy pro vyhledávání dokumentů. Kromě jiného seskupování zpřehledňuje složité dotazy.
Příklady:
- (zámek OR hrad) AND Křivoklát - hledá dokumenty s výrazem zámek a Křivoklát nebo hrad a Křivoklát. Slovně vyjádřeno hledáme Křivoklát, ale nejsme si jisti, zda je to hrad nebo zámek
- metainfo:(Nebílovy OR Karlštejn) - hledá dokumenty s výrazy Nebílovy nebo Karlštejn v oblasti metainformací dokumentu.