Nové principy využívané v internetovských vyhledávacích strojích

0 comments

Autoři:

Houdek, Aleš

Vydání:

1999, ročník 3, číslo 3

Rubrika:

Informační technologie a elektronická komunikace

Nejprve si popíšeme, jak fungují vyhledávací stroje (i v naší literatuře se používá anglický termín search engines), a poté si uvedeme úskalí jednotlivých částí celého procesu. Vyhledávací stroje slouží k získávání, indexování a hodnocení, prohledávání a nakonec prezentování výsledků hledání. Tuto činnost provádějí v rámci nějaké množiny dokumentů. Typickým prostředím jejich činnosti je Internet, kde je navíc použit princip hypertextu. Obecně lze za vyhledávací stroj považovat takový systém, který automaticky indexuje, hodnotí a dovolí prohledávat větší množství dokumentů - může tedy být i součástí tzv. Document Management Systems (DMS).

Současné internetovské vyhledávací stroje používají moderní metody indexování a hodnocení stránek, ale v podstatě pokud pracují v rámci hypertextových systémů (např. Internetu), tak žádným způsobem nevyužívají možnosti, které jim základní princip hypertextu nabízí - především odkazů na jiné dokumenty. První vlaštovkou naznačující změny v přístupu k procesu hodnocení dokumentů je vyhledávací stroj Google, o kterém bude pojednáno dále.

1. Úkoly plněné vyhledávacími stroji

Naznačil jsem úkoly a nyní si je popíšeme včetně jejich úskalí.
1.1 Proces získávání dokumentů spočívá v tom, že vyhledávací stroj musí určit dokumenty, které má indexovat a dále s nimi pracovat. V systémech DMS je tento úkol poměrně jednoduchý, protože v rámci nich se ukládají dokumenty na předem dané místo v rámci počítačového systému. Těchto počítačů, nazvěme je datové sklady, je malý, přesně definovaný počet souborů a obvykle se nacházejí v rámci počítačové sítě jedné firmy, i když mohou být geograficky velmi vzdálené.

V rámci Internetu je tento proces mnohem složitější. Vyhledávací stroj vyjde z nějakého dokumentu v Internetu (ten mu autoři zadají) a postupně sleduje odkazy na další dokumenty a stejným způsobem pokračuje až získá předem danou množinu dokumentů. Tato množina může teoreticky obsahovat všechny dokumenty publikované na Internetu (o důvodech, proč to není možné, se zmíním dále), většinou je ovšem menší a je definovaná autory. Autoři vyhledávacích strojů (dále jen VS) mohou omezit množinu dokumentů početně (např. na 100 miliónů), tematicky, geograficky či jinak.

Co znesnadňuje získávání dokumentů a znemožňuje získání všech dokumentů z Internetu? Především je to fakt, že si administrátoři nepřejí, aby dokumenty z jejich serveru byly získávány. Dalším problémem je dynamičnost Internetu. Dokumenty se mění z celosvětového pohledu neustále a to i několikrát denně. Z tohoto důvodu nelze mít vždy aktuální verzi dokumentu ani všechny dokumenty kompletně. Navíc se mění nejenom obsah dokumentů, ale i jejich jména. Mezi dalšími problémy lze jmenovat obrovské množství míst, kde se dokumenty nacházejí a z toho logicky plyne dočasná nedostupnost některých dokumentů v době, kdy je VS má získat, kombinovaná se změnami jmen dokumentů a se vznikem dokumentů nových. Mezi posledními problémy lze jmenovat technicko-ekonomické a někdy i technologické aspekty získávání dokumentů. Tento proces je z ekonomického hlediska poměrně náročný.

1.2 Indexování a hodnocení (ranking) jednotlivých dokumentů je dalším krokem, který musí VS dělat. Tento proces je v podstatě shodný jak pro systémy DMS tak pro internetovské VS. U internetovských VS lze pak navíc využít vlastností hypertextu. Při tomto procesu dochází k rozkládání dokumentů na jednotlivá slova a popř. fráze. Jsou eliminovány množná čísla a podobné lingvistické jevy, které tak snižují počet slov v indexu. Ty jsou pak ukládány v tzv. invertovaném seznamu (datová struktura velmi vhodná k rychlému prohledávání), který obsahuje všechny slova, která se vyskytla v získaných dokumentů. Ke každému slovu existuje seznam dokumentů, ve kterých se toto slovo vyskytuje.

Velkým problémem indexování je zajištění plynulosti tohoto procesu, který v podstatě nikdy nekončí, neboť nové dokumenty neustále vznikají a existující neustále zanikají.

Druhou a pro celkový výsledek velmi důležitou součástí práce VS je hodnocení relevance jednotlivých slov (dokumentů). Slovo má větší váhu, pokud se vyskytuje např. v titulu dokumentu nebo je v textu zvýrazněno, pokud se v textu často opakuje apod. Největším úskalím tohoto procesu je právě způsob použitého hodnocení. Některé VS používají jako hlavní kritérium např. počet výskytu slova v dokumentu. Je zjevné, že to může vést k naprosto nerelevantním výsledkům. Stačí do dokumentu zapsat mnohokrát za sebou jedno slovo a VS rázem umístí tento dokument na přední příčky.

V již zmiňovaném VS Google použili autoři nový princip, který je podobný citačním indexům. Tento princip ještě rozšířili (viz dále).

1.3 Proces prohledávání se skládá z kroků přijmutí dotazu, jeho syntaktické analýzy, rozkladu na jednotlivá slova a vyhledání odpovídajících dokumentů. Zatím nebereme v úvahu relevanci. Jediný větší problémm, na který se v této souvislosti naráží, je zajistit dostatečnou rychlost celého procesu, tedy krátkou dobu odezvy. To je vyřešeno používáním většího množství počítačů a rozdělením práce mezi ně.

1.4 Nejviditelnější částí práce VS je prezentace výsledků hledání. Na výstupu je obvykle prezentován titul vyhledaného dokumentu, několik prvních řádek a eventuelně další informace o dokumentu - velikost, čas vzniku (získání VS), typ dokumentu atd.
V prezentaci výsledků existují dva principy. Jeden říká, že systém má uživateli předložit všechny nalezené dokumenty odpovídající danému dotazu.
Druhý princip říká, že je lepší předložit uživateli pouze několik málo (v řádu desítek až stovek) dokumentů, ale za to co nejvíce relevantních.

Je potřeba říci, že většina VS na výstup řadí dokumenty podle relevance (i když ji každý určuje jinak), některé nikoliv. Relevanci některé VS uvádějí, některé ne.

2. Google

Nyní se budeme věnovat autorem favorizovanému VS. Pokusíme se ukázat nové principy, které Google přináší, a jejich praktické využití.

2.1 Stručně k historii a současnosti
Google vytvořili dva postgraduální studenti Stanford University v rámci projektu Stanford University Digital Libraries Project v roce 1998. V současné době již založili vlastní firmu a vrhli se na pole podnikání v oblasti VS. Svůj produkt však stále rozvíjejí.

2.2 Cílem jejich snažení měl být VS, který dramaticky zvýší relevanci výsledků předkládaných uživateli, a to snížením jejich počtu na několik málo desítek až stovek.
Dalším důležitým cílem vývoje mělo být i možnost zvýšení počtu zpracovávaných dokumentů bez principiální přestavby celého systému.
Předpokládali počet dokumentů v řádu stovek miliónů dokumentů. Posledním a neméně důležitým cílem bylo dobře dokumentovat výsledky své práce a ty zveřejnit tak, aby kdokoliv mohl použít pro další rozvoj VS.

2.3 Zvýšení relevance dokumentů
V hodnocení dokumentů autoři zavedli princip podobný citačním indexům a citační analýze. Tyto principy ještě rozšířili.
Relevanci dokumentu autoři definovali jako součet relevance dokumentů odkazujících na hodnocený dokument dělený počtem odkazujících ven z odkazujícího dokumentu. Tato mírarelevance je upravena tak, aby její maximální hodnota byla rovna 1. To znamená, že za relevantní dokument může být považován pouze dokument, na který odkazuje dostatečný počet relevantních dokumentů. Samozřejmě že tento princip kombinují i s principy zmiňovanými výše. Popsaný princip je ovšem do jisté míry dominantní. Tímto způsobem lze výrazně zvýšit relevanci dotazů předkládaných uživateli.
Jako příklad může sloužit dotaz znějící "Bill Clinton". Většina VS na tento dotaz odpoví jako první dokumentem v němž jsou obsaženy vtipy o zmiňovaném nebo jiné informace o Billu Clintonovi. Za reprezentanta můžeme vzít AltaVistu. Ve výstupu Googlu odpoví na tento dotaz titulní stranou Bílého domu, což je více relevantní výsledek.

Tento princip hodnocení má ovšem i své stinné stránky. Z počátku systém nenabízel žádné operátory použitelné při zadávání dotazů. Principiálně nešlo vyloučit z vyhledávání určitou množinu dokumentů, protože by to znamenalo nutnost znovu zhodnotit všechny dokumenty. Autoři si byli tohoto problému vědomi, proto v nedávné době přidali operátory "OR", "AND", "-" (tj. NOT). Tím se přiblížili v dotazovacím jazyku jiným VS.

2.4 Rozšiřitelnost VS a schopnost zvládnout řádově většího množství autoři dokázali při přechodu z počtu 25 miliónů dokumentů na 100 miliónů dokumentů v podstatě pouze se zvětšením paměti svých počítačů. Jinak zůstali u výkonných osobních počítačů a rychlost vyhledávání a aktualizace dokumentů je obdobná jako u systémů konkurenčních, které disponují mnohem výkonnějšími počítači.

2.5 Cíl zdokumentovat a zveřejnit svou práci splnili bezezbytku ať už publikováním na webu nebo na různých konferencích např. VLDB.

2.6 Několik praktických poznámek pro uživatele VS Google. Na výstupu uvádí vždy relevanci daného výstupu dvojicí čísel. První uvádí relevanci dokumentu a druhé ukazuje, jak blízko se nachází výsledek vyhledávání vašemu dotazu. Google nabízí ještě tři další užitečné vlastnosti. Jedno je nabízí zvláštní možnost vyhledávání v rámci dokumentů o operačním systému Linux. Druhá praktická vlastnost je, že Google uchovává ve své paměti dokumenty, které indexoval. Tuto možnost můžete využít pomocí volby cached. Tak můžete získat i dokumenty, které nejsou momentálně dostupné nebo již neexistují a Google je má ještě ve své databázi např. titulní stránku Ikara V extremním případě můžete tuto kopii použít k obnovení svého ztraceného dokumentu. Poslední ze zmiňovaných užitečných vlastností je tlačítko "I’m feeling lucky", které vás odkáže rovnou na první vyhledaný dokument. Při dotazu na Ikara Vás Google rovnou odkáže na Ikaros.

Závěrem se nabízí otázka, kam směřuje další vývoj VS. Odpověď lze hledat v oblasti lingvistiky, kdy se budou využívat principy automatické obsahové analýzy textů. Dalším směrem je možnost ještě lépe využít principů hypertextu. Tyto metody však mají svoje hranice. Za nimi pak nastoupí autoři dokumentů, kteří budou přidávat ke každému dokumentu klíčová slova a budou ho zařazovat do různých kategorií podobných jakýmsi tezaurům. Toto je problém hlavně VS na Internetu a dalšího vývoje spíše společenského než technického. Tento problém je z pochopitelných méně akutní u DMS, kde už takové zařazování do kategorií funguje. Tudy tedy vedou cesty dalšího možného dalšího vývoje.

Klíčová slova:

search engines

Hodnocení:

Nové principy využívané v internetovských vyhledávacích strojích

Nové principy využívané v internetovských vyhledávacích strojích

1. Úkoly plněné vyhledávacími stroji

2. Google

Ikaros.cz

Newsletter Ikaros.cz