Vyhľadávacia stratégia v internete – seminár Centra vedecko-technických informácií SR
Centrum vedecko-technických informácií SR organizovalo 21. června 2006 seminár pod názvom „Vyhľadávacia stratégia v internete“. Cieľom tejto akcie bolo ponúknuť účastníkom osobné skúsenosti s efektívnym vyhľadávaním informácií, ktoré som získala ako informačný špecialista oddelenia informačných služieb a referenčných systémov Centra VTI SR pri spracovávaní informačných prieskumov, ale tiež vytvoriť priestor pre vzájomnú výmenu názorov zúčastnených.
Program semináru pozostával nielen z teoretickej časti, ktorá sa venovala typológii sieťových informačných zdrojov a využívaniu vhodných vyhľadávacích nástrojov, ale hlavne z praktických zručností pri príprave rešeršnej stratégie. Každý z účastníkov mal k dispozícii počítač, aby mohol sám priebežne testovať možnosti jednotlivých vyhľadávačov, skúšať vyhľadávacie postupy či prezerať a hodnotiť relevanciu výsledkov vyhľadávania.
Medzi sieťové informačné zdroje patrí čokoľvek na sieti, čo možno adresovať pomocou URL; typológia týchto zdrojov bola rozpracovaná v rámci otvorenej iniciatívy Dublin Core Metadata Initiative (DCMI), ktorá definuje (podľa aktualizácie z roku 2004) 12 typov digitálnych objektov (DCMI Type Vocabulary) [1]. Bežný používateľ internetu získava informácie viacerými spôsobmi – vstupuje do niektorej z diskusných skupín alebo elektronických konferencií, ak pozná adresu sídla, ide priamo na ňu, hľadá informácie v databázach, využíva blogy špecialistov v odbore alebo používa vyhľadávacie nástroje. Vyhľadávacia (rešeršná) stratégia pozostáva z analýzy a formulácie optimálnych metód, ktorými je možné zabezpečiť zodpovedanie informačnej požiadavky a jednotlivé vyhľadávacie techniky potom predstavujú konkrétne postupy pri komunikácií s vyhľadávacím nástrojom. Práve výber vhodného vyhľadávača hrá kľúčovú úlohu pri vyhľadávaní v internete, pretože každý nástroj je iný, má svoje špecifiká, slúži osobitnému účelu, pokrýva iné zdroje, líši sa od druhého veľkosťou databázy a tiež ponukou prostriedkov na vyhľadávanie. Základné triedenie, ktoré bolo prezentované na seminári, súvisí s ich postupným vznikom od roku 1992, a to od predmetových adresárov, cez prieskumové stroje, metainformačné systémy, špecializované nástroje, vyhľadávače pre neviditeľný web, vyhľadávacie služby na báze inteligentných agentov a nástroje pre sémantický web. [2]
Skôr však než sme sa podrobnejšie venovali funkciám jednotlivých typov vyhľadávačov, rozobrali sme si postup pri vyhľadávaní v internete, kde prvým krokom je podrobná špecifikácia a analýza informačnej požiadavky s ujasnením si, čo presne hľadáme (typ a formát dokumentov, hľadisko jazykové, časové, geografické). Je dobré si predstaviť, aký by mal byť ideálny názov dokumentu, ktorý hľadáme a z tohto názvu ďalej vychádzať pri výbere vhodných kľúčových slov. Je treba sa sústrediť hlavne na podstatné mená, pripraviť si i synonymá, príbuzné slová, zoradiť ich podľa dôležitosti a ak je to možné, využívať prirodzené frázy. Ak chceme ušetriť čas, je dôležité si preštudovať možnosti vybraného vyhľadávača ešte pred tým, než formulujeme náš dotaz, využívať rozšírené vyhľadávanie, Booleovske operátory, pričom optimálny maximálny počet slov na definovanie požiadavky sa doporučuje 6 až 8.
Keďže kľúčovým prvkom vyhľadávacej stratégie je voľba vhodného vyhľadávacieho nástroja, venovali sme jej dostatočný časový priestor. Z predmetových adresárov, ktoré vznikajú manuálnym zberom údajom a využívajú sa na hľadanie všeobecnejšie témy, bol podrobnejšie prezentovaný najúplnejší adresár webu Open Directory obsahujúci vyše 5,2 milióna stránok, Bubl Link zameraný na európske zdroje pre akademickú obec a tiež SciTech navigátor – nový navigačný nástroj Centra VTI SR zameraný na vybrané oblasti vedy a techniky a obsahujúci odkazy na vyše 570 voľne prístupných zdrojov. Tento nástroj bol prezentovaný i na konferencii Inforum 2006. Ako príklad horizontálneho webového portálu, ktorý vznikol transformáciou vyhľadávacieho nástroja, nám poslúžil Yahoo! a ako príklad vertikálneho portálu (vortálu) Euro-i-portál zameraný na Európsku úniu, ktorý je produktom Centra VTI SR. Najväčšiu pozornosť sme však venovali prieskumovým strojom založeným na automatizovanom zbere dát, ktorých základnou funkciou je možnosť hľadania prostredníctvom kľúčových slov. Bližšie sme si všimli špecifiká nástroja Exalead (fonetické hľadanie, proximitný operátor NEAR, zhlukovanie výsledkov), MSN Search (slovenské rozhranie, tvorba dotazov, encyklopédia Encarta), Ask.com (formulácia požiadavky v prirodzenom jazyku, encyklopédia, hľadanie v blogoch a RSS dávkach) a vybrané služby Google (Book Search, Blog Search, Directory). Zvláštnu pozornosť sme venovali i nástroju Google Scholar, pretože Centrum VTI SR využíva službu ScholarSFX, ktorá umožňuje vstupovať do predplatených plných textov dokumentov priamo z výsledkov vyhľadávania. O tom, že je na tú istú požiadavku potrebné využívať viac vyhľadávačov, nás presvedčil nástroj Thumbshots.com. Slovenský web sme testovali pomocou nástroja Morfeo. Keďže počet vyhľadávačov rýchle rastie a užívateľ internetu sa v tom množstve stále viac stráca, vznikajú nástroje – webový asistenti, ako napríklad GoshMe, ponúkajúci pre nás ten najvhodnejší vyhľadávač. Na dôkladnejší prieskum webového priestoru sú vhodné metaprieskumové stroje, napr. Clusty, ktorý má v sebe zabudovaný zhlukovací algoritmus a zabezpečí, že výsledky vyhľadávania sú automaticky organizované do účelových skupín (zhlukov), ktoré si používateľ prezerá podľa záujmu, a je väčšia šanca, že aj menej relevantné dokumenty môžu mať v rámci určitého zhluku vysoké umiestnenie. Výborné možnosti personalizácie poskytuje iBoogie, vizualizáciu výsledkov zasa Kartoo. Trend otvoreného prístupu k informáciám, ktorý je alternatívnou možnosťou publikovania a zverejňovania vedeckých poznatkov na internete, vytvára priestor i pre vznik adresárov e-archívov a inštitucionálnych repozitárov, napr. ROAR, „open acces“ časopisov – DOAJ, vyhľadávačov OpenJ-gate, ktorý vyhľadáva vo vyše 3 600 akademických, výskumných i priemyselných „open access“ periodikách zo všetkých tematických oblastí. Unikátnym nástrojom je OAIster (Open Archives Initiative search), ktorého cieľom je vytvoriť kolekciu voľne prístupných, v minulosti ťažko vyhľadávateľných akademicky orientovaných digitálnych zdrojov (e-knihy, časopisy, referenčné texty, audio súbory atď) z vyše 640 inštitúcií. Pre orientáciu v neviditeľnom webe sme si bližšie všímali CompletePlanet, ponúkajúci cca 70 000 databáz, a IncyWincy prehľadávajúci vyše 150 miliónov webových stránok.
Centrum VTI SR sa orientuje i na využívanie vyhľadávacích nástrojov na báze inteligentných agentov, a preto bola na seminári spomínaná i ponuka firmy Copernic, v rámci ktorej je možné si bezplatne nainštalovať najnižšiu verziu takéhoto vyhľadávača. Jeho základnou funkciou je, že zadanú požiadavku zašle vybranej skupine vyhľadávačov, nájde relevantné webové stránky a vo výsledku nám vráti zoradený súbor najkvalitnejších dokumentov, neobsahujúci spravidla žiadne duplicity. Na sídle tejto firmy je tiež možné si stiahnuť program na „desktopové vyhľadávanie“, umožňujúce efektívne vyhľadávať nielen na webe, ale i v lokálnom PC.
Praktické využitie RSS služieb a komunitných nástrojov bolo demonštrované prostredníctvom osobného blogu SciTech infozdroje zameraného na informácie z oblasti voľne prístupných sieťových informačných zdrojov. Bližšie sme sa venovali špecializovanému nástroju Technorati, ktorý vyhľadáva v obsahu blogov (vyše 45,9 milióna stránok) a téme spoločného zdieľania záložiek (Social Bookmarking), ktoré je relatívne novým trendom zjednodušujúcim zhromažďovanie zaujímavých odkazov a jeho využívaniu pri vyhľadávaní informácií. Obľúbenou a stále narastajúcej popularite sa tešiacou službou je Delicious, ktorá vznikla v roku 2003. Ide o službu, ktorá umožňuje používateľom ukladať svoje záložky na internetový server, priraďovať k nim svoje tagy a zároveň v nich vyhľadávať pomocou kľúčových slov. Webové služby podobného typu prinášajú úžitok vďaka kolektívnemu úsiliu vyťažiť to najlepšie z veľkého informačného bohatstva internetu. Vzniká spoločenská sieť prispievajúca k rýchlemu vzájomnému zdieľaniu sa. Pre vedeckú komunitu je určený nástroj CiteULike a v rámci Slovenska je zaujímavý nástroj Asdf.sk, ktorý je slovenskou verziou nástroja Digg.com. V Českej republike sa popularite teší Linkuj.cz.
Záver semináru bol zameraný na otázky, ktoré by sme si mali klásť pri hodnotení kvality nájdených webových stránok. Mnohé je možné vyčítať už priamo z URL adresy (typ organizácie, lokácia), treba však preskúmať i aktuálnosť informácií, autorstvo, tému i cieľ, prečo vznikla a komu je stránka určená. Ak chceme získať kvalitné stránky, je dobré využívať predmetové adresáre, alebo si informácie preveriť z autorizovaných zdrojov (encyklopédie, slovníky). Taktiež treba vedieť, kedy s vyhľadávaním prestať. Ide hlavne o prípady, keď sa točíme neustále dokola a nenachádzame nové výsledky i keď využívame viac vyhľadávačov (hlavne v rámci geografickej oblasti), alebo sme už získali dostatok (aspoň 80 %) informácií. Všeobecne o vyčerpávajúcom informačnom prieskume môžeme hovoriť vtedy, keď preskúmame povrchový web a využijeme aspoň 2-3 prieskumové stroje, metavyhľadávač, predmetový adresár, portál alebo špecializovaný vyhľadávač a taktiež získame informácie z neviditeľného webu – z databáz alebo „open access“ zdrojov. Doplniť vyhľadávanie je vhodné v súčasnosti i pomocou komunitných nástrojov a diskusných skupín a blogov, hlavne ak nás zaujímajú aktuálne názory ľudí na určité témy.
Seminár má už niekoľkoročnú tradíciu a je koncipovaný tak, aby prispel k rozvinutiu vyhľadávacích zručností u záujemcov, ktorí nemajú veľké skúsenosti s prípravou vyhľadávacej stratégie, a tiež obohatil i zdatnejších rešeršérov o posledné novinky z oblasti vyhľadávacích nástrojov.
[1] ŠUŠOL, Jaroslav. Elektronická komunikácia vo vede. Bratislava: Centrum VTI SR, 2003. s. 41-54. ISBN 80-85165-88-0
[2] MAKULOVÁ, Soňa. Vyhľadávanie informácií v internete. Bratislava: EL&T, 2002. 376 s. ISBN 80-88812-16-X
Máme zde 1 komentář
LITERATURA
LITERATURA JE DOBRI PREDMED V SKOLE