Co se skrývá za vyhledáváním aneb Searching Session NTK 2012

0 comments

Anglicky

English title:

What is Behind the Search aka Searching Session NTK 2012

English abstract:

The seminar on Internet Search at the National Technical Library proven his popularity among public on October the 2nd, 2012. Various participants discussed the techniques and principals of data gathering, mining, sorting, storing, personalizing and using for many different purposes.

Autoři:

Hronová, Kateřina

Vydání:

2012, ročník 16, číslo 11

Rubrika:

Zprávy, reportáže a glosy

Již třetí ročník úspěšného semináře Co se skrývá za vyhledáváním aneb Searching Session NTK zavedl 2. října 2012 knihovníky a informační specialisty do počítačové učebny Národní technické knihovny, která tak doslova "praskala ve švech". Semináře jsou realizovány v rámci projektu "Moderní informační a komunikační technologie v knihovnictví" s podporou programu Ministerstva kultury "Veřejné informační služby knihoven – podprogram Mimoškolní vzdělávání knihovníků".

Letošní celodenní seminář měl na programu sedm přednášek. Dopolední blok zahájily samotné moderátorky Kristýna Busch a Eliška Veselá z Národní technické knihovny (NTK), které ve svém příspěvku prozradily, co se skrývá za vyhledáváním v katalogu NTK. Hovořily o významu analýzy logu vyhledávání v katalogu knihovny, a to pak konkrétně na příkladu NTK, kde se rozhodli výsledky analýzy využít jako zdroj inspirace pro tvorbu nových hesel Polytematického strukturovaného hesláře (PSH), i pro akvizici.

Pro sběr dat NTK využívá Google Analytics, pro export a očistu dat vlastní aplikaci, která (jak řekla později Radka Římanová) by mohla být za určitých podmínek poskytnuta i do dalších knihoven. Uživateli hledané termíny patří do kategorie předmět, dílo (lidé podle R. Římanové kupodivu prý vyhledávají i celé názvy knih), osoba, korporace, akce, místo apod. V rámci analýzy logu pro potřeby rozvoje PSH se uživateli vyhledávaný termín zařazuje do kategorie podle FRBR, dále pak do podkategorie vyjadřující povahu termínu pro PSH (deskriptor, nedeskriptor, podrobné, specifické, obecné, …).

Analýza logu vyhledávání v katalogu NTK ukázala, že z hledaných termínů se jich 67 % v PSH už vyskytuje. (Pro zajímavost na předních příčkách žebříčku „top 10 stálic katalogu NTK“ jsou termíny java, java script, marketing, matematika, fyzika, HTML aj.). Autorky příspěvku shrnuly přínos (i jednoduché) analýzy vyhledávacího logu: může pomoci odstranit problémy v knihovním katalogu a skoro nic nestojí (v případě dat NTK jde o 3 dny měsíčně).

Velmi zajímavou přednášku účastníci vyslechli od Ondřeje Voců, doktoranda ÚISK FF UK. Jeho příspěvek Vyhledávání hudbou: YouTube trochu jinak pojednával o efektivním způsobu vyhledávání, pokud neznáte nic jiného než melodii nebo zpívanou pasáž (anglicky se tomu říká music search nebo music information retrieval). Vyhledávání hudbou se uskutečňuje přes webový prohlížeč, někdy je potřeba mikrofon. Principiálně jde o porovnávání zadání a vzorku v různých formátech (zpravidla probíhá převod na soubor formátu MIDI).

Existuje několik způsobů vyhledávání – broukáním do mikrofonu, ukázkou z nahrávky, zahráním na piano, vyťukáváním rytmu, notovým zápisem nebo obrysem melodie. Servery, které pracují s vyhledáváním hudbou, jsou např. midomi.com nebo musipedia.org. Tvorba jejich obsahu je založena na komunitním principu. Slabinou vyhledávání na těchto serverech je, že nevede k celým skladbám, ale jen k ukázkám v nízké kvalitě. Např. na musipedia.org jsou i odkazy na YouTube, ale často neaktuální nebo nerelevantní.

Ke konci přednášky Ondřej Voců zmínil význam prefixů a sufixů v odkazech na videa na YouTube (např. pro zobrazení falešného fullscreenu, zobrazené videa s vyšším rozlišením, přehrávání videa od určitého času bez posuvu jezdce apod.). Videa je také možné stahovat - buď pomocí nějaké webové služby (např. keepvid.com) nebo je možné manuálně najít a uložit uložené do cache (vyrovnávací paměti) prohlížeče.

Daniel Bradbury Dočekal (www.pooh.cz) nazval svoji přednášku Co znamená, že Google o nás ví víc než my sami; aneb zaprodáme duši vyhledávacím strojům? Připomenul počátky vyhledávání a dal je do kontrastu s dnešními trendy (jakými jsou např. používání výkonných smartphonů, které jsou nepřetržitě online), nebo hlasové vyhledávání.

Na základě online aktivit vzniká neustále přesnější digitální model osob. Většina lidí dělá ústupky za prospěšnou věc a poskytuje své osobní údaje, aby mohla třeba zdarma využívat určitou webovou aplikaci. Metodami data-miningu se o nás dají zjistit mnohé údaje: kdo jsme a co děláme, jak vypadáme (podle fotek a videí s pomocí rozpoznávání obličejů), kam chodíme na webu, co čteme a sdílíme, jaké máme přátele a co dělají, co máme naplánováno v kalendáři, jak se pohybujeme po městě/zemi apod. Daniel B. Dočekal se domnívá, že to v digitálním světě směřuje ke sledování, evidování, analyzování a předvídání chování lidí, a to vše v zájmu vyhledávačů, prodejců, marketérů, států a tajných služeb.

Na závěr přednášející upozornil na studii "Čeština v digitálním věku" (Bílá kniha sítě Meta-Net, vydalo nakladatelství Springer). Podle ní většina evropských jazyků v online světě nepřežije a my všichni budeme v tomto digitálním prostředí mluvit jedním jazykem, a to anglicky.

Před přestávkou na oběd vystoupil pravidelný host Searching Session NTK, Štěpán Bechynský ze společnosti Microsoft ČR, s příspěvkem Jak hledat s Windows 8. Nejprve shrnul vývoj vyhledávání v operačním systému MS Windows: zatímco dříve si musel uživatel sám doinstalovat Windows Desktop Search a indexace souborů zahlcovala počítač, Windows Vista Search byl už nedílnou součástí operačního systému.

V MS Windows 8, který byl oficiálně vydán 26. 10. 2012, je možné vyhledávat v názvech souborů i textově prohledatelném obsahu disku, v nastaveních, v aplikacích na počítači i z obchodu, tzv. Store (podobně jako tomu je u smartphonů). To znamená, že např. knihovny mohou integrovat svůj knihovní katalog. Dotazy vyhledávání je možné ukládat a rovněž je možné průběžně sledovat výsledky vyhledávání. Vyhledávání v elektronické poště podle mnoha kritérií (odesílatele, příjemce, předmětu, klíčových slov apod.) nebo pravidla pro zacházení se zprávami nejsou žádnou novinkou. Zajímavější už ale je hledání osob na fotografiích, tagování a následné automatické indexování fotografií, resp. osob na nich zachycených. Windows 8 je také možné na některých počítačích ovládat dotykově.

Štěpán Bechynský v závěru naznačil další směřování v oblasti vyhledávání: stejné funkce pro mobilní zařízení, lepší podpora národních jazyků, nižší zátěž pro elektronická zařízení, další rozšiřování práce s obrázky, zvuky a videem (probíhají např. výzkumné projekty na automatickou indexaci a vyhledávání podle zvuků ve video záznamu).

Odpolední blok zahájil další tradiční řečník semináře Searching Session NTK Josef Šlerka (ÚISK FF UK, Ataxo Interactive). Jeho vystoupení Sociální a personalizované vyhledávání bylo částečně jakýmsi ohlédnutím nebo sebereflexí jeho přednášky "Není hledání bez přívlastků" v rámci Business Tuesday z roku 2010 (prezentace je dostupná na http://www.slideshare.net/josefslerka/nen-hledn-bez-pvlastk).

Josef Šlerka hovořil o metodě Social Search, což je podle Wikipedie typ webového vyhledávání, které bere v potaz sociální graf osoby provádějící vyhledávání. Naše vyhledávání je ovlivňováno subjektivně (např. informacemi o uživateli) i objektivně (filter, rank). Cenzuru vnímá autor příspěvku jako filtrování výsledků, jako výraz společenské poptávky (normy). Cenzura není zdaleka jen politická, v dnešní době je to spíš cenzura obchodní, která ovlivňuje informační společnost.

Cílem uživatele je přirozeně redukce času a náročnosti vyhledání informace. Josef Šlerka vysvětlil, jak se vytváří hodnotový svět na sociální síti Facebook. Sdílení společných zájmů (odkazů, fotografií apod.) s přáteli indikuje přidělení vyšší relevance. Na sociálních sítích, stejně tak jako v reálném životě, se aktivita (např. publikování zpráv) hodnotí výše než pasivita (např. pozitivní hodnocení, tzv. „like“). Vazby mezi objekty (což mohou být fotografie, místa, zprávy) a lidmi a vazby mezi lidmi navzájem tvoří právě onen hodnotový svět. Grafická interpretace vztahů mezi lidmi se pak nazývá sociogram. Google Plus je vlastně snahou společnosti Google "získat" data z Facebooku.

Na závěr přednášky vyslovil Josef Šlerka přesvědčení, že informaci, kterou opravdu hledá (např. nějakou novou či aktuální) jeho přátelé stejněě obvykle nemají.

Novinky ve vyhledávání Seznam.cz představil Otakar Smrž. Vyhledávač má od roku 2005 vlastní fulltextové vyhledávání. Vyhledávání a indexace probíhají v různých jazycích – kromě češtiny jsou to angličtina, slovenština, němčina apod. Při zadávání a zpracování dotazu uživateli pomáhají interaktivní funkce jako je našeptávač, doplnění diakritiky, oprava překlepů, zobrazení souvisejících dotazů). Dodatečně probíhá pak ohýbání slovních tvarů, reformulace dotazu, vyhledání synonym, odvozenin, zkratek aj. Na serveru Seznam.cz může uživatel využít i zvláštní operátory pro rozšířené hledání.

Na stránce výsledků vyhledávání (SERP, Search Engine Result Page) najde uživatel také obrázky (náhledy vyhledaných webových stránek jako jakési upoutávky), dokumenty, zprávy, související dotazy apod. Vyhledávač posuzuje stránky podle relevance a stanovuje S-Rank, jehož výpočet tají, aby nebyl zneužitelný provozovateli webů. Nicméně roli hrají tzv. on-page vlastnosti stránky, jež vycházejí z jejího obsahu a jsou uvedené autory stránky, a tzv. off-page vlastnosti stránky závislé na jejím umístění, prolinkování a návštěvnosti. Seznam.cz prý využívá nový algoritmus pro tvorbu snippetů (tj. popisků zobrazených na SERP). Snippet má umožnit odhad relevance výsledku vyhledávání. Vyhledávač se snaží zahrnout do něj co nejužitečnější informaci nejen z viditelného textu stránky, vyhnout se opakování informací a zlepšit přehlednost snippetu.

Podle Otakara Smrže se Seznam.cz snažil přinést něco nového, a tím je zobrazení osnovy ve výsledcích vyhledávání – vyhledávač pro ni vybírá odkazy ve vnitřní struktuře webové stránky. U zpravodajských článků se zobrazuje jejich stáří, u dalších výsledků vyhledávání uživatel vidí obohacující informace jako obrázky, mapy, akce, produkty apod. Seznam.cz také nabízí své miniaplikace a odpovídač. Mezi nimi najdete třeba kalkulačku, morseovku nebo PSČ. Portál Seznam.cz zveřejňuje každý měsíc na adrese http://skokani.seznam.cz/ tzv. skokany internetu. Jsou to termíny hledané v daném měsíci výrazně častěji než dříve. Produktové novinky a zlepšení, zajímavosti z výzkumu a vývoje, informace pro webmastery a informace o optimalizaci najdou zájemci na adrese fulltext.sblog.cz.

Závěrečná přednáška s názvem Mapa kriminality – data a nástroje zazněla z úst Jana Cibulky. Řečník na začátek připomněl, že vláda v dubnu 2012 schválila Akční plán České republiky „Partnerství pro otevřené vládnutí“. V rámci něho má fungovat informační systém o veřejných zakázkách, online přístup k údajům o financování politických stran a o rozdělování dotací. Jan Cibulka dále uvedl několik zajímavých příkladů analýzy dat (např. vliv návštěv Jeho Svatosti dalajlamy na export českých produktů do Číny s využitím dat ČSÚ) a propojení dat s mapou (např. Potraviny na pranýři, Praguewatch.cz a Mapy hazardu). J. Cibulka také prezentoval projekt mapy pražské kriminality v roce 2011. Od policie se mu podařilo získat data až na úroveň policejních služeben a tato data propojil s údaji o počtu obyvatel od ČSÚ.

Přednášející přítomným z vlastní zkušenosti poradil, jak podávat žádost o poskytnutí informací. Z písemné žádosti musí být zřejmé, komu je určena a kdo ji podává a že jde o žádost podle zákona č. 106/1999 Sb. Na vyřízení žádosti má úřad lhůtu 15+10 pracovních dní a je potřeba se připravit na to, že žadateli může být účtován poplatek za práci vynaloženou na zpracování odpovědi. Druhou možností je požádat o informaci o způsobu uložení dat a ta pak získat sám zdarma. Jan Cibulka nakousl také otázku etiky a upozornil na možné riziko plynoucí z toho, když se dá více zdrojů do souvislostí. (Etické otázky řeší např. kniha Ethics of Big Data)

Zpracování analýzy dat vyžaduje využití určitých nástrojů. Přednášející zmínil rozšířený MS Excel, dále Tableau Public (základní verze je zdarma), Google Fusion Tables (např. pro vynesení dat z tabulky na mapu), Google Refine, ManyEyes od IBM (vytváří vizualizace – např. tag clouds), R Project (pokročilý a výkonný statistický nástroj) a D3. Jan Cibulka nakonec názorně ukázal, jak jednoduše vytvořit v Google Docs mapu s vynesenými daty. Veškeré odkazy z přednášky Jana Cibulky (zdroje dat a informací, nástroje, kurzy, odkazy na české projekty aj.) jsou k dispozici na adrese http://bit.ly/ntkdata.

Veškeré odevzdané prezentace ze semináře Searching Session NTK 2012 jsou zveřejněny na adrese http://www.techlib.cz/cs/2112-program.

Klíčová slova:

data mining

vyhledávání informací

Národní technická knihovna

vyhledávače

Hodnocení: