Sémantický web – jak dál?
1. Sémantický web - definice, vize, možnosti
Pokusíme-li se přiblížit, co to sémantický web vlastně je, pak narazíme na jistou terminologickou nejednoznačnost. Jedná se spíše o myšlenkový model než o přesné technické řešení. Nejjednodušší z definic uvádí Kosek, který hovoří o tom, že z “webů dokumentů” se stanou “weby znalostí” (Kosek 2008)[1]. Pitner a Matulík nabízejí definici převzatou z dokumentů konsorcia W3C: Sémantický web je rozšířením současného webu, v němž informace mají přidělen dobře definovaný význam, který počítačům a lidem umožňuje lépe spolupracovat. Sémantický web představuje reprezentaci dat na webu. Je založen na technologii Resource Description Framework (RDF), která integruje širokou škálu aplikací využívajících syntaktický zápis v XML a identifikátory URI pro pojmenovávání (Pitner, Matulík) [2].
Z různých definic sémantického webu je patrné, že se jedná o přístup k dokumentům nejen jako entitám nesoucím popis toho, jak vypadá text s případnou grafikou, ale současně k datům o tom, jaké informace jsou v těchto dokumentech obsaženy. Technologie RDF je pak nástroj, který nám umožní dokument popsat. Vyhledávač nebude mít k dispozici (jak je to u klasického webu) k dispozici pouze samotný text, který vidí čtenář, ale i další informace, podle kterých bude moci zvážit obsah uváděného zdroje. Příkladem může být novinový článek popisující třetí semifinálový duel hokejové extraligy mezi HC Sparta Praha a Energie Karlovy Vary. Autor článku nemůže dost dobře zvolit tak dlouhý nadpis, aby mohl popsat patřičnou skutečnost či jev. Spíše musí užít titulek jako například „Sparta smetla Vary“ nebo „Favorit zaváhal“. Každý čtenář ten den ví, o čem text pojednává. Pro vyhledávač je informace, že se jedná o zápas Energie ze sezony 2008/2009, obtížně vyhledatelná. Pokud ji ale autor umístí do „neviditelné“ oblasti, pak může vyhledávací stroj poměrně snadno odpovědět na otázku „Kdo vyhrál?“. Tou neviditelnou oblastí jsou RDF data zapsaná pomocí XML syntaxe.
Je potřeba připomenout, že existuje kompletní sofistikovaná specifikace toho, co by semantický web měl být, jakou by měl mít ontologii, syntax a na jakých technologiích má stavět [3]
Možnosti jednotlivých atributů ani další (neméně zajímavé) možnosti sémantického webu popisovat nebudeme, neboť by ležely mimo rámec tohoto článku. To, co je primárně nejdůležitější pro knihovníky a informační specialisty, jsou právě nové možnosti vyhledávání a práce s informacemi.
Jen stručně si uveďme základní důvody, proč je nutné se sémantickým webem zabývat a proč by měl být v co nejširší míře zaváděn do praxe:
- Řešíme problémy s relevantností. Současné vyhledávací stroje hodnotí stránky z pohledu kvality (počítané v množství a váze zpětných odkazů) a relevantnosti. Zde mají největší váhu HTML tagy <title> případně <h1>. Výsledek je takový, že na jedné straně vznikají odkazové farmy (proti těm se lze částečně bránit), na straně druhé do dvou nejvýznamnějších tagů vkládají často tvůrci stránek to, co potřebují pro marketingový účel. XML popisky by to mohly alespoň částečně napravit.
- Nejsme schopni strojově zjistit, o čem který dokument je. To, co analyzujeme, jsou jednotlivá slova či slovní spojení. Pokročilé metody dolování dat jsou jednak obtížně implementovatelné pro obecné texty a jednak výpočetně poměrně náročné.
- Problémy máme se zjišťováním archivních informací. Jejich "váha" je ve vyhledávacích strojích obvykle malá a jsme schopni obvykle jen velmi obtížně definovat dostatečně "dobrá" vyhledávací hesla. Řešení jako archivy jsou sice zajímavá a do jisté míry kompenzující, ale velice drahá a nemohou mapovat vše.
- Vyhledávání častých hesel lze poměrně úspěšně zasytit informacemi, které nejsou relevantní, ač obsahují vhodná slova a mají dostatečnou kvalitu. Souslednost slov je totiž determinujícím parametrem pro obsah. Web se tak stává stále větší hromadou neuspořádaných dokumentů.
2. Proč to nefunguje
Pokud bychom se podívali na historii sémantického webu, která se začíná psát v roce 2001, kdy se o jeho nutnosti zmínil Tim Berners-Lee, pak se nemůžeme ubránit otázkám, proč se celý koncept stále nepodařilo v rozumné míře uvést do praxe. Důvodů je celá řada a část z nich byla již nastíněna o několik řádků výše. Opět se podívejme alespoň na některé:
- Prvním problémem je přístup uživatelů. Do dnešní doby nalezneme celou řadu (i odborných) textů, které stále nevyplňují nepovinné značky s parametry jako je "description" či "author". To jednak znesnadňuje citaci, ale také snižuje důvěryhodnost i možnost snadné orientace. Existuje však relativně málo lidí, kteří by tyto informace použili, proto je není efektivní vyplňovat. Pokud je problém užívat metadata v hlavičce dokumentu, pak očekávání, že někdo bude vyplňovat RDF data a dodržovat nějaké další normy, je zřejmě naivní.
- XML struktura není to, co uživatel čte. Obvykle o ni nijak nestojí a přesto by ji musel přenášet. Zvyšuje se velikost stránek, což může vadit například uživatelům s připojením pomocí mobilních telefonů, ale i dalším. Právě to, že je XML příliš náročný na přenos (nemluvíme o jednom či dvou řádcích, ale například o několika desítkách) je hlavním důvodem, proč ho celá řada lidí odmítá implementovat do svých stránek. [4]
- Chybí motivace k implementaci. Vyhledávače sémantického webu jsou zcela minoritní a investice do tvorby takových stránek je tedy neefektivní.
- Nedostatečná kvalita vyhledávačů, [5] které by dokázaly RDF dostatečně efektivně využít. Tím se kruh uzavírá – není-li dostatek dat, vyhledávače nejsou dostatečně efektivní a mají tak málo uživatelů. To má za následek, že se nevyplácí (obvykle) strojově čitelné informace implementovat.
- Kritici tohoto konceptu práce s dokumenty poukazují na to, že RDF daty pouze problém strojovému porozumění textu odsouváme. Jsme stále závislí na tom, co tvůrci jednotlivých stránek uvedou za informace. Stroje stále nevědí, co v dokumentech opravdu je. Ví jen, co o nich tvrdí autor. [6]
- XML daleko důsledněji než klasické HTML vyžaduje užívání standardů. Často jedna malá chyba způsobí nefunkčnost celého webu. Navíc je zde obecná nechuť k dodržování standardů, která pramení ze snahy optimalizovat stránky pro jednotlivé vyhledávače a prohlížeče. Přechod k sémantickému webu by tak mohl pro některé provozovatele znamenat ztrátu konkurenční výhody.
Jistě bychom mohli nalézt celou řadu dalších problémů sémantického webu. Problém "tučných" dokumentů bývá někdy řešen pomocí jakési binace. V klasicky napsaném textu je umístěn odkaz na sémanticky upravenou verzi. Toto řešení se z technologického hlediska dnes jeví jako ideální, ale je otázkou, zda je současně ekonomicky výhodné. Osobně si dovolím tvrdit, že není, alespoň prozatím.
Jako jedno z výhledově možných řešení je využití zpracování přirozeného jazyka a automatické určení kontextu textu, což by mohlo umožnit automatické generování RDF. [7][8]
Jsou zde i problémy čistě marketingového charakteru. Prokop [9] poukazuje na to, že autoři textů jsou obvykle placeni redakcemi různých periodik, které mají příjmy z reklamy. Pokud vyhledávač dokáže poskytnout pouze požadovanou odpověď, nedojde k zobrazení reklamy (ani k případnému prokliku) a vydavatel přichází o motivaci magazín vydávat. To by mohlo vést k potřebě přehodnocení soudobých obchodních a marketingových modelů, čemuž se současné reklamní společnosti brání.
Objevují se také otázky etického charakteru. Vyhledávací stroj poskytne právě ten výsledek, který poskytnout má, podle algoritmu či podle nějaké politiky. Je ale ke zvážení, jaké budou možnosti ověření zdrojů a zda nelze tímto způsobem například manipulovat s realitou nebo u vědeckých projektů propagovat více vlastních objevů či prací. Problém je v tom, že v zásadě existuje jen velice slabé konkurenční prostředí, což snižuje možnosti kontroly.
3. Současnost patří mikroformátům
Situace ale není tak bezvýchodná, jak by se na první pohled mohlo zdát. V současné době se začíná dařit mikroformátům. [10] Jedná se o způsob zápisu strojově čitelných informací za využití stávající XHTML struktury, a to především v partikulárních oblastech. hCalendar například umožňuje z webové stránky vyexportovat data do kalendáře uživatele. [11] Pomocí XFN lze uvádět vztahy mezi osobami (avatary) v sociálních sítích. [12] To umožňuje automaticky sdělit, kdo je například otcem či bratrem toho kterého uživatele. Z dalších uveďme například hAtom či hCard. [13]
Zdá se tedy, že sémantický web nebude v nejbližší době otázkou robustního řešení realizovaného pomocí RDF, ale spíše partikulárních řešení v podobě mikroformátů. [10] Jejich výhoda spočívá mj. ve využití stávajících dominantních technologií a obvykle daleko menších nárocích na velikost souborů.
Problém se tak jen odsouvá. Vést diskuse o tom, jaké mikroformáty je možné ještě zavádět a jaké nikoli, je sice možné, ale ne příliš systematické. Ač se z krátkodobého hlediska jedná o nejefektivnější řešení, můžeme být brzy vystaveni problému unifikace těchto mikroformátů do jednotného prostředí, což nemusí být zcela triviální záležitost.
Jak již bylo naznačeno, velkým problémem jsou stále vyhledávací stroje, které jsou na úrovni vědeckých pokusů či univerzitních projektů. [5] Indexovaných RDF dokumentů je v řádu desetitisíců jednotek, což není pro běžné užití dostatečné množství. Navíc ani relevance (což je u sémantického webu klíčový parametr) není zatím nijak vysoká.
Problematicky se také zatím jeví překonávání jazykových bariér. Z tohoto pohledu je pak například pro Google klíčovým nástrojem Translate [14], který by umožnil překlad nejen částí dokumentů určených pro uživatele, ale také ty, které jsou potřebné pro strojové zpracování. Existují ale také možnosti implementace vícejazyčných RDF informací. [15] Ty ale buď nejsou dostatečně univerzální, nebo zvyšují velikost dokumentu a s ní spojené nároky na administraci a datový přenos.
4. Možnosti dolování dat
Kromě motivace technologické byla jedním z důvodů, proč se sousloví "sémantický web" dostalo do širšího povědomí (v době psaní článku vygeneroval Google přibližně 15 500 český stránek [16]), vize vyhledávání v přirozeném jazyce. Klademe tedy vyhledávači běžné otázky a on na ně dokáže rozumným způsobem odpovídat (viz. náš hokejový příklad z 1. kapitoly). To je na jednu stranu velmi přitažlivé: potřebné informace nalezne i člověk, který si s běžnými vyhledávacími stroji příliš nerozumí; na stranu druhou poněkud nebezpečné, protože možnost manipulace na základě vysokého hodnocení (např. Pagerank) je ještě vyšší.
Využití sémantického webu může být dosti široké. Knihovny budou schopny tvořit vlastní robustní dynamicky proměnné specializované databáze informací o konkrétních tématech a speciálně je ohodnocovat. Nespornou výhodou je také to, že pokud někdo změní URL adresu dokumentu, velice rychle ji můžeme najít, a to zcela automaticky. O sémantickém webu se někdy hovoří jako o webu 3.0 [17], případně se mu dávají jiná přízviska. Je potřeba si ale uvědomit, že se nejedná o nějaký velký skok ve změně webu jako takového, ale spíše o postupnou evoluci směřující k tomu, abychom dokázali efektivně nacházet potřebné informace.
Roli knihoven si v takovémto prostředí není těžké představit. Prvním je již zmiňované budování dynamických znalostních databází. Dále to mohou být rešeršní služby založené právě na kooperaci těchto databází. Tyto služby by se neměly nabízet jen izolovaně, ale přímo jako celkové rozhraní, ke kterému budou moci přistupovat další služby. Klasickým příkladem může být propojení s e-learningem. Systém evaluace studenta zjistí, že jeho znalosti nejsou dostatečné v oblasti politické situace na Kavkaze ve 20. letech minulého století. Zašle požadavek na rozhraní knihovních systémů a ty mu vrátí například seznam doporučené literatury ke studiu, který zcela automaticky předloží studentovi.
Dále to mohou být služby určené pro vědecké a univerzitní prostředí, jako automatické monitorování citací a publikací, analýza oblastí, kterým je věnována největší pozornost atp. Sémantický web tedy představuje pohled na dokumenty nejen jako na soubor textů a grafiky, ale umožňuje znát také jejich obsah. Pro jeho praktické a široké využití bude nutná ale reálná implementace, a to především do webů vědeckého, univerzitního či výzkumného prostředí. Bez ní zůstane sice teoreticky velice zajímavým, ale prakticky mrtvým konceptem, jehož reálné možnosti využití jsou velmi malé.
- KOSEK, Jiří. Lepší vyhledávání na webu. Domovská stránka Jirky Koska - "VŠE O WWW" [online]. 2008 [cit. 2009-03-26]. Dostupný z WWW <http://www.kosek.cz/vyuka/4iz228/prednasky/xml/foilgroup04.html>.
- MATULÍK, Petr, PITNER, Tomáš. Sémantický web a jeho technologie. Zpravodaj ÚVT MU. 2004, roč. XIV,, č. 3, s. 15-17. Dostupný z WWW: <http://www.ics.muni.cz/zpravodaj/articles/296.html>. ISSN 1212-0901.
- W3C. W3C Semantic Web Activity [online]. 2009 [cit. 2009-04-15]. Anglicky. Dostupný z WWW: <http://www.w3.org/2001/sw/>.
- SLÁDEK, Jan. Kódujme sémanticky s mikroformáty: náměty a problémy. Zdroják [online]. 2008 [cit. 2009-03-26]. Dostupný z WWW: <http://zdrojak.root.cz/clanky/kodujme-semanticky-s-mikroformaty-namety-problemy/>. ISSN 1803-5620.
- W3C. ESW Wiki SemanticWebTools : Search Engines [online]. 2007 , 2009-03-25 [cit. 2009-04-15]. Anglicky. Dostupný z WWW: <http://esw.w3.org/topic/SemanticWebTools#head-09ab45ef1fb5d28af30c2787c5ef6705329abc5d>.
- DACONTA, Michael C., OBRST, Leo Joseph, SMITH, Kevin T. The Semantic Web. [s.l.] : John Wiley and Sons, 2003. 281 s. Illustrated. ISBN 0471432571.
- GREGAR, Tomáš, PITNER, Tomáš. Využití nástrojů pro zpracování přirozeného jazyka v e-learningu. In SOJKA, Petr, PITNER, Tomáš. SCO 2005 : sborník 2. ročníku konference o elektronické podpoře výuky. 1. vyd. Brno : Masarykova univerzita, 2005. s. 45-50. ISBN 80-210-3699-0.
- POPELÍNSKÝ, Lubomír. Počítače a porozumění textu [online]. Brno : Fakulta informatiky MU, 2007 [cit. 2009-04-30]. Presentace. Dostupný z WWW: <http://www.fi.muni.cz/~popel/nll/czv06-final.ppt>.
- PROKOP, Marek. Hrozba sémantického webu. Interval : webdesign a e-komerce denně [online]. 2002 [cit. 2009-04-15]. Dostupný z WWW: <http://interval.cz/clanky/hrozba-semantickeho-webu/>. ISSN 1212-8651.
- HASSMAN, Martin. S mikroformáty přijde Web 3.0. Lupa : server o českém Internetu [online]. 2007 [cit. 2009-04-15]. Dostupný z WWW: <http://www.lupa.cz/clanky/s-mikroformaty-prijde-web-3-0/>. ISSN 1213-0702.
- SLÁDEK, Jan. Kódujme sémanticky s mikroformáty : 4. část - hCalendar. Zdroják : tvorba webových stránek a aplikací [online]. 2008 [cit. 2009-04-15]. Dostupný z WWW: <http://zdrojak.root.cz/clanky/kodujme-semanticky-s-mikroformaty-hcalendar/>. ISSN 1803-5620.
- SLÁDEK, Jan. Kódujme sémanticky s mikroformáty : 2. část - XFN. Zdroják : tvorba webových stránek a aplikací [online]. 2008 [cit. 2009-04-15]. Dostupný z WWW: <http://zdrojak.root.cz/clanky/kodujme-semanticky-s-mikroformaty-2-cast-xfn/>. ISSN 1803-5620.
- SLÁDEK, Jan. Kódujme sémanticky s mikroformáty : 3. část - hCard. Zdroják : tvorba webových stránek a aplikací [online]. 2008 [cit. 2009-04-15]. Dostupný z WWW: <http://zdrojak.root.cz/clanky/kodujme-semanticky-s-mikroformaty-3-cast-hcard/>. ISSN 1803-5620.
- Google. Překladač Google : často kladené dotazy [online]. c2009 [cit. 2009-04-15]. Dostupný z WWW: <http://www.google.com/intl/cs/help/faq_translation.html>.
- GÓMEZ-PÉREZ, Asunción, EUZENAT, Jérôme. The Semantic Web. 1st edition. [s.l.] : Springer, 2005. 728 s. Illustrated. ISBN 3540261249.
- Google [online]. [cit. 2009-03-10]. Dostupný z WWW: <http://www.google.cz/search?hl=cs&hs=C0f&q=%22s%C3%A9mantick%C3%BD+web%22&btnG=Hledat&lr=lang_cs>.
- Service Web 3.0 [online]. Wikipedia, 2008 , 26 September 2008 [cit. 2009-03-26]. Anglicky. Dostupný z WWW: <http://en.wikipedia.org/wiki/S