Sorry, you need to enable JavaScript to visit this website.

Wikipedie a její data

Čas nutný k přečtení
5 minut
Již přečteno

Wikipedie a její data

0 comments
Autoři: 

Jak jsme již na stránkách Ikara informovali, v Národní technické knihovně proběhl v říjnu minulého roku seminář Searching Session NTK 2010. Na tomto setkání vystoupil mimo jiné i Petr Kadlec s přednáškou „(Meta)data ve Wikipedii a jak je dostat dovnitř a ven“. A protože přednáška byla zajímavá a význam Wikipedie stále roste, vraťme se k tomuto tématu ještě o něco podrobněji.

Logo Wikipedie

Logo Wikipedie

Na začátku paradoxně nestála dobročinná organizace Wikimedia Foundation, kterou 20. června 2003 založil Jimmy Wales (česká pobočka vznikla 6. března 2008) a jejímž posláním je podpora a rozvoj otevřených wiki projektů a zajištění, že veškerý obsah těchto projektů zůstane přístupný zdarma. Na začátku totiž stála samotná encyklopedie Wikipedie, která nyní existuje ve více než 250 jazykových mutacích. Zárodek Wikipedie se datuje k roku 1995 a vychází ze stránek WikiWikiWeb Warda Cunnunghama, které mohl editovat každý návštěvník. Cunningham svůj projekt pojmenoval podle autobusové kyvadlové dopravy na letišti Honolulu - wiki je havajské slovo pro „rychlý“. Wikipedie jako taková vznikla 15. ledna 2001 jako doplňkový projekt k dnes již neexistující encyklopedii Nupedia, do které mohli přispívat jen odborníci.

Další rok přibyl Wikislovník, dříve známý jako Wikcionář, s cílem vytvořit svobodný wiki mnohojazykový slovník s definicemi, výslovností a etymologií. V roce 2003 se uživatelé mohli poprvé podívat do Wikicitátů, ve stejný rok se rozjely také Wikizdroje s volně dostupnými dokumenty (povídky, dopisy, zákony) a Wikiknihy s volně šiřitelnými materiály většího rozsahu (knihy, učebnice, manuály). V roce 2004 pak odstartoval velmi úspěšný projekt úložiště volných obrázků, zvuků a dalších multimedií Wikimedia Commons a naopak nepříliš úspěšný projekt Wikizprávy, což je zpravodajský servis, který vytvářejí sami uživatelé. Ve stejný rok byl také zahájen projekt Wikidruhy, jehož cílem je vytvoření souhrnného volně přístupného katalogu rostlin, živočichů, hub, jednobuněčných organismů, zkrátka všech přírodních druhů. V roce 2006 vznikla Wikiverzita, která se odštěpila od Wikiknih a nabízí volně dostupné e-learningové vzdělávání formou školení, projektů, kurzů apod.  Týž rok byl spuštěn i Wikimedia Incubator, který hostuje jazykové edice Wikimedia projektů, které ještě nemají vlastní oddělenou wiki sekci.

Co se týče technologií, všechny projekty běží na svobodném softwaru MediaWiki pod licencí GNU GPL (General Public License). Program je napsán v PHP s využitím databáze MySQL nebo PostgreSQL. Formátovacím jazykem je speciální jednoduchá Wikisyntaxe (např. ‘‘‘Tučné písmo‘‘‘ [[Odkaz]] == Nový oddíl ==). Petr Kadlec též pohovořil o autorskoprávní složce, která k wiki neodmyslitelně patří. Zde platí, že veškerý obsah je pod licencí Creative Commons CC-BY-SA 3.0. Ta dává právo kopírování, distribuci a modifikaci díla, ale požaduje, aby kopie a odvozeniny byly pod stejnou licencí a aby byl uveden autor (tj. odkaz na původní článek na Wikipedii). 

Jelikož projekty Wikimedia Fundation jsou pod svobodnou licencí, jsou data k dispozici k dalšímu šíření. Máme právo vytvořit i takzvaný fork, což je vlastně odnož programu (v našem případě Wikipedie), která je vyvíjená nezávisle na původním programu. A jak se k datům vůbec dostat? Ve Wikipedii je celá řada dat a metadat - např. encyklopedický text, infoboxy, zeměpisné souřadnice, bibliografické citace, odkazy na cizojazyčné ekvivalenty apod. - některé je možné "dostat ven" lépe a některé hůře. Základ wiki totiž tvoří nestrukturovaný chaos. K přístupu k datům ale můžeme využít řadu nástrojů, jako např. Toolserver, XML dumpy, SQL dumpy, MediaWiki API, či HTML screenscraping.

Toolserver je platforma, která poskytuje hosting a podporu pro různé softwarové nástroje, které vytvořili a používají přispěvatelé projektů Wikimedia. Toolserver spravuje Wikimedia Deutschland. Jedná se o replikovanou SQL databázi, tudíž je ideální pro agregační dotazy (průměry, součty, minima, maxima) při potřebě co nejaktuálnějších dat. Kupříkladu, pokud chceme bibliografická data (data narození) – postačí nám PHP skript na Toolserveru. Stáhneme-li si tzv. XML dumpy databáze Wikipedie, můžeme na svých stránkách poskytovat kopii Wikipedie anebo jen používat stávající Wikipedii v offline režimu. K prohlížení je ale potřeba stáhnout prohlížeč - nejčastěji se doporučuje malá aplikace WikiTaxi. Soubory jsou ale poměrně velké; celý zazipovaný dump (včetně historie úprav) české Wikipedie má 0,5 GB a například německá verze bez obrázků má 7,7 GB. Doplňkem ke XML dumpům jsou SQL dumpy. Jedná se v podstatě o historický pozůstatek, který ale zjednodušuje některou práci (lze mj. získat metadata z databázových tabulek jako odkazy, kategorizace aj.). MediaWiki API je rozhraní pracující s různými formáty (JSON, XML…).  API (Application Programming Interface) definuje a popisuje, jak se daná funkce a součásti jmenují a jaký se vrátí výsledek. MediaWiki API při prohlížení Wikipedie např. používá počítač Microsoft Surface s dotykovým displejem. Poslední zmiňovanou metodou je tzv. HTML screening neboli extrakce výsledků. Je to sice metoda značně nespolehlivá, někdy se však jedná o jedinou možnost, jak se k datům propracovat.

Díky šablonám lze občas nějaká užitečná data připravit ve strojově čitelném formátu. Národní knihovna ČR například od roku 2006 využívá Wikipedii v databázi autorit. Česká Wikipedie se inspirovala německou kolegyní, která dodává odkazy Německé národní knihovně. V praxi to probíhá tak, že je do článků ručně vložená šablona, dotazy probíhají přes MediaWiki API a propojení do Alephu řeší JavaScript. Při nalezení autority se tak zobrazí odkaz na Wikipedii s daným heslem. Takto je propojeno již přes 6 700 článků.

Wikipedie v databázi autorit Národní knihovny

Wikipedie v databázi autorit Národní knihovny

Ačkoliv je získávání některých dat (např. zeměpisných souřadnic) poměrně obtížné, samotná Wikipedie je pro uživatele rychlým a přehledným zdrojem informací. A pokud člověk nepotřebuje stahovat celou Wikipedii nebo propojovat různé databáze, může využít i možnosti převedení hesla do PDF. V menu na levé straně vedle článku máme v sekci "Tisk/export" možnost "Stáhnout jako PDF", což nám umožní převést do PDF text daného hesla. Můžeme si ale také vytvořit i soubor několik hesel či rovnou celou knihu sestávající z libovolných stránek - a to pomocí volby „Vytvořit knihu“, kdy postupně přidáváme požadované články, které můžeme podle libovůle řadit. Nakonec si knihu stáhneme ve formátu PDF či ODF nebo si ji dokonce můžeme nechat vytisknout na objednávku u německé firmy PediaPress.

Na závěr každého článku patří citace. V tomto článku byly kromě prezentace Petra Kadlece použity také články o Wikipedii z Wikipedie. A Wikipedie nám pomůže i s tím, jak správně citovat. Nejjednodušší postup je vybrat v menu v sekci "Nástroje" položku "Citovat stránku" a rázem se dostaneme na stránku, kde jsou vypsány způsoby citace stránky pomocí ISO 690-2, ISO 690-2, APA, MLA, MHRA, Chicago, CBE/CSE, Bluebook a dokonce data pro BibTeX (nástroj pro generování seznamu použité literatury v prostředí LaTeX). Navíc existuje také speciální stránka Citace, kam stačí zadat název článku, který chcete citovat, a Wikipedie automaticky vygeneruje citaci.

Wikipedie: Otevřená encyklopedie. c2010 [citováno 17. 11. 2010]. Dostupný z WWW: <http://cs.wikipedia.org/w/index.php?title=Wikipedie&oldid=6027059>

V citaci je možné definovat i konkrétní verzi článku

Prezentaci Petra Kadlece je možné zhlédnout na službě Slideshare nebo na Wikimedia Commons.

Hodnocení: 
Zatím žádné hodnocení
HUSÁKOVÁ, Eva. Wikipedie a její data . Ikaros [online]. 2011, ročník 15, číslo 2 [cit. 2024-11-11]. urn:nbn:cz:ik-13597. ISSN 1212-5075. Dostupné z: http://ikaros.cz/node/13597

automaticky generované reklamy
registration login password