5th International Web Archiving Workshop (IWAW05)
Ve dnech 22. – 23. září 2005 se konal ve Vídni již pátý ročník mezinárodního workshopu týkajícího se archivace webu - IWAW. Letošní ročník navázal na čtyři předchozí úspěšná setkání uspořádaná v Německu, Itálii a Velké Británii. Stejně jako v předchozích letech byl i tento workshop souběžný s konferencí ECDL (European Conference on Research and Advanced Technologies for Digital Libraries) a jeho hlavními organizátory byli Julien Masanès (European Archive) a Andreas Rauber z vídeňské technické univerzity, v jejíž budově se workshop také konal. Celý dvoudenní workshop byl rozčleněn na pět tematických sekcí.
První den, po úvodním uvítacím slovu, které pronesli Julien Masanès a Andreas Rauber, následovaly sekce nazvané "IIPC Results", "Audio & Video Web Archiving" a "Time Dimension". První blok prezentoval cíle a poslední dění v konsorciu knihoven IIPC – International Internet Preservation Consortium (v čele je Francouzská národní knihovna). Catherine Lupovici prezentovala ve zkratce pracovní skupiny a jejich činnost. Nás, jako Oddělení elektronických online zdrojů v Národní knihovně, nejvíce zajímaly podmínky pro nově přistoupivší členy, které se momentálně stále upřesňují. Čeká se také na vydání konečné verze tzv. Web archiving toolsetu, který by měl být výrazně nápomocen v celém procesu archivace webu. Celé konsorcium se také zasazuje o sjednocení standardů pro tento účel. Podobně se pracuje i na Web archiving metadata setu, který by měl být vydán k okomentování během listopadu 2005. Konsorcium také podporuje vývoj nástrojů Heritrix, WERA a NutchWax (Nutch and Web archive extensions), kterým se ve stejné sekci věnovali další přednášející. Právě tato část konference byla pro nás asi nejpřínosnější, hlavně pro naše brněnské spolupracovníky v technické části projektu WebArchiv. Hlavním tématem byla spolupráce ohledně dalšího vývoje nástrojů pro archivaci webu. Jako potřebné pro naše účely (a další menší knihovny) se ukázalo vyvinout nástroj podobný technologii Internet Archive Wayback Machine, což je nástroj, který umožňuje zpřístupnění archivu, konkrétně formátu ARC. Wayback Machine je komerční produkt vyvinutý speciálně pro Internet Archive, proto jej nelze využít.
O Heritrixu, nástroji ke sklízení (web crawling) dokumentů z webu, hovořil velmi obšírně Michael Stack (Internet Archive), který se podílí i na jeho vývoji. Software Heritrix je zdarma a je využíván v americkém Internet Archive i v českém WebArchivu. Na jeho vývoji spolupracuje i Fakulta informatiky Masarykovy univerzity v Brně. Heritrix je nasazován na sklízení webu mj. pro Národní archiv USA (NARA) a pro národní knihovny Francie nebo Austrálie. Michael Stack seznámil účastníky workshopu i s plány do blízké budoucnosti. Heritrixu se věnoval ve svém referátu i Kristinn Sigurðsson, ovšem spíše jeho využití a možnostem jeho nastavení pro různé strategie sklizní, např. podle četnosti návštěv a počtu změn na daném webu. Konkrétněji se zabýval otázkou duplicity dokumentů, což je velmi závažný problém při sklízení. Naznačoval, jakým způsobem by se měl vývoj ubírat, aby se podařilo bezpečně zajistit rozpoznání změny v dokumentu, avšak tato problematika bude předmětem dalšího výzkumu.
V návaznosti na tuto problematiku následoval příspěvek o softwarové aplikaci WERA - Web Archive Collection Access Tool, o které hovořil opět Michael Stack. WERA je vlastně nástroj pro přístup do sbírek webových archivů, tzv. WAC – Web Archive Collection, kde WERA funguje jako jakýsi viewer/prohlížeč, který navíc (na rozdíl např. od Wayback Machine v Internet Archive) podporuje i fulltextové vyhledávání s pomocí indexovacího nástroje NutchWax. Software je open source, vlastní vývoj je sponzorován IIPC a jeho první vydání proběhlo v srpnu 2005.
S formátem WARC pro archivaci sklizených webových dokumentů seznámil posluchače John Kunze (California Digital Library, USA). Velmi obšírně představený archivační formát WARC (Web ARChiv file format) je další generací dosud využívaného ARC formátu, který byl původně vytvořen v/pro Internet Archive. Pro nový WARC formát se uvažuje podpora v harvester Heritrixu, později se počítá s Alexou a HTTrack. WARC rozšiřuje možnosti ARC formátu (možnost uložení metadat odkazujících na jiný již uložený soubor v archivu, možnost uložení všech informací z harvester protokolu atd.).
Na toto téma navázal se svým referátem Doug Cutting (Internet Archive, USA), který mluvil o projektu NUTCH (vyhledávací rozhraní, které využívá nástroj NutchWax), čímž jakoby završil první, můžeme říci více technickou sekci prvního dne. Nutch je open source software pro vyhledávání na webu postavený na obdobném softwaru Apache Lucene. NutchWax je stále vyvíjen v Internet Archive. Poslední příspěvek této sekce měl opět Michael Stack - Full Text Searching of Web Archive Collections, který se věnoval fulltextovému vyhledávání ve Web Archive Collections (i pomocí Nutch) a vlastně shrnul předchozí příspěvky v jednu syntézu, která ukázala praktické využití v praxi.
V druhém bloku prvního dne pod názvem "Audio & Video Web Archiving" byl jediný, o to ovšem zajímavější příspěvek Thomase Drugeona (Institut National de l’Audiovisuel), který představil ucelený pohled na celý proces harvestingu/sklízení, zpracování a ukládání televizního a rozhlasového digitálního vysílání, na které se ve Francii od roku 1995 vztahuje zákon o povinném výtisku.
Posledním blokem, můžeme říci odlehčujícím, byl blok s mnohoznačným názvem "Time dimension", kde byla prezentována témata s archivací webu související, ale ne již tak úzce. Prvním z nich byl příspěvek Franka McCowna (Old Dominion University, USA), který se věnoval problematice stálosti a dostupnosti webových URL odkazů v citacích ke článkům v časopise D-Lib publikovaných v letech 1999-2004. Celkem šlo o 453 článků a v nich 4387 odkazů (po odstranění redundantních a odkazujících přímo do D-Lib). Všechny odkazy byly stahovány po dobu 25 týdnů, a to třikrát týdně. Překvapující bylo zjištění, že ani tzv. persistent URL nezaručují dlouhodobější dostupnost zdroje a dokonce ani míru dostupnosti v porovnání s normálním URL nezvyšují. Ukázalo se, že nedostupných bylo 52 % osobních stránek, 82 % odkazů na nestandardní porty a 41 % dynamických stránek. Autor vytvořil grafy i pro jednotlivé formáty dokumentů (.pdf, .txt atd.) a také podle top-level domén.
Úplně poslední příspěvek úvodního dne přednesla velmi milou formou Tiphaine Accary-Barbier (INSA de Lyon, Francie), která seznámila posluchače s tím, jak vyjádřit a hlavně jak sdílet znalosti v archeologické digitální dokumentaci.
Druhý den workshopu byl rozdělen do dvou sekcí nesoucích názvy: "Digital Preservation" a "Current Project & Issues". Náplní první z nich byly různé strategie dlouhodobé archivace digitálních dokumentů, jejichž smyslem je zabezpečit dekódování obsahu digitálních dokumentů v dlouhodobé perspektivě. Datové formáty se neustále mění a hrozí tedy nebezpečí, že obsah digitálních dokumentů uložených v zastaralých formátech nebude možné v moderních prohlížečích zobrazit. V současnosti existuje několik přístupů k řešení tohoto problému. Mezi základní patří migrace (konverze dat ze zastaralého formátu do nového; dochází tedy ke změně digitálního objektu při zachování prostředí) a emulace (uchování digitálního dokumentu v původním formátu s využitím softwaru, který umí napodobit zastaralý software nebo operační systém na nové platformě).
Jeffrey van der Hoeven (Holandská národní knihovna) nejdříve stručně představil holandský digitální archiv e-Depot [.pdf], který byl vyvinut ve spolupráci s firmou IBM. Jeho technickým jádrem je systém DIAS (Digital Information and Archiving System) založený na standardu OAIS (Open Archival Information System). Archiv v současnosti zahrnuje přibližně tři miliony digitálních dokumentů (články, elektronické knihy, multimediální aplikace). Poté byly nastíněny výsledky projektu holandské národní knihovny a holandského národního archivu zaměřeného na emulaci. Přednášející vysvětlil a zhodnotil v současnosti používané emulátory a představil nový model - tzv. modulární emulaci, který by měl představovat pracovní prototyp pro budoucí vývoj.
Následoval příspěvek Franka McCowna (Old Dominion University, Norfolk, USA) věnovaný Grace – http proxy serveru, který konvertuje webový obsah nekompatibilní se stávajícím prohlížečem na obsah kompatibilní bez použití plug-inů. Autor názorně demonstroval, jak dokáže Grace transformovat několik obrazových formátů (XBM, PNG a JPEG 2000) tak, aby byly zobrazitelné v Internet Exploreru nebo jiném prohlížeči.
Na skutečnost, že digitální archivy nemají věčnou životnost a že jejich životnost do značné míry závisí na jejich struktuře, poukázal ve své prezentaci Niels Christensen. Popsal design dánského Netarchivu.dk a definoval programátorský pravděpodobnostní model, kdy je pomocí simulace zjišťována střední doba životnosti archivu do doby, něž se objeví porucha (Mean Time to Failure). Jedná se o metodu rychlou a levnou, a proto autor doporučil každému její používání.
Stephan Strodl a Andreas Rauber se zabývali tématem, jak zvolit vhodnou strategii archivace pro digitální archiv, a zároveň popsali detailní analýzu, která by měla danému rozhodnutí předcházet, přičemž jeden z nejdůležitějších aspektů je specifikace požadavků na webarchiv s ohledem na jeho budoucí využití.
Problematikou dlouhodobé archivace digitálních dokumentů se v dnešní době zabývá řada různých iniciativ, avšak jen ojediněle zaměřených na uchování smíšených typů, což je stále více narůstající skupina digitálních dokumentů. Jane Hunter (DSTC, Brisbane, Austrálie) představila australský projekt PANIC (Preservation webservices Architecture for Newmedia and Interactive Collections) snažící se zastřešit jednotlivé iniciativy integrací rostoucího množství nástrojů a služeb. PANIC by měl sloužit jako podpora a pomoc jednotlivým projektům pro výběr optimálních nástrojů nebo jejich kombinace s využitím architektury sémantického webu.
Koichi Tabata vyložil podstatu tzv. Enclose- and –Deposit- Metod, jehož podstatou je archivace zdroje v jiném (dalším) archivu s cílem zvýšení spolehlivosti digitálních archivů. Archivovaný zdroj je uzavřen do souboru spolu s vhodným popisem a ten je následně uložen ve sdíleném archivu či archivech. Autor zdůraznil, že metoda je využitelná také pro malé paměťové instituce.
Závěrečná sekce workshopu byla věnována probíhajícím projektům a jejich výsledkům. Bjarne Andersen navázal na svého kolegu Nielse Christensena a konkrétněji rozvinul aktuální výsledky dánského projektu Netarchive.dk. Na projektu se podílejí obě národní knihovny Dánska - The State and University Library v Aarhusu a The Royal Libary v Kodani. Významným datem byl pro tento projekt letošní 1. červenec, kdy vstoupil v Dánsku v platnost nový zákon o povinném výtisku, který povoluje oběma kooperujícím knihovnám sběr kompletního obsahu dánského webu. Zajímavostí je, že zákon pokrývá všechny veřejně dostupné dokumenty, včetně těch, které jsou přístupné pouze pro registrované uživatele, včetně placených zdrojů. Vydavatelé těchto zdrojů mají ze zákona povinnost poskytnout národním knihovnám zdarma uživatelské jméno a heslo. Co se týká sběru dokumentů, používají Dánové, stejně jako Česká republika či Austrálie, kombinovanou strategii. Sklízejí tedy jednak plošně celou národní doménu .dk, ale provádějí také výběrovou archivaci doplněnou o tematický sběr týkající se určitých událostí (např. volby, královská svatba, apod.). K harvestingu používají software Heritrix, přičemž jejich národní web v současnosti představuje okolo 600 000 domén. Archiv je v současnosti zpřístupněn pouze omezeně pro výzkumné účely.
Julien Masanès ve svém příspěvku informoval účastníky o činnosti European digital Archive, který vznikl v roce 2004 v Amsterodamu jako nezisková organizace s veřejnou i soukromou podporou. Evropský digitální archiv by měl být veřejně přístupný a měl by zároveň plnit roli partnera pro instituce se zájmem o webovou archivaci. Na poli technologie a sběru spolupracuje Evropský digitální archiv s Internet Archivem. Archiv má k dispozici datové úložiště o kapacitě 200 TB. Z projektů, kterými se zabývá či zabýval v nedávné minulosti, je možné jmenovat sklizeň dokumentů vztahujících se k referendu ke vstupu do EU či pilotní studii věnovanou archivaci televizních a rozhlasových webových stránek ve spolupráci s holandským audiovizuálním archivem (The Netherlands Audiovisual Archive).
Posledním prezentovaným projektem byl německý projekt Kopal, který představil Olaf Brandt (Göttingenská státní a univerzitní knihovna). Kopal je akronymem pro "Kooperativer Aufbau eines Langzeitarchivs digitaler Information". Jak už sám název napovídá, cílem projektu je vytvoření digitálního archivu umožňující dlouhodobou archivaci významné části německého kulturního dědictví v souladu s mezinárodními standardy. Projekt je financován německým ministerstvem školství a výzkumu, přičemž jeho roční rozpočet činí 4,2 milionů euro plus aktivity, které si financují samy jednotlivé spolupracující instituce. Hlavním koordinátorem projektu je Die Deutsche Bibliothek, spolupracujícími institucemi jsou: Göttingen State and University Library, IBM Deutschland a Gesellschaft für wissenschaftliche Datenverarbeitung Göttingen. Kopal je založen na holandském sytému DIAS. Co se týče legislativy, Německo zatím nemá zákon o povinném výtisku vztahující se na elektronické online zdroje. Stávající situace by se však měla v blízké době změnit.
Německým příspěvkem byla ukončena poslední tematická sekce a tím také celý workshop. Pozitivním aspektem celého setkání byla opravdu rozmanitá mezinárodní účast. Forma workshopu navíc umožnila aktivní diskusi a účastníci se tak dozvěděli nejen o aktivitách prezentovaných v jednotlivých sekcích, ale také o projektech, jejichž reprezentanti nevystoupili s příspěvkem. Příští setkání by se mělo uskutečnit za rok ve Španělsku.
Všechny přednesené příspěvky jsou k dispozici online.