Registr digitalizace
Registr digitalizace je na světě již více než 5 let - za tu dobu nám již „vyrostl z plenek“. Je tedy čas ohlédnout se za jeho vývojem, zamyslet se nad tím, jak funguje i co by se mělo změnit do budoucna. A možná je také nejvyšší čas připomenout fakt, že tady „celostátní souborný katalog digitalizace“ máme – zejména těm, kteří digitalizují či digitalizovali, a o jeho existenci nevědí. Nebo si neuvědomují, že by měli také přispívat. Stejně jako každý souborný katalog může dobře plnit své funkce jen tehdy, bude-li co „nejsoubornější“.
Vznik a vývoj
Na počátku byl projekt „Evidence digitalizovaných dokumentů, sledování procesu zpracování a vývoj systému pro zpřístupnění“, na kterém se podílela Knihovna Akademie věd ČR (KNAV), Národní knihovna ČR (NK ČR) a firma INCAD, s.r.o. (projekt kromě registru digitalizace zahrnoval také vytvoření systému Kramerius 4). V obou velkých knihovnách se tehdy rozbíhala digitalizace většího rozsahu a objevila se potřeba nástroje, který by podchytil vše, co se digitalizuje, a umožnil také sledování jednotlivých kroků digitalizace (workflow). Projekt získal financování z dotačního programu VaV Ministerstva kultury ČR pro roky 2008-2011. V tomto období byl vytvořen systém, do něhož se importují data a kde může registrovaný uživatel editovat a zaznamenávat průchod dokumentu digitalizací (webová aplikace Relief), a také webové uživatelské rozhraní (využívající vyhledávací nástroj FAST).
Vedle zástupců dvou zmíněných knihoven se do vývojového týmu zapojili ještě zástupci Moravské zemské knihovny (MZK), která do registru nahlásila vlastní digitalizaci. Přispívat začaly také Městská knihovna v Praze, Národní technická knihovna a postupně další. Prostřednictvím hlášení NK ČR se do registru dostaly i záznamy dokumentů digitalizovaných v jiných knihovnách rámci programu Ministerstva kultury VISK 7 (Národní program mikrofilmování a digitálního zpřístupňování dokumentů ohrožených degradací kyselého papíru – Kramerius). Později tyto knihovny začaly posílat hlášení své digitalizace samy - přidělení prostředků z programu VISK 7 je nadále podmíněno nahlášením do RD. Zpočátku bylo se zasíláním dat dost problémů; poté, co byly vytvořeny a odladěny importní programy, se situace výrazně zlepšila. Že je to projekt slibný, to si uvědomila poměrně brzy i knihovnická veřejnost: v roce 2010 dostal RD cenu konference Inforum.
V roce 2011 projekt končil a bylo třeba najít garanta dalšího fungování registru. Zodpovědnost za registr digitalizace převzala NK ČR: stará se o obsahovou stránku registru, informační stránky a komunikaci s uživateli. Správce RD zajišťuje příjem dat a dle možností se věnuje revizím záznamů a doplňování údajů. Po softwarové stránce RD nadále spravuje firma INCAD na základě smlouvy o údržbě. Financování zajišťuje nyní účelová dotace Ministerstva kultury: pokrývá údržbové poplatky a je zde i menší částka na rozvoj. O dalším vývoji a úpravách systému rozhoduje vývojový tým složený ze zástupců NK ČR, KNAV a MZK.
Kontrola na duplicitu a číslo ČNB
Již v průběhu řešení původního projektu se ukázalo, že jak přibývá digitalizujících institucí, bude víc a víc nabývat na významu funkce registru jakožto nástroje pro zamezení nežádoucí duplicitní digitalizace. Při digitalizaci malého počtu dokumentů samozřejmě stačí „hlavoruční“ prověření ve vyhledávacím rozhraní registru, u digitalizace většího rozsahu je ovšem žádoucí kontrolu na duplicitu automatizovat, tj. učinit ji součástí importních procedur. Jak ale dokument jednoznačně identifikovat? Novější dokumenty obvykle mají ISBN nebo ISSN, ale digitalizují se převážně dokumenty starší. U starých novin a časopisů bylo dodatečně přiděleno ISSN, pro knihy podobné řešení nepřipadalo v úvahu. Počátkem roku 2010 byl tedy právě pro účely digitalizace zaveden nový identifikátor - číslo České národní bibliografie (čČNB). Číslo se přiděluje publikovaným dokumentům české provenience vydaným po r. 1800 (nepřiděluje se starým tiskům a tzv. šedé literatuře, která do české národní bibliografie nepatří). Pokud by bylo čČNB používáno správně a bylo součástí všech záznamů v RD, které na toto číslo mají nárok, mohl by RD duplicity tam, kde jsou nejvíc pravděpodobné, spolehlivě odhalovat. (Zahraniční nebo šedá literatura není v digitalizaci příliš častá.)
S číslem ČNB, přestože je jeho úloha v digitalizaci nepopiratelná, to ovšem není vůbec jednoduché. Na počátku bylo přiděleno všem dokumentům obsaženým v databázi ČNB, spravované Národní knihovnou. Tím ho zároveň dostaly všechny dokumenty, které NK ČR digitalizovala, a pomocí „převodníku“ přes identifikátor záznamu (pole 001) ho bylo možno doplnit i k záznamům v RD. K záznamům jiných knihoven, které již v registru byly, však tak snadno doplnit nešlo, takže v RD bohužel zůstal i nezanedbatelný počet záznamů, které čČNB nemají a nejspíš nikdy mít nebudou. Problém je i v tom, že lze těžko knihovny do registru přispívající donutit, aby si před hlášením do RD čČNB pro své záznamy opatřily. Není to pro ně vždy zcela jednoduché, přestože NK ČR poskytuje zájemcům exporty ze souborného katalogu, které umožní dávkový přenos čísel ČNB do lokálního katalogu (opět „převodníkem“ přes pole 001). Hlavní problém je v tom, že NK ČR veškerou domácí produkci ve svém fondu nemá, a tudíž některé dokumenty, které chce jiná knihovna digitalizovat, v bázi ČNB nemusí být podchyceny. V těchto případech je třeba o přidělení čČNB nejprve NK ČR požádat, obdobně jako se žádá u seriálů o zpětné přidělení ISSN. Situaci komplikují další faktory: existence duplicit v bázi ČNB a problém vícesvazkových monografií bez vlastních názvů, které by měly být popisovány shora na jediném záznamu. Při likvidaci duplicit a spojování záznamů na soubor se sice žádné číslo ČNB neztratí, protože je převedeno jakožto neplatné na zachovávaný záznam, ale toto se automaticky do již existujících záznamů v RD nepromítne.
Registr digitalizace se musí chtě nechtě smířit s faktem, že kontrola duplicity není dokonalá. Aby se zvýšila pravděpodobnost nalezení duplicity, importní program kontroluje nejen čČNB (platná i neplatná), ISSN a ISBN, ale také záznamy porovnává na kombinaci autor + název + rok vydání. Pokud se objeví pravděpodobná duplicita, systém záznam uloží se zvláštním statusem „k revizi“ neboli „pravděpodobná duplicita“ a na kontaktní e-mail odešle ve zprávě o výsledku importu také seznam těchto duplicit. Pracovník knihovny by pak měl rozhodnout, zda se dokument bude či nebude digitalizovat, a podle toho záznam z RD buď vyřadit, nebo mu změnit status (pokud má editační práva, může to provést sám, pokud ne, požádá správce registru).
V posledních dvou letech, kdy byla spuštěna masová digitalizace v rámci NDK (Národní digitální knihovna, projekt NK ČR a MZK) a rozběhly se krajské digitalizace, zachycuje importní program potenciální duplicity poměrně často. Bohužel se však stává i to, že je dokument do RD nahlášen až poté, co již prošel půlkou digitalizačního zpracování, a s duplicitou se již nedá nic dělat. Při hlášení digitalizace až po dokončení kontrola na duplicitu pochopitelně ani neprobíhá. Proto je velmi důležité nahlásit digitalizaci včas, již v okamžiku výběru dokumentu pro skenování, nebo dokumenty předběžně rezervovat jakožto „plánovanou digitalizaci“. To je velmi užitečné zejména tam, kde se dá očekávat, že by dokument mohl chtít digitalizovat někdo jiný. Digitalizace NDK, zejména „pražská větev“, je teritoriálně zaměřena na území celé ČR a nemá žádné časové ani obsahové vymezení, takže se může střetávat s jakoukoli jinou digitalizací. U krajských digitalizací moravských regionů, Jihomoravského kraje, Zlínského kraje a kraje Vysočina, zase není vyloučen regionální překryv (navíc ještě vůči digitalizaci moravik v MZK). Úplně nejdůležitější je, aby byly ještě před zahájením digitalizace na duplicitu prověřeny a nahlášeny noviny a časopisy – duplicitní digitalizace by v tomto případě byla skutečně velkým mrháním prostředky.
Jak může digitalizátor postupovat, když před zahájením digitalizace zjistí, že je dokument již v RD evidován se siglou jiné instituce? Záleží na tom, zda jde o již hotovou nebo probíhající digitalizaci či o pouhou „rezervaci“ dokumentu, o monografii či seriál, a konečně též na tom, kdo je či bude vlastníkem digitálního dokumentu. Z informačních stránek RD lze zjistit, na koho je třeba se případně obrátit – udržuje se zde přehled institucí i s kontaktními osobami včetně e-mailů. V případě statusu dokumentu „plánovaná digitalizace“ je vhodné se s druhou institucí domluvit – leckdy na digitalizaci trvat nebude. U novin či časopisů je možné dohodnout dělbu práce a výměnu dat, pokud titul vycházel dlouhou dobu a digitalizace bude časově i finančně náročná. Jestliže však je s druhou institucí špatná domluva, data neposkytuje nebo vyrábí „obrázky“ ve špatné kvalitě, nejspíš digitalizátor dokument nevyřadí, což je vcelku pochopitelné.
Zasílání dat
Je potěšující, že po překonání „dětských nemocí“ se spolupráce s přispívajícími institucemi úspěšně rozvíjí. Zapojily se krajské digitalizace, přidávají se instituce digitalizující z vlastních prostředků. RD nyní umí přijímat data zasílaná v různé formě, takže si přispívající instituce může vybrat, co je pro ni nejjednodušší. Zcela či částečně automatizovaně, exportem z lokálního katalogu ve formátu MARCXML, zasílají průběžně data nejen knihovny se systémem Aleph, které mají k dispozici „polotovar“ exportního programu, ale i jiné, např. SVK Kladno. Městská knihovna v Praze obnovila spolupráci tím, že znovu zprovoznila sety ke sklízení dat přes protokol OAI-PMH. Také u digitalizace menšího rozsahu je tu pokrok: nový způsob hlášení exportem ze souborného katalogu postupně nahrazuje zasílání hlášení tabulkou s vybranými údaji (pro přispívající instituci i pro správce RD nejméně pohodlný způsob hlášení). I to sice vyžaduje jistou práci s vyplněním formulářů, ale není již potřeba přenášet bibliografické údaje a navíc je informace o digitalizaci zachycena v dalším „knihovnickém“ zdroji. Také s číslem ČNB se přispěvatelé většinou úspěšně vypořádali. (Je ovšem otázkou, kolik digitalizujících institucí právě kvůli různým obtížím radši do RD nepřispívá vůbec). O tom, jakými způsoby je možno do RD přispívat a jak získat čČNB, najde zájemce podrobnosti na informačních stránkách registru, které jsou sice poněkud primitivní, ale plní svůj účel.
V současnosti je v registru digitalizace evidováno 75 vlastníků digitalizovaných dokumentů (knihovny, muzea, archívy apod.). Jsou zde zahrnuty i instituce, které se zapojily do krajské digitalizace jedním či několika tituly, protože knihovna, která krajskou digitalizaci koordinuje, považuje za vhodnější posílat hlášení za jednotlivé vlastníky primárních dokumentů samostatně, zatímco jiné krajské digitalizace hlásí vše pod jedinou siglou. RD již obsahuje téměř 136.000 záznamů; toto číslo však nemá velkou vypovídací hodnotu, protože digitalizaci periodik a novin je možné do RD hlásit buď po jednotlivých ročnících, nebo kumulovaně (podle vlastní potřeby). Po přepočítání periodické literatury na titul získáme následující údaje: ke 20.3.2014 bylo v RD celkem 111.192 titulů, z toho je 2.806 titulů novin, časopisů a sborníků (ne vždy však digitalizovaných v plném rozsahu vycházení); ostatní představují převážně knihy, v menší míře staré tisky, hudebniny a mapy. Největší objem dat přichází z NK ČR a MZK v rámci projektu NDK. Záznamy NK ČR, která již předtím digitalizovala z prostředků VISK 7 a tzv. Norských fondů, představují téměř 50 %. Velký počet titulů má v RD také KNAV a Městská knihovna v Praze. (Podrobnější údaje viz statistika titulů na informačních stránkách.)
Uživatelské rozhraní
Zdá se tedy, že registr digitalizace svou hlavní, evidenční funkci, plní poměrně dobře. Trochu horší je to zatím s množstvím a spolehlivostí informací, které poskytuje z uživatelského rozhraní. Zejména jde vyznačení stavu digitalizace (barevné odlišení hotové, probíhající a plánované digitalizace), které ne vždy odpovídá skutečnosti. Ti, kdo správně svou digitalizaci nahlásili už na počátku, ne vždy posílají po skončení digitalizace URL na digitální dokument, aby se do záznamu doplnilo a změnil se stav na dokončenou digitalizaci. Zatím je možné dodat URL buď opakovaným hlášením (s označením souboru jako hotová digitalizace), nebo tabulkou obsahující pole 001 a příslušné URL. (Pokud má pracovník přispívající instituce editační práva a „jeho“ záznamů v RD je málo, může URL dodat a stav změnit i online). Jiným nedostatkem RD je také skutečnost, že poměrně značné množství záznamů obsahuje jen základní identifikační údaje – jde o veškerá hlášení zasílaná tabulkami. U starších záznamů NK se postupně doplňují nakladatelské údaje pomocí speciálního „opravného“ programu, který slouží mj. také k doplňování neplatných čČNB, nezbytných pro kontrolu duplicit. Naštěstí RD nabízí prokliknutím přes čČNB přístup do báze ČNB nebo přes identifikátor do lokálního katalogu, kde si může uživatel ověřit, zda skutečně jde o dokument, který hledal.
Pokud jsou v RD i URL na digitalizované dokumenty, které nejsou chráněné autorským právem, získá uživatel i přímý přístup k dokumentu; URL si pak může třeba uložit do vlastního katalogu nebo webových stránek. Kromě „kontroly na duplicitní digitalizaci“ může být RD využit také k navázání kontaktu mezi institucemi za účelem poskytnutí dat k replikaci v případě, že daný dokument je chráněn autorským právem (za předpokladu, že žádající knihovna má primární dokument také ve svém fondu). Poskytování dat k replikacím je bohužel trochu problém: nejsou jednotná pravidla, záleží vždy na ochotě konkrétní instituce a vše se realizuje individuálními dohodami. Kdyby v tomto směru došlo k nějakému posunu, RD by se v budoucnu mohl stát centrem pro zprostředkování replikací, obdobně jako je Souborný katalog ČR využíván pro MVS.
Uživatelské rozhraní je primárně určeno digitalizujícím institucím, i když může sloužit i konečným uživatelům. Ve většině případů se hledá konkrétní dokument. Uživatelské přívětivosti je paradoxně na škodu fakt, že pro vyhledávání slouží velmi sofistikovaný nástroj FAST, který vyhledává i podle různých tvarů příslušného slova (lemmatizace) a nabídne i vyhledání slov „podobných“. Při zadání slov z názvu do obecného vyhledávacího okénka (zvláště je-li název krátký a slova spíše obecnější) bývá uživatel zmaten množstvím vyhledaných záznamů, mezi nimiž ten jeho dokument leckdy nakonec není. Záznamy jsou sice řazeny podle relevance, ale zcela dokonale nastavit její pravidla nebylo možné. Lepší výsledky přináší vyhledávání z konkrétních polí. Uživatelskému rozhraní by stejně jako informačním stránkám prospěl redesign, ovšem při omezeném množství finančních prostředků jsou zde pravděpodobně vyšší priority.
Budoucnost v propojení systémů
Výrazným přínosem pro lepší fungování registru by mohlo být jeho další propojení s ostatními systémy, které fungují v procesu digitalizace. Již v rámci původního projektu byly pro RD připraveny některé funkcionality, které jsou zatím využívány v omezené míře: webová služba pro komunikaci s externími systémy (využívaná např. v NDK) nebo harvester pro sklízení dat z digitálních knihoven (Kramerius 4). Právě využití harvestru by mělo umožnit automatické doplňování URL po dokončení digitalizace, takže by se nemuselo doplňovat opakovanými importy.
Automatizovaně by také mohlo v budoucnu probíhat zpětné předávání URL digitalizovaného dokumentu do lokálních katalogů i souborného katalogu, tj. obráceně než dosud – samozřejmě za předpokladu, že je ve všech systémech uložen neměnný identifikátor záznamu z lokálního katalogu, tj. pole 001. Do jisté míry by se daly automatizovat i aktualizace záznamů v RD v případě, že dojde k významnější změně záznamu v lokálním katalogu či v bázi ČNB. Na druhé straně by měl být RD brzy „osvobozen“ od sledování digitalizačního workflow, což v současnosti využívá jen KNAV, protože NK ČR již má v rámci NDK pro tento účel zvláštní software. Tuto funkci mají převzít lokální instalace systému RDflow, vyvíjeného v rámci projektu Česká digitální knihovna, které si budou vybraná data s centrálním registrem předávat.
V současnosti funguje spolupráce systémů při digitalizaci tam, kde je to maximálně automatizované, jako např. v rámci NDK, zhruba podle následujícího schématu:
Spolupráce systémů při digitalizaci (současný stav)
A takto by mohl vypadat cílový stav, pokud projekt ČDK splní očekávání a rozběhne se i Centrální portál knihoven, který by měl zastřešit všechny klasické i digitální zdroje:
Spolupráce systémů při digitalizaci (cílový stav)
- Foltýn, Tomáš. Registr digitalizace CZ. ITlib : Informačné technológie a knižnice [online], 2010, 2. ISSN 1336-0779. Dostupné z: http://itlib.cvtisr.sk/archiv/2010/2/registr-digitalizace.cz.html?page_i...
- Jirků, Lucie. Úvodem, aneb, Digitalizace není jen skenování. U nás: knihovnicko-informační zpravodaj Královéhradeckého kraje, 2012, 22(3), s. 28-30. ISSN 0862-9366. Dostupné také z: http://www.svkhk.cz/SVKHK/u-nas-pdf_archiv/20120316.pdf
- Lhoták, Martin. Registr digitalizace CZ. Čtenář, 2010, 62(10), s. 351-353. ISSN 0011-2321. Dostupné také z:
http://ctenar.svkkl.cz/clanky/2010-roc-62/10-2010/registr-digitalizace-c... - Švástová, Pavla. Registr digitalizace. Duha: informace o knihách a knihovnách z Moravy, 2010, 24(3-4), s. 11-13. ISSN 0862-1985. Dostupné také z: http://duha.mzk.cz/clanky/registr-digitalizace