Teorie a praxe digitalizace - aneb vyvarování se současným nešvarům do budoucna
Úvod
Dne 15. listopadu 2017 se v dopoledních hodinách v Krajské knihovně Františka Bartoše ve Zlíně uskutečnil seminář, jehož náplní byly digitální knihovny, neb i v dnešní době jsou z velké části nepřehledné, složité a obtížně přístupné veřejnosti. V průběhu nás pan přednášející Jan Kaňka provedl spletitými cestami digitalizace knihovního fondu a jejím výstupem – digitálními knihovnami a jejich podobou. Seminář byl laděn praktičtěji, s příklady a podrobnými vysvětleními.
- Elektronický dokument – označuje se jím dokument, který již vznikl elektronickou cestou.
- Digitalizovaný dokument – dokument, který se z fyzického dokumentu reformátoval do digitální podoby.
Knihovny a digitální knihovny
Dříve nás knihovní katalogy dokázaly navézt pouze k fyzickému dokumentu. V dnešní době už nás dokáží přes odkazy dovézt i k plným textům elektronických a digitalizovaných dokumentů – digitalizátům.
Rozhraní digitálních knihoven má velký vliv na dnešního čtenáře a uživatele obecně. Na druhou stranu jsou omezení srovnatelná s klasickými knihovnami. K fondům obou knihoven se však dá celkem snadno dostat pomocí právě jejich knihovních katalogů.
Digitální knihovny vs. katalogy digitálních knihoven?
Za pár let už to možná nebude tak úplně pravda, ale v současné době není podoba digitálních knihoven zcela vstřícná. I když jsou ambice na to, aby digitální knihovny fungovaly jednak jako dokonalý knihovní katalog, který umí skvěle vyhledávat a bude spravovat a zpřístupňovat digitální dokumenty, stále jsou tyto dvě věci značně oddělené a nekonzistentní. Tyto dvě hlavní činnosti by měli fungovat jako jedna věc, jedna služba, navzájem propojena. Takový utopistický stav by byl za současných podmínek zaprvé neudržitelný z hlediska technického, zadruhé nerealizovatelný z hlediska metodického. Každá digitální knihovna se v současnosti profiluje podle svého zaměření tím nejlepším možným způsobem, a dává tím do budoucna velkou šanci na vytvoření jednoho celistvého portálu.
Současné digitální knihovny
Na běžného uživatele by dnešní situace, kdy katalog a digitální knihovna nejedno jsou, neměla mít takový vliv, neb i přes současný stav se každým dnem pracuje na sjednocení těchto dvou služeb. Uživatel je tak veden k jednomu rozhraní. Neměl by mít pocit, že vyhledává jednak v knihovním katalogu, druhak v digitální knihovně. Hledal by s pomocí jednoho vyhledávacího okénka ve fondu fyzickém a digitálním zároveň. Tato idea by měla být realizována na Centrálním portálu knihoven, k jehož splnění má ze všech českých portálů nakročeno nejblíže. K dnešnímu dni již z velké části je, neustále se pracuje na finální podobě a v období několika let již můžeme očekávat finální koncepci.
Převod do digitální podoby a změna formátu
Před lety se poprvé objevil pojem digitalizace v souvislosti s televizním vysíláním. Obecně, když mluvíme o digitalizaci, pak mluvíme o převodu něčeho fyzického, světa analogového, do světa digitálního. Tedy do světa nehmotných dat, něčeho, na co si nemůžeme sáhnout. Data jsou sice zaznamenána na hmotném nosiči (hardware), ale samotný digitalizovaný dokument (digitalizát) je nehmotný. Pojmem digitalizace se tedy rozumí čistě převod dokumentu.
Jedná se jinými slovy o digitalizaci dokumentu. Často to bývá spojeno s ochranným reformátováním, neboť digitalizace je jednou z metod ochrany původní předlohy dokumentu, kdy ta může být již poznamenána časem, čtenáři, kvalitou papíru a vazby. Ve chvíli, kdy vytvoříme digitalizát a nepoužijeme u toho metodu destruktivní digitalizace (kdy je hřbet knihy odříznut a jednotlivé strany jsou zdigitalizovány zvlášť), můžeme původní dokument bezpečně zakonzervovat, uložit do skladu, a tím pádem ho chránit. Je nutno podotknout, že ochrana digitalizátů a elektronických dokumentů obecně je oproti fyzickým dokumentům několikanásobně náročnější a hlavně nákladnější.
Například máme knihu, která ze zkušenosti vydrží odolávat zubu času neuvěřitelně dlouho v dobré kondici, a když se o ní pečuje a nehoduje na ní plíseň, pak je schopna přežít staletí.
U digitalizátů nemusí být náklady spojené s ochranou na první pohled viditelné. Většinu nákladů tvoří právě dlouhodobé uchovávání. Nejedná se jen o techniku (hardware) – serverovny, úložiště s vysokými permanentními energetickými nároky (svítím, topím, větrám). Systémy (software) pro uchovávání digitalizátů musí splňovat několik podmínek. Zaprvé musí být dobře zabezpečené, splňovat danou legislativu, mít zajištěný vývoj systému a s ním spojenou technickou podporu. Taková zařízení časem stárnou. V systémech, či spíše v datech samotných dochází k něčemu, co se označuje jako „Bitová hniloba“ – což je vlastně to samé jako ve fyzickém světě.
Příklad: Mám koš s jablky a v něm je mám poskládaná tak, aby se nemačkala mezi sebou, aby nevznikala hnědá kolečka, aby nezačala hnít. Bohužel to není úplně možné; jednou se někde plíseň začne šířit.
K tomuto doslovnému jevu dochází i v digitální podobě:
Příklad: V obrázku, který je složený z milionů bodů, které mají definovanou barvu a pozici, nastane chyba, několik bodů se svou informací barvy a místa zanikne a vzniknou slepá místa. Takto lze nenávratně přijít o zasažená data.
Může dojít k narušení struktury (akviziční struktury fondu, ale i digitalizátů samotných), což je problém srovnatelný s digitální hnilobou. Knihovny, které pracují s miliony digitalizátů, ve chvíli, kdy ztratí údaje o struktuře, stává se z digitálního fondu změť nesouvislých dat, která když knihovna neví, jak spolu souvisí, jsou v podstatě k nepotřebě. S tím se pojí další náklady na zálohování a tvorbu metadat (viz níže).
Digitální obraz a data, skenování a následná úprava
S tímto se pojí jedno velké nebezpečí. Pokud ukládáme digitalizáty v nějakém nejběžněji užívaném formátu, je tu dost velké riziko, že za několik let už třeba tak běžný nebude. Stane se zastaralým. Co pak s digitálním fondem, který je obtížně přístupný uživatelům? Nejpalčivěji se to dotýká obrazových dokumentů (obrázky, fotografie, obrazy…).
Podobenství se dá nalézt v přechodu z katalogizačních jazyků UNIMARC na MARC21. Dle mnohých knihovníků měl UNIMARC lepší strukturu, práce s ním byla snazší a lepší, ale skončila mu politická podpora a na scénu byl protlačen MARC21. Jak vidno, nezáleží pouze na technologickém řešení daného systému, ale hlavně na využívanosti, byť vynucené. Jedním z řešení může být, že si k jednotlivým formátům digitalizátů v knihovně nechají zařízení, které takový formát umí číst.
Příklad: Máme tedy v knihovně počítač 20 let starý, oprašujeme ho vysavačem, budou na něm staré Windows, na kterých rozjedeme námi používaný formát. Je jasné, že z dlouhodobého hlediska je takový postup neudržitelný. Je to relevantní pouze ve výjimečných případech.
Popis – metadata
Největším problémem metadat je jejich převádění do jiného katalogizačního jazyka a s tím spojená spolupráce mezi vícero katalogizačními jazyky. Každý katalogizační jazyk má zpravidla jinou syntaxi a celkovou strukturu zápisu a vedení metadat. Metadata jsou dělitelná do tří základních skupin, kdy pro uživatele jsou nejdůležitější a nejzásadnější popisná metadata. Volně řečeno se dají nazvat bibliografickým záznamem.
Administrativní a strukturální metadata řeší akvizici a ukládání a zpřístupňo-vání dokumentů v knihovním systému. Administrativní metadata se ještě dále dělí na
- archivační, která řeší to, jak je s daty nakládáno,
- technická popisují, na jakém zařízení skenování proběhlo, standardy, které byly využity v procesu akvizičním, dále zpracování, uchovávání a zpřístupňování dokumentů a
- právní, která obsahují pravidla zpřístupnění, jak je dokument chráněn, jakou má licenci…
Rozpoznání textu z obrazu – Optical Character Recognition (OCR) a Informace o struktuře stránky (ALTO)
Co zatím technologie neumožňuje, je plnotextové strojové vyhledávání v konkrétních digitalizátech – chybí software, který by uměl stoprocentně správně převézt soubor v pdf do textového souboru a vyhledávat v něm. V současnosti jsou takovéto programy velmi chybové, nedokáží si poradit s velkou škálou členění textu (odstavce v knize, novinové sloupce). Je to dáno také případnou nedokonalostí digitalizace původního dokumentu (špatná čitelnost písmen, křivý sken).
Digitální knihovny u nás
V současnosti u nás funguje několik digitálních knihoven. Mezi ty nejzdařilejší patří: Česká digitální knihovna, Digitální knihovna Národní knihovny (Kramerius 3, Kramerius 5 a Manuscriptorium) a Digitální knihovna MZK.
Závěr
Seminář nastínil účastníkům současnou situaci v České republice, přiblížil problematiku digitálních knihoven, jejich tvorby a správy. Na příkladech přednášející vysvětlil nutnost ochrany, zabezpečení a zálohování digitálního a digitalizovaného fondu.