Digitalizace parlamentních tisků na konci tisíciletí
0 comments
Autoři:
Vydání:
Rubrika:
Dne 6. 11. 1998 se konal v Parlamentu ČR seminář Evropského centra pro parlamentní výzkum a dokumentaci pod názvem “Elektronická parlamentní knihovna - digitalizace historických parlamentních tisků a těsnopiseckých zpráv a jejich zpřístupnění na Internetu”. Jeho organizátory byla Parlamentní knihovna ve spolupráci s odborem informatiky Parlamentu ČR.
Co je ECPRD?
Evropské centrum pro parlamentní výzkum a dokumentaci (ECPRD - European Centre for Parliamentary Research and Documentation) bylo založeno v roce 1977 a jeho členy jsou v současnosti parlamenty čtyřiceti evropských zemí a sedmi parlamentů pozorovatelských zemí. ECPRD je kooperující orgán pracující pod záštitou Evropského parlamentu a Parlamentního shromáždění Rady Evropy. Představuje mezinárodní síť parlamentních dokumentačních středisek, knihoven a dalších odborů, které se zabývají shromažďováním a rozšiřováním informací. Jeho hlavním posláním je usnadnit kontakty a výměnu informací mezi úředníky členských parlamentů, kromě jiného také formou seminářů a pracovních workshopů. Seminář týkající se digitalizace historických parlamentních textů byl zorganizován především proto, aby se jeho účastníci seznámili s podobnými projekty v jiných parlamentech a zároveň navázali kontakty a vyměnili si zkušenosti.Digitalizace parlamentárií
V současné době probíhá nebo se připravuje digitalizace parlamentárií v několika evropských parlamentech. Důvodem k digitalizaci je většinou snaha zachovat cenné historické materiály, novým způsobem je archivovat a v následujících fázích také využít digitalizované texty k zefektivnění práce s parlamentáriemi a ke zpřístupnění těchto dokumentů širší veřejnosti. Všichni účastníci semináře se shodli na tom, že přestože je digitalizace velice nákladná, je to jeden z nejefektivnějších způsobů, jak v současné době zachránit unikátní fondy parlamentů. Restaurování starého papíru (odkyselení a další procesy související s konzervací tištěného dokumentu) je totiž několikanásobně nákladnější, klasické způsoby archivace (mikrofilmování) se v souvislosti s možnostmi využití digitalizovaných a elektronizovaných forem pomalu přežívají, i když se ještě dnes používají jako alternativní technologická metoda.Technické aspekty digitalizace
Technologický způsob zpracování se v jednotlivých parlamentech od sebe liší. Jako podklady k digitalizaci se volí přímo papírové předlohy, které se mohou skenovat (Český parlament) nebo ručně přepisovat (v Norském parlamentu zjistili, že některé historické těsnopisecké zprávy byly velice nekvalitní, text byl různě přeškrtáván, doplňován, opravován, takže ruční přepis byl mnohem levnější), anebo se jako podklad k digitalizaci používají mikrofiše (Chamber of Representatives v Belgickém parlamentu). V současnosti se texty konvertují do dvou formátů, PDF nebo HTML. Výhodou PDF formátu je zachování formátu předlohy (dokument v PDF formátu je vpodstatě naskenovaným obrázkem primárního dokumentu). To je velmi důležité např. v Belgickém parlamentu, kde je vizuální stránka digitalizovaného dokumentu považována za velice důležitou (všechna parlamentária jsou dvojjazyčná a text je rozdělen na každé stránce do dvou sloupců). Této grafické přednosti PDF formátu se využívá také tam, kde se chystají z digitalizovaných textů tisknout znovu celé dokumenty na kvalitnější papír (o takovémto řešení uvažuje Assemblée Nationale Francouzského parlamentu a také House of Commons Velké Británie). Nevýhodou souborů v PDF formátu je jejich velikost,, souvislý text musí být “rozsekán” na malé části (stránky) a není umožněno fulltextové vyhledávání klasickými fulltextovými nástroji (pokud nedojde k převodu PDF formátu do textové podobu pomocí OCR programů). Na rozdíl od souborů v PDF formátu mají HTML soubory přijatelnou velikost, lze v nich dobře fulltextově vyhledávat, umožňují bezproblémovou tvorbu hypertextových odkazů a poměrně jednoduše lze generovat různé indexy (např. obsahy). Hlavní nevýhodou HTML formátu je, že HTML dokumenty nekopírují formát primárních dokumentů (podle definice standardu ODA), a zejména pak také to, že při převodu textu z digitální podoby nelze (i při velice kvalitním OCR) zajistit stoprocentní bezchybovost. Problémem obou formátů pak zůstává zobrazení grafických částí textu, jako např. mapy, tabulky a dokumenty velkých formátů, které tvoří např. v Belgickém Chamber of Representatives celá 2% všech dokumentů připravovaných k digitalizaci, (od roku 1830). Stejný problém řeší také Parlament ČR v projektu Elektronické knihovny.Některé parlamenty, jako např. House of Commons ve Velké Británii nebo Rada Evropy, připravují převod dokumentů do obou formátů (PDF i HTML). Dokument bude převeden do PDF z důvodu copyrightu (Rada Evropy) nebo kvůli grafickému ztvárnění, tzn. že z HTML souboru bude existovat odkaz na jeho PDF verzi (House of Commons).Vyhledávání v digitalizovaných a elektronizovaných dokumentech
S velkým zájem se setkala v každém příspěvku otázka způsobu vyhledávání. Většinou totiž není problém vygenerovat z již digitalizovaných dokumentů nejrůznější indexy (např. chronologické rejstříky). Problém nastává až při věcném vyhledávání. Situace vypadá většinou tak, že parlamenty (stejně jako u nás) mají velice kvalitně zpracované papírové věcné rejstříky (např. retrospektivně i několik staletí do minulosti), které lze jednoduše digitalizovat, ale prolinkování s texty je nutné provádět ručně, čímž se podstatným způsobem zvyšují finanční i personální náklady na projekt. I když několik parlamentů tento postup připravuje, prozatím žádný konkrétní projekt nebyl uskutečněn. Některé parlamenty již delší dobu indexují své dokumenty pomocí některého tezauru (např. tezaurus OECD, EUROVOC) a v současné době se snaží nějakým způsobem začlenit tento způsob vyhledávání i do fulltextového hledání. Při podrobnější analýze možností věcného vyhledávání v jednotlivých projektech lze však dojít k závěru, že aplikace věcného vyhledávání v plnotextových databázích v oblasti parlamentárií je teprve na počátku. Ne všechny parlamenty zpřístupňují kompletně své digitalizované sbírky na Internetu. Např. House of Commons (HC) ve Velké Británii zpřístupňuje své digitalizované těsnopisecké zprávy (Hansards) na internetu od roku 1996 (na intranetu HC však s desetiletou retrospektivou - rozsáhlejší projekt digitalizace je pak plánován až na rok 2001). Norský parlament Stortinget vydal vlastním nákladem všechny digitalizované těsnopisecké zprávy z let 1901 až 1924 naopak pouze na CD-ROM.Závěry
Ze srovnání s projekty jednotlivých evropských parlamentů vyplývá, že český parlament patří mezi instituce, které v oblasti digitalizace parlamentárií pokročily nejdále v objemu a retrospektivě zpracovaných dokumentů, na druhé straně není doposud uspokojivě vyřešena možnost plnotextového vyhledávání, zejména vyhledávání s podporou tezauru. Je nutno podotknout, že tato otázka (věcné vyhledávání v plných textech s podporou tezauru) patřila na semináři k velice diskutovaným problémům, mezi které lze také zařadit otázku využití nových médií k archivaci dokumentů (diskutována byla životnost CD-ROM a další technologické aspekty archivačních nosičů), volbu vhodného formátu pro uložení dat, otázku strukturování dokumentů a vhodnost jednotlivých formátů (SGML, ODA) a další okruhy problémů. Nejdůležitějším výsledkem semináře je poznání, že parlamenty jednotlivých evropských zemí řeší v oblasti digitalizace dokumentů obdobné problémy, zvažují obdobné technologické postupy a formáty, setkávají se s obdobnými obtížemi při vyhledávání v elektronizovaných textech. Z tohoto hlediska se jeví perspektivní začít řešit některé metodologické nebo teoretické otázky na nadnárodní úrovni tak, aby byl efektivně využit potenciál jednotlivých národních pracovišť. V této souvislosti lze také uvažovat o podpoře této spolupráce Evropským centrem pro parlamentní výzkum a dokumentaci. Do konce tohoto roku budou vybrané příspěvky ze semináře zpřístupněny na WWW stránce Parlamentní knihovny ČR.
Projekty digitalizace parlamentárií v Evropě:
Belgie - The Chamber of Representatives – digitalizované texty
Parlamentní shromáždění Rady Evropy - některé digitalizované texty
Holandsko - Druhá komora - ukázka některých digitalizovaných textů, ostatní zpřístupňují pouze na intranetu
Francie - Assemblée Nationale -několik slov o chystaném projektu
Velká Británie - House of Commons - dokumenty od roku 1996
Parlament ČR - Elektronická knihovna
O projektu Elektronické knihovny v 7. čísle Ikara
Klíčová slova:
Hodnocení: