Digitální univerzitní repozitář Univerzity Karlovy v Praze včera, dnes a pozítří
Univerzita Karlova v Praze (dále jen UK) začala budovat vlastní Digitální repozitář v roce 2006, a to v rámci Transformačních a rozvojových projektů Ministerstva školství, mládeže a tělovýchovy České republiky. Cílem bylo zlepšení dostupnosti digitálních dokumentů (jako jsou např. závěrečné práce, studijní materiály, periodika, vědecké články a příspěvky do sborníků, digitalizované historické dokumenty apod.) vytvořených na UK v souladu s požadavky na jejich dlouhodobou ochranu a archivaci.
Jako ideální řešení se na svou dobu ukázalo budování Digitálního univerzitního repozitáře (dále jen repozitář) v softwaru DigiTool. Již tehdy umožňoval zpřístupňování nejrůznějších typů digitálních objektů, ať už v textových, obrazových, audio nebo video formátech a integraci metadatových standardů pro digitální knihovny (Marc21, Dublin Core, METS, PREMIS apod.). Samozřejmostí byl i protokol OAI-PMH, XML, SOAP či přidělování jedinečného identifikátoru Handle. Přínosem je i bezproblémová spolupráce s ostatními knihovními aplikacemi – zejména se systémem Aleph, v němž je budován (Centrální katalog UK). DigiTool dále podporuje systém jednotného přihlášení (Single Sign-On) nebo autentizaci uživatelů pomocí systému LDAP pro vzdálený přístup k digitálním objektům. Díky grantu CESNET byla možná „shibboletizace“ všech knihovních aplikací, které jsou ve zprávě Ústavu výpočetní techniky.
V repozitáři lze objekty plnotextově indexovat a pomocí indexů v nich vyhledávat a členit je do nejrůznějších sbírek. Uživatel může digitální objekty vyhledat pomocí jednoduchého nebo pokročilého dotazu, případně prohledávat jednotlivé dokumenty (ve stromové struktuře) jako v katalogu. Systém dále umožňuje definovat přístupová práva pro různé dokumenty a sbírky - jeden dokument či sbírka může být zcela přístupná komukoliv z internetu (tzv. režim open access), v jiné sbírce lze zpřístupnit pouze popisná metadata a objekty jen po přihlášení oprávněných uživatelů a další může být dostupná jen z rozsahu stanovených IP adres (například z počítačů jedné fakulty nebo jen její knihovny).
V současné době je v repozitáři archivováno několik digitálních sbírek, z nichž největší a nejnavštěvovanější je sbírka závěrečných kvalifikačních prací.
Úvodní obrazovka Digitálního univerzitního repozitáře
Digitální knihovna závěrečných prácí v Digitálním univerzitním repozitáři
Závěrečné práce v elektronické podobě se na UK sbíraly a vkládaly do repozitáře již od roku 2006, neexistovalo ale propojení s Informačním systémem UK (dále i jako IS). Dokumenty byly vkládány manuálně v knihovnách. Bibliografické záznamy ve formátu Marc21 byly přebírány z Centrálního katalogu (v systému Aleph) a připojovány k digitálním objektům. Ve většině případů též chyběly posudky vedoucího a oponenta práce.
Situace se radikálně změnila s opatřením rektora č. 39/2009 a č. 6/2010. Bylo rozhodnuto o sjednocení přístupu všech fakult k odevzdávání elektronických verzí vysokoškolských kvalifikačních prací a bylo zavedeno jejich povinné odevzdávání přes IS a zpřístupňování přes repozitář. Opatření dále ukládají fakultám povinnost doplnit elektronickou podobu všech prací obhájených v roce 2006 a později. Životní cyklus zpracování závěrečných prací je popsán v dokumentu Evidence a zveřejňování závěrečných prací (metodický materiál) (dále jako Metodický materiál).
Po obhajobě práce jsou k ní přiloženy oba posudky a záznam o průběhu obhajoby. Práce takto zkompletovaná je považovaná za zfinalizovanou. Taková práce je do 21 dnů exportována do repozitáře. Exportují se všechny digitální objekty náležící k jedné práci (plný text práce, oba posudky, záznam o průběhu obhajoby a případné přílohy), technická a popisná metadata a index pro plnotextové vyhledávání. V DigiToolu jsou práce zpřístupňovány jako komplexní objekt (intelektuální entita) složený z více souborů (datový model repozitáře plně respektuje datový model PREMIS).
Následně se z DigiToolu exportují popisná metadata ve formátu MARC XML do systému Aleph. V průběhu importu se odesílají do jednotlivých knihoven e-maily, které informují pracovníky o tom, že do Centrálního katalogu byly vloženy nové práce z jejich fakult. Záznamy je možné obohacovat o předmětová hesla, MDT a Konspekt a přidávat informace o tištěné verzi. URL s odkazem na elektronickou verzi je do záznamů vkládáno automaticky při importu.
Po každém importu prací do knihovního systému je zpět do IS odeslán mapovací soubor, kde je uveden výpis s počtem nově importovaných prací a také počet prací celkem. Pokud se při importu vyskytne chyba, např. chybějící PID z repozitáře nebo chybějící ID Informačního systému, objeví se ve zprávě (mapovacím souboru).
V IS jsou každé exportované práci přiděleny jedinečné identifikátory jak z IS, tak z repozitáře a Centrálního katalogu. Pokud je potřeba práci aktualizovat např. proto, že je chyba v popisných metadatech (nejčastěji se jedná o překlepy v názvech prací), záznamy pro aktualizaci jsou v jednotlivých systémech vyhledány právě na základě jednoznačných identifikátorů. Tím je i zabráněno vzniku duplicit.
Struktura digitální reprezentace závěrečné kvalifikační práce
Samotný digitální objekt uložený v repozitáři se skládá z několika částí, které společně tvoří tzv. intelektuální entitu odpovídající jedné kvalifikační práci. Tato entita je obvykle tvořena samotným textem práce, posudky vedoucího a oponenta a abstraktem – vše ve formátu PDF. V případě, že kvalifikační práce je vybavena přílohou, je uložena i ta, a to v původním formátu. Pokud příloha obsahuje osobní či jinak citlivé údaje, je uložena pouze v archivním režimu a není zpřístupněna běžnému uživateli. Textové části objektu jsou indexovány za účelem plnotextového vyhledávání.
Jako formát popisných metadat je z technických důvodů (synchronizace s IS a Centrálním katalogem) využíván formát MARC XML. V repozitáři samotném je pro každý objekt generován záznam technických metadat, a to pomocí nástroje JHOVE. Kromě toho jsou objekty opatřeny i metadaty mapujícími historii změn objektu.
Samotná politika přístupu ke kvalifikačním pracím rozlišuje dva základní režimy: práce obhájené v roce 2006 a později jsou přístupné na základě registrace a souhlasu s licenčními podmínkami, práce obhájené před rokem 2006, jsou pak přístupné pouze studentům a zaměstnancům Univerzity Karlovy v Praze.
Po přechodu na jednotné přihlášení (single sign-on) pomocí technologie Shibboleth nastal problém s externími uživateli. Systém DigiTool při zapojení Shibboleth neumožňuje pracovat jak s údaji vedenými v Centrální autentikační službě, tak s interní databází, pomocí které se dříve externí uživatelé přihlašovali. Bylo tedy nutné interní databázi externistů importovat do Centrální autentizační služby. Ta však nesplňovala bezpečností podmínky CAS a organizace Cesnet. Než se povedlo problém vyřešit, museli externí zájemci o závěrečné práce využít tištěnou podobu v knihovnách UK. V současné chvíli probíhá přihlašování externistů bez větších obtíží. U některých závěrečných prací bylo odloženo jejich zveřejnění a plný text práce proto není v repozitáři přístupný. Poznámka o nepřístupnosti elektronické verze práce je součástí popisných metadat a v repozitáři i v Centrálním katalogu se zobrazuje v plném zobrazení bibliografického resp. metadatového záznamu. Ani jeden z používaných systémů neumožňuje tuto skutečnost nějak graficky zvýraznit, a tak se stávalo, že poznámku o nepřístupnosti práce přehlédl jak uživatel, tak knihovník. Jediným řešením, v rámci zobrazení metadatového záznamu, bylo přesunutí poznámky.
Zobrazení kvalifikační práce s posudky a abstrakty
Úpravy v Centrálním katalogu
Vkládání prací přes IS je prioritně určeno pro bakalářské, diplomové, rigorózní a dizertační práce obhájené v roce 2006 a později. Tyto dokumenty už nejsou zpracovávány v Centrálním katalogu, a to z důvodu prevence vzniku duplicit. Práce jiného typu (habilitační, postupové, závěrečné práce celoživotního studia apod.), stejně jako práce obhájené před rokem 2005 se mohou zpracovávat bez omezení.
O nově importovaných pracích dostanou katalogizátoři zprávu pomocí e-mailu. Zpráva obsahuje název práce, jméno autora a katedru, na které byla práce obhájena, datum obhajoby a výsledek obhajoby. Nově importované záznamy je možné obohacovat o předmětová hesla, Konspekt, MDT, nejrůznější poznámky a o informace o tištěné verzi, pokud jí knihovna má ve fondu.
Chyby, jako např. překlepy v názvech závěrečných prací, je nutné opravit přímo v IS, aby byla chyba odstraněna nejen z Centrálního katalogu, ale i z Informačního systému a repozitáře. Po opravě překlepu je práce znova zfinalizována a následně se bibliografický záznam zaktualizuje jak v repozitáři, tak v Centrálním katalogu.
Současný stav a řešené problémy
První práce začaly automatizovaně propadat do jednotlivých systémů v září 2010. Jednalo se o výstupy z Fakulty humanitních studií UK. Již během prvních měsíců fungování systému byla většina nejasností a problémových oblastí odladěna. Problémy se vyskytly při exportech z IS (vyladění importních skriptů pro vkládání prací do repozitáře), a také bylo nutné upravit některé nejasnosti ve formátu Marc 21. Dnes vše běží bez komplikací a přes IS propadlo již více než 16 tis. prací (včetně prací neobhájených).
Záznamy prací odevzdáváme do Národního úložiště šedé literatury. Komplikací je však nejednotnost záznamů - před sjednocením importu závěrečných prací přes IS byly totiž k záznamům připojovány záznamy z Centrálního katalogu. I když metodika podoby záznamu závěrečných prací existovala, ne vždy byla dodržena. Možnosti hromadných oprav metadatových záznamů jsou však v repozitáři omezené. Nicméně Metodický materiál (viz výše) ukládá fakultám povinnost doplnit všechny práce obhájené od roku 2006 i s posudky (v elektronické podobě). Protože update práce v repozitáři probíhá v podstatě pomocí kompletní náhrady objektu i metadat, záznamy se tak výhledově automaticky sjednotí a doplní o údaje o datu obhajoby a o výsledek obhajoby.
Statistiky využívání jsou generovány pomocí open source nástroj BIRT, který je implementovaný přímo do DigiToolu. Nově se chystáme zveřejňovat přehledy nejvyhledávanějších závěrečných prací.
Historické dokumenty Archivu UK
Sbírka zahrnuje listiny, matriky, pečetě a protokoly ze 14.-19. století. Samotná digitalizace probíhala už od roku 2004 ve spolupráci se specializovanou firmou. Při samotné digitalizaci byl ke každému objektu vytvořen metadatový popis ve formátu MASTER, který je ovšem pro zpřístupňování veřejnosti příliš složitý. Proto ve spolupráci s Národní knihovnou byla vytvořena konverzní tabulka do formátu Dublin Core. Přesto byl formát MASTER zachován v archivním režimu u každého objektu. Dle požadavků Ústavu dějin Univerzity Karlovy byl přístup ke sbírce z počátku omezen pouze na IP adresy Archivu UK. Postupem času byla část sbírky otevřena a zpřístupněná široké veřejnosti.
Knihovny významných osobností
Jedná se o digitální sbírku vytvořenou v rámci tříletého projektu „Informační systémy zpřístupňující knihovní celky osobností kultury jako součást národního kulturního dědictví". Knihovny osobností obsahují digitalizované části dokumentů (zejména monografií) ze sbírek významných osobností české kultury. Typicky byly v rámci projektu digitalizovány např. vpisky, poznámky či věnování vepsaná do knih. Jedná se o zcela unikátní kolekci shromažďující digitální verze dokumentů fyzicky pocházejících z celé řady sbírek. Projekt byl primárně realizován na Ústavu informačních studií a knihovnictví Univerzity Karlovy v Praze. Digitální univerzitní repozitář zde slouží jako zálohové úložiště dokumentů, které jsou vystaveny na stránkách Knihoven významných českých osobností. Software repozitáře je schopen poskytnout z dlouhodobého hlediska objektům lepší ochranu a zároveň je i vybaven standardními nástroji pro šíření metadatových záznamů o objektech (přes protokol OAI-PMH).
V případě knihoven osobností se jedná o tzv. komplexní objekty - jedna intelektuální entita (digitální jednotka) je tvořena více soubory (digitalizovanými stránkami), které jsou svázány metadaty ve formátu METS. Jako popisný formát byl vhledem k charakteru sbírky zvolen formát MODS. Dokumenty jsou přístupné v režimu open access a jsou zveřejňovány pod licencí Creative Commons.
Mapová sbírka Přírodovědecké fakulty UK
Mapová sbírka PřF UK (dříve Státní mapová sbírka) patří k nejvýznamnějším a nejrozsáhlejším univerzitním mapovým sbírkám ve střední a východní Evropě. Unikátní kolekce sestává z cca 130 000 map, 2 000 atlasů, 70 globů, 10 000 monografií a periodik a dalších dokumentů různých rozměrů na papíře, plátně i pergamenu. Jsou zde zastoupeny všechny významné evropské kartografické školy (nizozemská, francouzská, německá) i většina vynikajících kartografů od 16. století do současnosti. Najdeme zde podrobné mapy Česka, včetně různých alegorických či fiktivních vyobrazení, mapy zemí z Evropy, Asie, Afriky, Ameriky, Austrálie i z polárních oblastí, nákresy z bitev (např. plán bitvy u Waterloo cca z roku 1820), hydrologické, ortografické, lesnické, církevní, geologické, národopisné a astronomické mapy a plány. Většina z nich je nebo bude díky masové digitalizaci přístupná přes Digitální univerzitní repozitář jako objekty ve formátu METS s metadatovým popisem Marc21, shodným se záznamy v Centrálním katalogu.
V rámci digitalizačního workflow jsou vytvářeny originální archivní objekty ve formátu tiff a odpovídající technická metadata. V dalším kroku vzniká uživatelská kopie ve formátu jp2000 a následně je vytvořen strukturovaný objekt ve formátu METS. Pro tvorbu METSového záznamu (odpovídá specifikaci METSového profilu schváleného Kongresovou knihovnou) byl na Ústavu výpočetní techniky Univerzity Karlovy v Praze vyvinut speciální konverzní nástroj.
Historická sbírka knihovny Právnické fakulty UK
Digitální sbírka knihovny Právnické fakulty zahrnuje v současnosti historické prameny českého práva. Příkladem může být známý Koldínův městský zákoník. Aktuálně jsou všechny tyto dokumenty sdíleny v režimu open access. Jedná se o digitalizované dokumenty, jejichž zdrojovým formátem je tiff a pro uživatele je určen formát jp2000. Dokumenty jsou v repozitáři uloženy v metadatovém formátu METS a jsou doplněny popisným záznamem v MARC XML, který byl převzat z Centrálního katalogu UK.
Nejvýraznější skupinou objektů jsou jednotlivé ročníky Říšského zákoníku. Tento dokument jako celek má poměrně komplikovanou strukturu, která však bohužel při jeho digitalizaci nebyla dostatečně zohledněna, a je tedy třeba ji doplňovat dodatečně. V současné době probíhá ve spolupráci s knihovnou Právnické fakulty tvorba logické strukturální mapy objektu, která by měla uživatelům výrazně usnadnit práci se Zákoníkem.
Říšský zákoník v elektronické podobě
CERGE-EI
Sbírka obsahuje články z oboru ekonomických věd. Převážná většina textů je v anglickém jazyce a prostřednictvím protokolu OAI-PMH jsou poskytovány k dalšímu využití v projektu Economist online. Dokumenty jsou přístupné v režimu Open Access.
Další rozvoj Repozitáře
Jedním z rozpracovaných plánů rozvoje a zkvalitnění Repozitáře je zavedení trvalých identifikátorů Handle a URN:NBN (ve spolupráci s NK ČR). Pro větší využití Repozitáře bude vhodné povolit indexaci metadatových záznamů systémem Google. V příštím roce připravujeme kompletní archivaci (s aplikovanými pravidly pro dlouhodobou ochranu) fotografií univerzitního časopisu Forum.
Jsme otevření jakýmkoliv dalším digitálním či zdigitalizovaným materiálům UK, včetně velkých audio a video souborů, které můžeme zpřístupňovat přes Quicktime streaming server UK. V neposlední řadě bychom rádi zlepšili propagaci jak Digitálního repozitáře UK, tak Centrálního katalogu. Pro oba systémy máme vytvořenou skupinu na Facebooku a dokonce i vlastní blog.
Digitální repozitář Univerzity Karlovy v Praze obsahuje celou řadu zajímavých i užitečných elektronických informačních zdrojů a my doufáme, že i nadále bude stejným tempem pokračovat jeho úspěšný rozvoj.
Máme zde 1 komentář
klasicky "clanek"..
Drahe autorky, a kde mate neco o tom "pozitri"? Ta jedna veta na konci? :-D