Evropské katalogy datových zdrojů pro životní prostředí
V 90. letech minulého století se v Západní Evropě prosadila myšlenka vytváření datových katalogů v oblasti životního prostředí. Soubory dat o naměřených nebo pozorovaných veličinách, seznamy pozorovacích stanic, projekty zlepšení životního prostředí, účelové databáze, ale i strategické a osvětové dokumenty se staly předmětem shromažďování, registrace a zpřístupňování pomocí datového katalogu. Datové katalogy poskytují metainformace o datových zdrojích obdobně jako knihovní katalogy poskytují informace o knihovním fondu.
Iniciativa při vytváření datových katalogů vycházela z Německa a Rakouska [UDK]. V těchto zemích existují nejen národní katalogy, ale i katalogy jednotlivých spolkových zemí. Myšlenka datových katalogů byla přijata i v dalších zemích a později vznikl reprezentativní katalog Evropského společenství ETC/CDS [WebCDS]. V současnosti existuje v Německu, Rakousku, Švýcarsku a jinde řada vyšších verzí datových katalogů, mezi nimi i virtuální katalogy, viz např. [GEIN], [V_UDK], [UDK_Vienna]
Hlavními uživateli datových katalogů jsou pracovníci veřejné správy, odborníci, podnikatelé, ale i laická veřejnost. Přístup k cílovým datům je však odstupňován pro různé skupiny uživatelů. Přístup ke katalogům je bezplatný a katalogy jsou využívány odborníky na celém světě. Obsahová charakteristika zdrojů je vyjadřována nejen formou volně vytvářených klíčových slov, ale i jednojazyčných nebo vícejazyčných tezaurů. Katalogové systémy v oblasti životního prostředí mívají obvykle volně dostupnou dokumentaci a jejich rozvoj a údržba dále pokračují.
Tyto datové katalogy mají jednotnou a zajímavou technologii, která umožňuje individuální odlišnosti. Informační objekty jsou uloženy v relačním databázovém systému a uživatelské aplikace jsou vytvářeny v prostředí Java (servlety a/nebo aplety). Prostředky programovacího jazyka Java zaručují dobrou přenositelnost i bezpečnost a umožňují vytvářet interaktivní uživatelské rozhraní. Aplikace řeší problémy udržování stavových informací specifickými prostředky v prostředí Java. Napojení na relační databázový systém zajišťuje rozhraní JDBC (Java Database Connectivity). Pro aplikace v Javě je rozhodujícím činitelem výkon, neboť moduly v mezijazyce musí být interpretovány. Právě v systému ETC/CDS se podařilo vyvážit množinu funkcí a výpočetní výkon.
Tyto katalogy jsou zajímavé také řešeními v oblasti vícejazyčného indexování a vyhledávání informací a komunikace uživatele se systémem. Uživateli nabízejí volbu mezi interakcí pomocí html prohlížeče bez rozšíření a s rozšířením o Java aplety. Zajímavým nástrojem je geografický pohled na data pomocí mapy Evropy a jejích výřezů, s možností zvětšování/zmenšování zvolené oblasti.
WinCDS
WinCDS [Access] je aplikace v relační databázi Access a VisualBasicu, která slouží k registraci, zpětnému vyhledávání a aktualizaci metainformací, tj. informací o datových zdrojích v určitém místě nebo regionu. Datové zdroje jsou propojeny s adresami osob/institucí shromažďujících data a odpovídajících za jejich obsah a distribuci. Datové zdroje a adresy jsou specifické segmenty datového katalogu. Adresy a datové zdroje mohou být hierarchicky uspořádány (např. adresa organizace je nadřazena adrese osoby pracující v určitém oddělení této organizace). Shromážděná data se dále zpracovávají v centrální databázi.
Datové zdroje jsou rozděleny do tříd: projekt, datový soubor, dokument, stanice/místo, mapa, nástroj, strukturní element. Všechny třídy datových zdrojů mají určitou společnou množinu datových polí; každá třída má několik specifických polí.
Datovým souborem může být např. soubor naměřených hodnot výskytu škodlivých látek v ovzduší v určitém místě za stanovené období. Datový záznam o určitém objektu skutečnosti je označován a chápán jako datový objekt.
Množina datových polí umožňuje zachycení časových a prostorových detailů o objektech reality. Tato pole jsou považována za povinná a společná pro všechny třídy datových objektů. Naproti tomu technické detaily se mohou v jednotlivých třídách objektů lišit a odpovídající pole proto nejsou povinná.
V CDS je nástrojem věcného popisu adres i zdrojů tezaurus GEMET [ThesShow]. Systém umožňuje zavedení dalších tezaurů.
Existují tři způsoby vyhledávání v databázi WinCDS:
- textové vyhledávání pomocí polí formuláře s rozvíratelnými seznamy hodnot nebo s nabídkami k zaškrtnutí,
- procházení abecedního nebo hierarchického seznamu datových zdrojů nebo adres,
- tematický výběr pomocí jednoho nebo několika termínů z tezauru GEMET (termíny se nezapisují, pouze se přenášejí do selekční oblasti).
Každý dotaz se ukládá do tabulky a dá se znovu vyvolat. V r. 2001 byla aplikace upravena zavedením MS Access2000 [ETC/CDS]. Nové nástroje si vynutily úpravu uživatelského rozhraní a změnu kódování dat pomocí UNICODE.
Úloha tezauru a jeho funkce ve WinCDS 2001
Hlavní obrazovka aplikace WinCDS 2001 nabízí vedle práce se zdroji a adresami možnost práce s tezaurem, a to i v případě, že je databáze prázdná. Uživatelské rozhraní aplikace umožňuje výběr komunikačního jazyka (jazyk menu, formulářů, zpráv, atp.) a volbu jazykové verze tezauru GEMET 4.0.
Okno Term Lists and Thesauri poskytuje uživateli neobvyklý komfort při používání tezauru. Obsahuje řadu překrývajících se karet, které dovolují blíže charakterizovat termín a jeho vztahy k jiným termínům. Karet je tolik, že je nutno využívat šipek k jejich přesunu vlevo nebo vpravo. Jsou to: témata, definice, nadřazený deskriptor, podřazený deskriptor, synonymum, vybraný termín, překlad termínu do všech jazyků, asociovaný deskriptor, užij pro, poznámka o rozsahu.
Uživatel má k dispozici dva související seznamy termínů: hierarchický a abecední. Hierarchický seznam má stromovou strukturu s možností rozbalování a sbalování. V abecedním seznamu lze listovat. Jestliže vybereme určitý termín v abecedním seznamu, je strom automaticky nově zobrazen tak, aby ukazoval místo tohoto termínu v hierarchii. Pomocí pravého tlačítka myši lze zobrazit místní nabídky.
WebCDS
Péče o životní prostředí je mezinárodní záležitostí, proto po zkušenostech s aplikací WinCDS byla vytvořena nová aplikace, která umožňuje globální přístup k shromažďovaným informacím. Touto aplikací je WebCDS.
Architektura systému
Návrh systému byl založen na projekčních zásadách co největší nezávislosti na platformách, snadné rozšiřitelnosti a uživatelského komfortu. Detailní popis architektury lze najít na [WebCDS], odkud je převzato i schéma systému.
Systém tvoří tři vrstvy: uživatelská a dvě systémové. Uživatelská vrstva zahrnuje dvě varianty vybavení prohlížeče html stránek: prohlížeč rozšířený o Java aplety (J-CDS), který komunikuje prostřednictvím vzdáleného volání metod (RMI) přímo s WebCDS aplikačním serverem a holý html prohlížeč, který rozšiřující aplety nepodporuje. Jednoduchý prohlížeč komunikuje s CDS aplikačním serverem nepřímo, prostřednictvím Web serveru podporujícího servlety. CDS aplikační server komunikuje s relačním databázovým systémem (Oracle, MS SQL Server 7 a několik málo dalších).
Schéma ukazuje, že se oba servery nacházejí na jiném hostiteli. Ve skutečném provozu tomu tak zatím není.
Softwarové řešení je provedeno v prostředí programovacího jazyka Java. Požadavky od klienta převádí CDS aplikační server na příkazy SQL. Záznamy vyhledané v databázi balí do objektů a předává je přímo nebo zprostředkovaně klientům. Když doručuje výsledky CDS servlet, pak stačí jednoduchý grafický prohlížeč.
Práce v prostředí Java přináší různé výhody: jsou zmírněny nevýhody bezestavového protokolu http, spolupráce mezi relačním databázovým systémem a aplikací pomocí aplikačního programového rozhraní Java Database Connectivity (JDBC) je efektivnější a umožňuje vyšší interaktivnost. Java aplety jsou prováděny prostředky JVM v prohlížeči. Specifikace apletů zdůrazňuje bezpečnost, takže aplety nemohou samy přistupovat k lokálnímu souborovému systému, ani navazovat spojení se vzdáleným systémem.
Hlavní funkce
WebCDS zajišťuje navigaci v hierarchii informačních objektů (zdrojů a adres) uspořádané podle tezauru GEMET. Vyhledávání podle více kritérií podporují formuláře dvou typů: pro jednoduché a expertní vyhledávání. V zájmu lepší odezvy se rozlišuje vyhledávání datových zdrojů a adres. V obou případech je z formulářů dostupný tezaurus. Ten má vlastní prostředky navigace a vyhledávání, aby umožňoval výběr nejvhodnějšího termínu, který se přenese do dotazu.
Dotazy a výsledky lze ukládat do složek. Vyhledané informační objekty lze dále podržet a kumulovat je v množině vyhledaných objektů z různých dotazů nebo je zrušit. Zobrazení vyhledaných objektů je stručné nebo detailní. Množina vyhledaných objektů je uspořádána podle typu objektu a u každého typu je uveden počet objektů. Uživatel může zaškrtnutím zvolit, zda objekt umístí do tiskové složky či nikoli. K rozhodování o zařazení na výstup slouží detailní zobrazení objektu, tj. všech jeho atributů. Některé objekty obsahují URL odkazy, takže je možno získat dokumenty přímo ze sítě.
Realizace hlavních funkcí se liší v závislosti na použitém klientu: je-li používán html klient bez apletů, pak je komunikace se systémem pasivní. Systém sám onepozorovaněoe rozhoduje co a kde se bude vyhledávat, atp. Na jedné straně se zvyšuje pohodlí uživatele, na druhé straně se ztrácí porozumění a interaktivnost.
Vícejazyčné uživatelské rozhraní a vícejazyčné vyhledávání
Jestliže uživatel na domácí stránce CDS zvolí jeden z osmi možných jazyků rozhraní, jsou další jeho požadavky obslouženy ve zvoleném jazyce. V něm dostává vyhledávací formuláře a výsledky. Prezentace cílových dat v jazyce uživatele zajištěna není, neboť vyžaduje automatický překlad. Tvůrci systému však usilovali, aby systém poskytoval tolik možností překladu, kolik jen lze. Proto jsou atributy s nevelkou množinou hodnot překládány do všech podporovaných jazyků.
Vícejazyčné vyhledávání je založeno na dvou zásadách:
- Uživatel vyhledávající vhodné lexikální jednotky v tezauru a datové zdroje v katalogu, které byly indexovány pomocí tezauru, nemusí vědět, který jazyk byl pro indexování použit. Musí být přesto schopen vyhledat všechna data nezávisle na zvoleném jazyce.
- Deskriptory tezauru asociované s datovými zdroji nebo adresami musí být zobrazeny ve zvoleném jazyce uživatele, a nikoli v tom jazyce, v němž byla data původně indexována.
Hlavní menu, vyhledávací formulář pro odborníky a stručné na stránce WebCDS obsahuje obrázek. Stránka a její obsah jsou vytvářeny technologií servletů (Java programy na straně serveru). Uživateli stačí grafický prohlížeč html stránek. Nemusí se starat o případné doplnění a ověření prostředí o Java aplety. Některé funkční možnosti však nejsou v tomto případě realizovány.
Java klient (J-CDS) v katalogu CDS
Klient J-CDS byl navržen s cílem zajistit lepší interaktivnost, rozšířit možnosti vyhledávání v katalogu a lepší zobrazování nástrojů a výsledků vyhledávání.
Nové funkční možnosti zahrnují:
- navigaci v hierarchii informačních objektů (zdrojů a adres) uspořádané podle tezauru GEMET,
- vyhledávání objektů pomocí výřezů z mapy nebo na základě specifikace administrativních jednotek (obojí lze zadat pomocí úrovní),
- plnou integraci tezauru GEMET s vyhledávacími složkami.
Požadavky na rozšíření html prohlížeče
Instalace Java Plug-in
Prostředí Java 1.1 v html prohlížeči plně neodpovídá programům Java, které jsou využívány v CDS. Na straně klienta je nutno nainstalovat Java Plug-in, které definuje provozní prostředí JRE version 1.1.2 od firmy SUN. Jiná verze správně nefunguje. Určité nároky jsou také na prohlížeče html stránek.
Po výběru html stránky s tlačítkem Java Client na WebCDS serveru dostane uživatel html stránku obsahující dvě speciální značky OBJECT a EMBED. Obsah první značky umí interpretovat IE 5.0 a vyšší verze, obsah druhé značky pak Netscape 4.0 a vyšší verze. Při první interpretaci těchto značek dojde k automatickému stažení příslušného JRE na lokální počítač. Při dalším čtení stejné stránky pak html prohlížeč automaticky vyvolává JRE na lokálním počítači, čímž se zahájí komunikace mezi klientem a serverem.
Komponenta Java Plug-in umožňuje definovat důležité parametry J-CDS (viz obrázky Plug-in Properties).
Průchod firewallem
Druhou podmínkou je průchodnost portů 3000 - 3002, je-li klient umístěn za firewallem. Po automatickém nebo ručním stažení JRE 1.1.2 je třeba toto prostředí nainstalovat, zkonfigurovat a ověřit jeho funkčnost. Nastavení parametrů JRE 1.1.2 ukazují obrázky. Lze deklarovat i v prohlížeči, že nebude používán proxy server. Pomocí Java konzole lze protokolovat komunikaci mezi apletem a serverem.
Spojení pomocí volných portů 300x ukazuje výpis pomocí systémového programu nestat:
TCP n412h02:1058 www.mu.niedersachsen.de:3000 TIME_WAIT TCP n412h02:1059 www.mu.niedersachsen.de:3001 TIME_WAIT TCP n412h02:1071 www.mu.niedersachsen.de:80 TIME_WAIT TCP n412h02:1072 www.mu.niedersachsen.de:3000 TIME_WAIT
Funkce J-CDS
Pracovní plocha J-CDS může přijmout a zobrazit tři nezávislé funkční celky (aplety), jejichž možnosti lze kombinovat, a to:
- Navigator - je to vlastně vnitřní prohlížeč informačních objektů uspořádaných v hierarchii podle hierarchie tezauru GEMET a dovolující změnit pohled na objekt na detailní.
- Location - je geografický pohled na souhrn objektů umožňující výřezy z mapy Evropy na různé úrovni (celé Evropy, jednotlivých zemí nebo zvolených oblastí). Výřezy lze zvětšovat a zmenšovat.
- Keywords - umožňuje navigaci ve stromové struktuře tezauru GEMET, vyhledávání deskriptorů a synonym, detailní popis a překlad deskriptorů do 15 jazyků. Z tezauru lze vybrat jeden nebo více deskriptorů a pomocí nich vyhledávat v datových zdrojích. Pomocí jiného tezauru lze navigovat a vyhledávat v segmentu oadresyoe.
Na ploše je v nástrojovém pruhu ještě k dispozici tlačítko Help - (není aplet), které skutečně pomáhá uživateli při práci s klientem (např. vysvětluje význam některých ikon, význam jednotlivých operací l keep, compare, aj.).
Výsledky vyhledávání jsou ukládány ve speciálním okně a mohou být kumulovány se seznamem výsledků dalšího dotazu nebo s ním porovnávány (výsledek je logický průnik prvků starého seznamu a seznamu nových výsledků) nebo mohou být z okna prostě odstraněny.
Detailní informace zajišťuje vnitřní prohlížeč (také Java aplet) a tisk resp. ukládání vyhledaných objektů provádí Java aplet ve spolupráci s html prohlížečem (IE nebo Netscape).
Dále uvádíme důležitá okna ilustrující funkční možnosti klienta J-CDS.
Ukázka vyhledávání zdrojů podle místa a přehledu nalezených dokumentů.
Možnosti práce s tezaurem GEMET v klientu J-CDS ilustruje obrázek. Ikona s tečkami před deskriptory reprezentuje neprázdnou a ikona ve formě prázdného listu indikuje prázdnou množinu objektů.
Detailní výpis záznamu o dokumentu je obsahem dalšího obrázku. Položka oparentsoe obsahuje hypertextový odkaz na rodičovský dokument.
Při práci se systémem je vhodné zapnout Java konzolu, která pořizuje protokol o komunikaci mezi lokálním a vzdáleným počítačem. Může se stát, že se připojení vůbec neprovede nebo se nějaká komponenta nespustí, např. tezaurus. Výpis ukazuje úspěšně započatou komunikaci s CDS serverem.
Java(TM) Plug-in Using JRE version 1.1.7B User home directory = C:\WINDOWS User has overridden browser`s proxy settings. Proxy Configuration: Manual Configuration Proxy: Proxy Overrides: JAR cache disabled. Opening http://www.mu.niedersachsen.de/jcds/JCVS.zip no proxy Opening http://www.mu.niedersachsen.de/jcds/JCVSBeanInfo.class no proxy Opening http://www.mu.niedersachsen.de/jcds/sun/beans/infos/JCVSBeanInfo.class no proxy loading ... http://www.mu.niedersachsen.de/jcds/JCDS.properties Opening http://www.mu.niedersachsen.de/jcds/JCDS.properties no proxy RMI connecting to: rmi://195.37.204.97:3000/CDSServer connected!
Závěry
Evropské datové katalogy pro životní prostředí jsou významným zdrojem odborných informací pro specialisty i zainteresované laiky. Jsou volně přístupné a do jisté míry umožňují přístup k primárním datům.
Prostředí programovacího jazyka Java umožnilo vytvořit aplikace pro datové katalogy s dobrými možnostmi spolupráce s relačním databázovým systémem, katalogy s kvalitním uživatelským rozhraním, s uspokojivým řešením problému bezestavové komunikace a slušnou mírou bezpečnosti. Aplikace umožňují uživateli styk se systémem pomocí jednoduchého nebo rozšířeného html prohlížeče. Koncepce programového vybavení dovolila poměrně snadno realizovat virtuální katalog.
V praxi se osvědčil vícejazyčný tezaurus GEMET (i národní vícejazyčné tezaury), jak při indexování, tak při vyhledávání v katalozích; zdárně byla vyřešena obecnější otázka jazykové komunikace se systémem.