V paralelních korpusech leží budoucnost srovnávací jazykovědy
Tým projektu Český národní korpus v pátek 6. září 2013 na Filozofické fakultě Univerzity Karlovy v Praze pořádal jednodenní workshop zaměřený na práci s paralelním korpusem InterCorp. Hlavním cílem akce bylo seznámit uživatele s aplikacemi a nástroji užívanými při práci s paralelním jazykovým korpusem a na základě případových studií prezentovaných formou konferenčních příspěvků jim ukázat, jaké možnosti skrývá. Byly také představeny změny a novinky v nové verzi rozhraní, která je k dispozici od dubna tohoto roku.
Paralelní korpus můžeme brát jako obdobu zrcadlových překladů, v nichž bývá na levé straně dvoustrany uveden originál a na té pravé překlad. V případě InterCorpu jde o texty, u nichž existuje česká verze – tedy např. překlady beletrie z a do češtiny – a které jsou zarovnané po větách tak, jak si překlady a originály odpovídají. Kupříkladu mezi angličtinou a češtinou tudíž můžeme zkoumat překladová řešení z několika desítek knih, a k některým můžeme přidat ještě jiné jazykové verze (což umožňuje porovnávat zároveň třeba i ruštinu a němčinu). Korpus je (po registraci) přístupný zdarma na adrese www.korpus.cz.
Workshop s výhledem na Hrad
Během dopolední části workshopu jim byl paralelní korpus InterCorp, který dnes obsahuje 32 jazyků, nejprve představen a potom se s ním učili sami pracovat, odpoledne následovala řada pěti tematicky velmi různorodých příspěvků od autorů z univerzit v Leedsu, Varšavě, Olomouci, a z Univerzity Karlovy. Věnovali se v nich nejrůznějším tématům: od polsko-českého lexikologického výzkumu sloves psychických stavů přes strojové učení až po téma více verzí téhož díla od téhož autora. Tento nástin možností, jak dnes dostupná data z InterCorpu využívat, zároveň ukázal, s čím se uživatelé nejčastěji potýkají (a taky co nejvíc oceňují). Vše zakončila velká závěrečná debata účastníků s tvůrci korpusu.
Přes šedesát účastníků se o půl desáté ráno setkalo ve velké posluchárně s výhledem na Pražský hrad. V místnosti nechybělo ani wi-fi připojení, které se jim během workshopu hodilo k praktickým ukázkám práce s korpusem.
Nové funkce rozhraní
Nejprve si připomeňme, jaké funkcionality přibyly v novém rozhraní a zvýšily uživatelský komfort. Jde především o možnosti nabízené v nejsložitějším typu dotazu, tzv. CQL: nově si můžete vybrat morfologickou značku (tag) a plně ji specifikovat pomocí rozbalovací lišty integrované přímo v rozhraní. Stejně tak je nyní snazší stanovit určitou podmínku (např. chceme-li vyhledávat v jazyce určitého autora či období) – i funkce "within" nyní má svou rozbalovací lištu. Dobře dostupná při vyhledávání v jakémkoli korpusu je nyní i klávesnice se speciálními znaky, což je zdánlivá maličkost, pro řadu uživatelů však představuje zásadní pomoc, protože si nemusejí pamatovat zkratky pro hranaté či složené závorky. Toto všechno, spolu s připravovaným manuálem k novému rozhraní, by mělo napomoci k co nejplnějšímu využívání možností, jež rozhraní zprostředkovávané Ústavem Českého národního korpusu nabízí.
Zásadním zlepšením je totiž ještě jedna změna: možnost přistupovat ke všem korpusům, jednojazyčným i paralelním, pomocí téhož rozhraní. Nově vyvíjený vzhled korpusového manažeru umožňuje snadno přecházet např. mezi korpusy řady SYN (pokrývajícími současnou mluvenou češtinu), BNC (British National Corpus je na požádání zpřístupňován všem uživatelům z Univerzity Karlovy) či jednojazyčnými webovými korpusy a právě korpusy řady InterCorp. Díky tomu lze i na paralelních korpusech provádět statistické operace a zjišťovat frekvenční distribuce. Jistou potíží, o níž účastníci hovořili, naopak je nemožnost exportovat z nového rozhraní přímo do tabulkového formátu pro MS Excel. Data uložená v textovém formátu jsou však rozdělena do sloupců tak, že je lze do podoby tabulky snadno převést; možnost ukládat ve formátu *.csv pak je záležitostí nejbližší doby.
Navzdory těmto výhodám též zaznívalo, že nové rozhraní zatím neumožňuje bez problémů filtrovat texty a jednoduše se podívat, v jakých textech vlastně hledáme. Dosud používané paralelní rozhraní Park tudíž může být pro některé uživatele ještě po nějakou dobu vstřícnější, i kvůli možnosti ukládat data přímo do MS Excel.
V panelové diskuzi se účastníci dozvěděli nejen o samotném projektu, ale zazněly i úvahy o budoucnosti srovnávací jazykovědy
Nač jsou paralelní korpusy dobré?
Jak několikrát zaznělo, nejvýraznějším přínosem paralelních korpusů je, že zprostředkovávají cestu k významu. Díky tomu mohou být např. korektivem existujících slovníků či pomůckou při překládání anebo vlastním formulování textů. K výzkumnému využití je zase třeba co nejvíc dbát na kvalitu metadat – např. informace o datu vydání původní publikace či o originálním jazyce jsou pro uživatele z vědeckých pracovišť klíčové. V závěrečné debatě se pak vracelo především téma výběru textů pro InterCorp: podle jakých kritérií mají koordinátoři jednotlivých jazyků vybírat knihy ke skenování? A existuje-li od zvoleného textu více než jeden překlad, jak vybrat ten, který bude do korpusu zařazený? Tato dilemata se zatím týkají pouze beletrie, zazněly ale i dotazy po rozšiřování podílu odborného jazyka. Vzhledem k obrovské náročnosti sběru a zpracovávání dat v tolika jazycích se nezdá reálné vydat se cestou vlastní práce na rozdílných odborných žánrech. Schůdná je každopádně cesta připojování tzv. balíčků – existujících souborů vícejazyčných textů, v současnosti se jedná např. o zahrnutí textů poskytnutých Evropskou centrální bankou (tj. z finančnictví).
Dále se uživatelé zmiňovali o potížích spjatých s rozdílnými způsoby počítání velikosti různých korpusů: některé udávají velikost ve slovech a jiné v tokenech (tj. pozicích, které zahrnují kupříkladu interpunkci): protože InterCorp počítá v tokenech, je obtížněji srovnatelný např. s největším korpusem pro francouzštinu. Podobně je škoda, že současné rozhraní neumožňuje srovnávat více překladů jednoho originálu v tomtéž jazyce (což souvisí i s výše zmíněnou potíží, jak ten jeden zahrnutý překlad vybrat).
V závěru se diskuze od praktických a metodologických otázek (jak získat kýžené texty pro malé jazyky či do jaké míry se držet těžko objektivizovatelného kritéria kvality překladu) stočila k budoucnosti InterCorpu. Od iniciátora celého projektu, profesora Františka Čermáka, zaznělo, že i on měl před deseti lety, když se celá věc dávala do pohybu, jisté pochyby. Dnešní rehabilitace korpusově založených srovnávacích studií, nezřídka upozorňující např. na rozdíly mezi příbuznými jazyky, však potvrzuje, že v paralelních korpusech leží odborná budoucnost srovnávací jazykovědy. Dodejme ještě, že velká jazyková data nabízejí tak širokou škálu využití, že ji v této krátké zprávě samozřejmě nelze pokrýt. O to důležitější je zdůraznit, že korpusy by měly být především služba nejširší veřejnosti, odborné i laické.