Seminář o možnostech využití počítačových jazykových korpusů pro výzkum a aplikace v humanitních vědách

0 comments

Autoři:

Hajičová, Eva

Vydání:

2009, ročník 13, číslo 4

Rubrika:

Zprávy, reportáže a glosy

Vytváření a zpracovávání velkých korpusů jazykových dat (jazykových databází, tedy databází textů nebo mluvených projevů) se v současné době věnuje velká pozornost, protože jde o materiál, z něhož lze vycházet při aplikaci nejrůznějších systémů pro práci s texty (popř. s mluvenými daty) v přirozeném jazyce. Důležité přitom je, aby jednotlivá pracoviště tímto tématem se zabývající o sobě vzájemně věděla, a to nejen v národním, ale i mezinárodním měřítku, a také – možná v současné době především – aby o možnostech, které dobře zpracované korpusy nabízejí, věděli i perspektivní uživatelé takto zpracovaných jazykových dat. To je i cílem evropského projektu CLARIN zařazeného do 7. rámcového programu EU: propojit výzkumná pracoviště v různých evropských zemích, která se zabývají vytvářením a zpracováním velkých souborů jazykových korpusů tak, aby vzájemně věděly o svých metodách a výsledcích a mohly je případně sdílet. Specifickým cílem projektu je pak orientace na uplatnění práce s jazykovými korpusy nejen v lingvistice, ale také v ostatních humanitních oborech, jako jsou literární věda, historie, knihovnictví, psychologie, sociologie atd.

V rámci projektu CLARIN byl uspořádán Ústavem formální a aplikované lingvistiky Matematicko-fyzikální fakulty Univerzity Karlovy v Praze (MFF UK), který je koordinačním pracovištěm toho evropského projektu v České republice, v pondělí 23. března 2009 v budově MFF UK (Malostranské nám. 25, Praha 1) odborný seminář zaměřený na možnosti využití počítačových jazykových korpusů pro výzkum a aplikace v humanitních vědách. Semináře se účastnilo téměř 70 zájemců z celé České republiky. Šlo o první krok v navázání kontaktů mezi hlavními českými pracovišti zabývajícími se různými aspekty vytváření a zpracovávání velkých souborů jazykových dat na jedné straně a zájemci o využívání takových souborů z nejrůznějších humanitních oborů na straně druhé. Seminář měl v podstatě informativní charakter; předpokládáme, že na podzim letošního roku uspořádáme druhé, alespoň třídenní setkání, tentokrát už pracovního rázu, na němž by zájemci mohli v reálném prostředí s daty a příslušnými počítačovými nástroji pracovat.

Pro informaci tu uvedu alespoň ve stručnosti, co bylo náplní březnového semináře, mj. i proto, aby se případní zájemci o tuto problematiku mohli přihlásit o informace podrobnější.

První blok příspěvků byl zaměřen na celkovou informaci o dostupných jazykových zdrojích shromážděných a zpracovávaných v Ústavu českého národního korpusu Filozofické fakulty Univerzity Karlovy v Praze. Prof. PhDr. František Čermák, ředitel ústavu, podal přehled o korpusech současné češtiny, jak byly postupně dávány k dispozici uživatelům. Korpus psané češtiny SYN 2000 obsahuje 120 milionů slov (přesněji řečeno: výskytů slovních tvarů), korpus SYN 2005 pak dalších 120 milionů; soubor publicistických textů (2008) obsahuje až 700 milionů slov. Vedle korpusů textů jsou k dispozici i soubory mluveného jazyka, a to tzv. pražský korpus (PMK) obsahující 0,8 mil. slov, brněnský korpus (BMK) s 0,6 mil. slov a korpusy ORAL 2000 (1,3 mil.) a ORAL 2008 (1 mil.). Dále byly ve zmíněném ústavu zpracovány korpusy specializované, jako např. korpus z děl spisovatelů Karla Čapka a Bohumila Hrabala, korpus textů z doby totality (přes 1 milion výskytů slovních tvarů) a korpus textů z korespondence (2000 dopisů, celkem 0,94 mil. výskytů slovních tvarů). Prof. Čermák se rovněž zmínil o právě probíhajícím projektu zpracovávání korpusů paralelních textů z 23 jazyků (jde o autentické překlady). Na úvodní přednášku navázal zajímavým příspěvkem prof. PhDr. Karel Kučera o diachronním jazykovém korpusu (DIA) a o využití korpusů v literární vědě. Velmi poutavým způsobem ukázal, jak je možné využít korpusů textů z různých vývojových epoch daného jazyka pro zjištění dosud neznámých skutečností jazykového vývoje. Využil vizualizace pomocí grafů, na nichž znázornil, zda jde o vývoj kontinuální nebo zda lze v tomto vývoji identifikovat nějaké průlomové body. Například se potvrdilo, jak v době národního obrození autoři hledali nové výrazy, které by ukazovaly na možnosti češtiny uplatnit se i ve vyšším literárním stylu. Na příkladu specializovaného korpusu z děl Bohumila Hrabala pak přesvědčivě ukázal, jak takto zpřístupněný korpus umožňuje v průřezu různých děl téhož autora vysledovat určité shodné rysy (především ve využívání jistých výrazových prostředků, vazeb, idiomů i odkazů k určitému osobnímu kontextu).

Ve druhém bloku vystoupili pracovníci Fakulty informatiky Masarykovy univerzity v Brně, kteří se zaměřili na představení některých softwarových nástrojů pro práci s velkými jazykovými korpusy. Doc. PhDr. Karel Pala nejprve popsal nástroje vyvinuté na tomto pracovišti pro vyhledávání v elektronických slovnících různých typů (jde o nástroje DebDictI, a DebDict II). Následovala pak názorná ukázka, jak s těmito nástroji pracovat, a také informace, jak je možné na základě WordNetu vytvořit terminologické slovníky. Doc. RNDr. Pavel Rychlý, PhD., ve svém příspěvku informoval o řadě korpusů vytvořených na Fakultě informatiky Masarykovy univerzity a představil nástroje na budování nových korpusů, včetně korpusů specializovaných, korpusů vytvářených z materiálů přístupných na webu nebo i takových, které si uživatel může vytvořit ze svých vlastních textů. Ukázal rovněž užitečnost jazykových korpusů pro vyhledávání a registrování kolokací (ustálených slovních spojení a obratů) v textu, pro vytváření tezaurů i pro vyhledávání dobrých příkladů vět pro ilustraci různých významů slov a jejich kontextových užití pro slovníková hesla. Spolupracovník brněnského týmu pracující nyní v Ústavu formální a aplikované lingvistiky MFF UK v Praze prof. Patrick Hanks z Velké Británie pak v anglické přednášce naznačil některé zajímavé možnosti práce s korpusy pro aktualizaci slovníku anglických vlastních jmen (příjmení).

Poslední blok semináře byl zaměřen na využití korpusů, které už obsahují nějakou relevantní gramatickou informaci. Pro češtinu vznikl v Ústavu formální a aplikované lingvistiky MFF UK v Praze ojedinělý soubor českých textů nazvaný Pražský závislostní korpus, v němž je každému slovu ve větě souvislých textů přiřazeno několik „značek“, tedy vyznačení morfologické kategorie (jako jsou rod, číslo a pád u substantiv, osoba, číslo, čas a slovesný rod u sloves, ale v mnohem detailnějším zpracování) a syntaktické struktury věty, tedy syntaktických vztahů mezi větnými členy. Na základě takto přiřazených značek je pak možné v korpusu (angl. treebank, tedy banka stromových struktur) vyhledávat určité struktury a studovat podmínky jejich užití s určitých kontextech. Pražský závislostní korpus na semináři představil RNDr. Jan Štěpánek, PhD., který zároveň na řadě příkladů uspořádaných od méně složitých ke složitějším předvedl, co všechno lze v korpusu vyhledat. Takové vyhledávání je nesmírně důležitou pomůckou a účinným vodítkem pro autory gramatik i sestavovatele slovníkových hesel, stejně tak může korpus sloužit jako zásoba příkladů pro učitele jazyka. Jedním z výsledků práce se syntakticky značkovaným korpusem je Valenční slovník češtiny, který je k dispozici jak v elektronické, tak i v tištěné podobě a který představila na semináři Mgr. Václava Kettnerová. Stručně, ale velmi přehledně ukázala, jaké všechny informace slovník u jednotlivých hesel obsahuje a na praktické ukázce předvedla, jak lze v elektronické podobě slovníku vyhledávat.

Organizátoři semináře byli příjemně překvapeni velkou účasti na semináři a živým zájmem účastníků o představované projekty a jejich výsledky. Věříme, že zájemci navázali i potřebné kontakty a že se tak vytvořil základ pro pracovní síť, z níž budou mít užitek jak autoři představovaných systémů, postupů a počítačových nástrojů, tak i uživatelé z nejrůznějších, a to nejen humanitních, oblastí.

Klíčová slova:

jazykové korpusy

Hodnocení:

Zatím žádné hodnocení

Seminář o možnostech využití počítačových jazykových korpusů pro výzkum a aplikace v humanitních vědách

Seminář o možnostech využití počítačových jazykových korpusů pro výzkum a aplikace v humanitních vědách

Ikaros.cz

Newsletter Ikaros.cz