Jazykové korpusy: Britský národní korpus
V dnešním článku, který je prvním ze série článků o jazykových korpusech, si představíme Britský národní korpus (British National Corpus, BNC). V příštím díle se podíváme na některý z korpusů slovanských.
Představení BNC
Britský národní korpus je jednojazyčný [1], synchronní [2], všeobecný [3] a výběrový [4] korpus britského jazyka. Na jeho tvorbě se začalo pracovat v roce 1991 (dokončen byl o tři roky později). Před definitivním započetím prací byla stanovena kritéria pro výběr textů (oddělené pro mluvenou a psanou část). Projekt byl realizovalo a řídilo BNC Consortium, které je pod vedením Oxford University Press. Financování projektu zajistili komerční partneři (Science and Engineering Council a DTI), podporovala jej také Britská knihovna (British Library) a Britská akademie (British Academy).
BNC obsahuje přes 100 milionů výrazů. Psaný jazyk je zastoupen 90 %, zbylých 10 % připadá na jazyk mluvený. Část psaného jazyka obsahuje texty z regionálních i celoplošných novin, odborných periodik a časopisů, akademických titulů i beletrie, včetně publikovaných i nepublikovaných dekretů a zápisů, školních a univerzitních esejů atp. Část mluveného jazyka zahrnuje ortograficky transkribované nepsané neformální konverzace, které byly nahrávány dobrovolníky různého věku z různých oblastí i sociálních tříd, a sbírku mluveného jazyka v různých kontextech – od formálních obchodních nebo vládních schůzí po rádiové show. Samozřejmostí je, že je korpus kódovaný (podle TEI) a každý obsažený text nese i úplné kontextové a bibliografické informace (úplná technická specifikace korpusu je popsána v Reference Guide for the British National Corpus (XML Edition).
Korpus je sestaven tak, aby obsahoval široký průřez britskou angličtinou konce 20. století. Po jeho dokončení (1994) nebyly do BNC přidávány žádné další texty, přestože byl několikrát revidován. Revize mezi lety 1998–2000 vedla k vydání druhé verze korpusu pod názvem BNC World (zveřejněna 2001). Následná revize vedla k vydání prozatím poslední edice korpusu – BNC XML Edition (2007). Avšak ještě před první revizí byly vydány dva subkorpusy – BNC Sampler a BNC Baby (viz níže).
BNC World
BNC World je revidovaná verze originálního BNC. Revize proběhla v letech 1998 až 2000, v roce 2001 byla tato verze korpusu vydána. Oprav se dočkaly především chyby v záhlavích textů či SGML tagování. Tato verze korpusu byla distribuována na CD nosičích (společně s rešeršním programem SARA), přistupovat k němu lze také online přes webové rozhraní BNC Simple Search nebo přes BNC Subscription Service (viz níže).
BNC XML Edition
BNC XML Edition je revidovaná verze NBC World, realizovaná v roce 2007. Má několik doplňkových informací o lemmatech a zjednodušenou slovně-třídní klasifikaci jednotlivých slov, odstraněny byly také další nalezené chyby a nesrovnalosti. Tato verze je ve formátu XML a může být používána s vyhledávacím programem Xaira, který nabízí více možností vyhledávání a má oproti předchozímu programu SARA lepší uživatelské rozhraní. Korpus je distribuován na DVD, jehož součástí je i kopie programu Xaira.
BNC Baby
BNC Baby (viz obr. 1) je výběr z korpusu BNC World, který je kompilován tak, aby zahrnul čtyři různé v korpusu obsažené speciální žánry (belerie, žurnalistika, akademická tvorba a mluvené slovo). Každý vybraný žánr obsahuje milion slov. Texty mají stejnou anotaci jako úplný korpus. Korpus je ve formátu XML a může být prohledáván programem XAIRA Tool. Distribuován je na CD společně s korpusem BNC Sampler a XML verzí korpusu americké angličtiny Brown corpus [5].
BNC Sampler
BNC Sampler je vybraná část z plného korpusu BNC. Zahrnuje ukázky psaného a mluveného materiálu (každá část obsahuje milion slov). Před samotným vydáním byl výběr pečlivě zkontrolován a nalezené chyby ručně opraveny. Korpus je ve formátu XML a může být prohledáván programem XAIRA Tool. Je distribuován na CD společně s korpusem BNC Baby a XML verzí korpusu americké angličtiny Brown corpus.
Webová prezentace
Webové stránky BNC vypadají na první pohled velice jednoduše a také poměrně jednoduché a uživatelsky přívětivé jsou. Hlavní stránka (viz obr. 1) je rozcestníkem k celému obsahu webu. K nejdůležitějším částem se lze dostat nejen z hlavního navigačního horizontálního menu, nalézajícím se pod nadpisem, ale ty nejpodstatnější jsou umístěny do levého sloupce, odkud se uživatel rychle dostane k informacím o korpusu samém a také k návodu, jak a k čemu jej lze využívat a jak lze získat přístup do korpusu. Z hlavní stránky se uživatel také dozví, co BNC obsahuje a jak je veliký, je z ní přístup k základnímu vyhledávání v korpusu, nechybí ani novinky týkající se BNC.
Vyhledávání v obsahu webu se sice nenachází na domovské stránce, avšak je součástí téměř každé další stránky (umístěné v levém horním rohu). Pod tímto vyhledávacím polem jsou umístěny klikatelné nadpisy podkapitol hlavního tématu, které lze vybrat z hlavního navigačního menu.
Všechny důležité informace a položky jsou vzájemně velmi dobře prolinkované, takže se uživatel z úvodních informací o korpusu může okamžitě dostat například k licenčním podmínkám atp.
Celkově působí stránky přehledným, jednoduchým dojmem a přitom jsou velice dobře propracované a informačně obsažné.
Obr. 1: Náhled hlavní stránky BNC
Vyhledávání
Korpus je možno prohledávat pomocí konkondarčních nástrojů – vyhledávacího programu SARA nebo Xaira. Tento software je dodáván spolu s distribucí korpusu na CD nebo DVD. Korpus lze však prohledávat také online, a to buď přímo z hlavní stránky pomocí BNC Simple Search, nebo službou BNC Subscription Service. Další možný přístup je přes různé externí stránky, které mají podle smluvních podmínek povolení poskytovat omezený přístup ke korpusu. Plný (tj. neomezený) přístup ke korpusu i distribuce na CD a DVD jsou však zpoplatněny.
BNC Subscription Service
BNC Subscription Service je online servis, který povoluje uživatelům pomocí softwaru SARA prohledávat úplný korpus BNC World. Tato služba je dostupná pouze po 30denní zkušební dobu. Před jejím použitím je třeba se pomocí jednoduchého formuláře zaregistrovat. Program SARA (viz obr. 2) je nabídnut ke stažení přímo ze stránek korpusu, kde je uveden i návod na jeho instalaci a použití. Samotná registrace probíhá okamžitě. Korpus je možno po úspěšné registraci a instalaci softwaru ihned prohledávat.
Obr. 2: Náhled základního zobrazení výsledku při hledání výrazu library ve vyhledávacím programu SARA
BNC Simple Search
BNC Simple Search je volně dostupná online služba, která umožňuje prohledávat korpus BNC World přímo z hlavní stránky BNC. Výsledek hledání je zobrazen jako list 50 náhodně vybraných příkladů v čele s poznámkou o úplné frekvenci hledaného řetězce. Nové hledání téhož řetězce vygeneruje jinou množinu náhodně vybraných příkladů (viz obr. 3). Zdroj každého příkladu může být označen kliknutím na textový kód předcházející každý řádek.
Obr. 3: Porovnání zobrazení výsledků hledání výrazu library pomocí webového rozhraní BNC Simple Search: obrázek vlevo – první zadání hledaného výrazu, obrázek vpravo – opakované zadání hledaného výrazu
V doplňku právě hledaného slova nebo fráze může být BNC Simple Search použit pro komplexnější dotazy. Použitím podtržítka (_) se k sobě spojí dvě slova – příklad milk _ honey najde spojení „milk and honey“, „milk or honey“, „milk with honey“ atp. Použitím znaku pro rovná se „=“ se hledání omezí na část mluvenou, například house=VVB najde pouze použití slova „house“ v části mluveného jazyka. Užitím složených závorek „{}“ k uzavření regulérního výrazu najde zadané varianty, např. {gr[ae]y} najde „gray“ i „grey“.
Vyhledávání pomocí BNC Simple Search je to poměrně rychlá a jednoduchá cesta jak prohledávat slova nebo fráze v úplném BNC World, užitečná především pro ty, kteří chtějí snadno a rychle zjistit, zda je slovo obsaženo v korpusu, zkontrolovat pravopis nebo slovo, porovnat různé varianty, aby viděli, která z nich je frekventovanější atp.
Závěr
Britský národní korpus mohou podobně jako ostatní korpusy využít nejen lingvisté, ale i studenti, učitelé jazyků atp., neboť korpus poskytuje informace nejen o tom, jak je jazyk skutečně používán, a může ukázat nejen to, co dané slovo znamená či co znamenat může, ale především to, v jakých kontextech se skutečně používá. Využít se dá nejen pro tvorbu slovníků a gramatických příruček, ale i pro zajímavé jazykové učební materiály atp.
Webová prezentace BNC je jednoduchá a přehledná. Uživatel se z ní dozví všechny důležité informace od vzniku korpusu přes jeho tvorbu až po produkty BNC a licenční podmínky užívání korpusu. Přestože je přístup do korpusu placený, má každý návštěvník webu BNC možnost vyzkoušet si – byť poněkud omezené – vyhledávání přes webové rozhraní, případně má možnost zaregistrovat se a vyzkoušet tak během 30denního zkušebního přístupu vyhledávací program SARA.
Podle mého názoru je celkové pojetí webu BNC jeho důstojnou reprezentací.
Hodnocení:
Webová prezentace:Vyhledávání:
Obsah informací:
- BNC obsahuje pouze moderní britskou angličtinu, přestože slova z nebritské angličtiny a cizích jazyků se v něm nacházejí.
- BNC pokrývá britskou angličtinu konce dvacátého století.
- BNC zahrnuje mnoho různých stylů a variant, není omezen žádnou zvláštní oblastí předmětů, žánrů nebo záznamů, navíc obsahuje jak mluvený, tak psaný jazyk.
- Je-li zahrnut text jednoho autora, je brána jen vybraná část o délce 45 000 slov, v případě textu od několika autorů, nebo texty do délky 45 000 slov jsou v korpuse obsaženy celé.
- Brown Corpus je korpus standardní americké angličtiny, který byl vytvořen W. N. Francisem a H. Kučerou na Brown university v USA. Obsahuje milion slov psané americké angličtiny, sebrané z publikaci od roku 1961.
British National Corpus [online]. University of Oxford, c2005 [cit. 2008-01-20]. Dostupné z WWW: <http://www.natcorp.ox.ac.uk/>.