Slovník ORBIS a sémantické třídy
Úvod
Ve své disertaci [FRIŠ, 2006] jsem se zabýval sémantickými třídami, platností Mandelbrotova a Zipfova zákona pro tyto třídy a v souvislosti s tím též částí slovní zásoby českého jazyka. Následující text představuje základní myšlenky obsažené v disertaci a její téma dále rozvíjí.
Slovník ORBIS
V rámci disertace [FRIŠ, 2006] byl ze souboru 10 000 slov sestaven slovník sémantických tříd, který nese na počest Jana Amose Komenského název ORBIS. Jedná se o slovník středního až malého rozsahu (slovní zásoba češtiny přesahuje 100 000 slov, běžné jsou slovníky v rozsahu 20 000 až 50 000 slov). Obsahuje nejdůležitější slova – jejich důležitost přitom byla stanovena na základě jejich frekvence, tj. důležitými slovy jsou ta, která jsou v češtině velmi frekventovaně užívána. Za účelem určení frekvence slov byly využity dva frekvenční slovníky, nejprve slovník z roku 1961 [JELÍNEK; BEČKA; TĚŠITELOVÁ, 1961] a následně slovník z roku 2004 [ČERMÁK, 2004]. Do slovníku ORBIS bylo zmiňovaných 10 000 nejfrekventovanějších slov vybráno na základě slovníku z roku 2004. . Internetovou podobu slovníku je možné nalézt na webových stránkách dostupných na adrese http://martin1946.sweb.cz/.
Slovník ORBIS byl vytvořen podle vzoru anglických slovníků Rogetův tezaurus [Roget’s Thesaurus] a Wordnet [Wordnet]. V angličtině mají neabecední slovníky tohoto typu dlouhou tradici a jsou dodnes často vydávány. Rogetův tezaurus vyšel poprvé v roce 1852. O Wordnetu se pořádají mezinárodní konference (2. mezinárodní konference se dokonce uskutečnila v roce 2004 v Brně, jejím pořadatelem byla Masarykova univerzita).
V češtině doposud slovník tohoto typu zatím chyběl, pokud nepočítáme-li abecední slovníky synonym, např. Slovník synonym a frazeologismů J. V. Bečky [BEČKA, 1982] či Slovník českých synonym [PALA; VŠIANSKÝ, 2000]. Pojetí Rogetova tezauru se pak blíží Slovník věcný a synonymický [HALLER, 1969-1987], ten však přes svůj velký rozsah zůstal nedokončen.
Slovník ORBIS podává informaci o jazyce a o slovech, která jej tvoří. Umožňuje se na slovní zásobu dívat shora, tj. z ptačí perspektivy, a ukazuje, která slova do daného tématu patří či nepatří. Slovník také usnadňuje učení se cizím jazykům, neboť slova jsou v něm řazena podle příbuznosti. Perspektivně by měl umožnit také automatické (počítačové) vytvoření informačního profilu dokumentu a usnadnit jeho následné vyhledání. Tento způsob využití slovníku je však v současné době ještě předmětem výzkumu. V budoucnu však lze očekávat využití slovníku ORBIS také v knihovnické praxi.
Sémantické třídy
Sémantickou třídou je pro účely slovníku ORBIS míněna třída slov, které si jsou blízké svým významem. Např. slova židle, stůl, skříň a pohovka patří do sémantické třídy Nábytek.
Ve slovníku ORBIS je obsaženo celkem 32 hlavních (nejvyšších) sémantických tříd. Každá hlavní sémantická třída se dále člení na tři sémantické skupiny, každá skupina pak na tři sémantické podskupiny. Slovník tak obsahuje celkem 96 sémantických skupin a cca 300 podskupin.
Sémantické třídy vznikly původně ze záhlaví/kategorií zmiňovaného Rogetova tezauru, a to seskupením a sdružením těchto záhlaví/kategorií do větších celků. Rogetových záhlaví je již tradičně 1 000. V tab. 1 je uveden seznam sémantických tříd slovníku ORBIS a počet slov v nich. Je zřejmé, že rozdělení slov do jednotlivých tříd je zhruba rovnoměrné – průměrně je v jedné třídě obsaženo 60 slov. Díky tomu, že byly jednotlivým slovům přiřazeny jejich frekvence, můžeme rovnoměrnost sledovat ještě podrobněji, např. si je rozdělit do čtyř rovnoměrných frekvenčních intervalů (podle pořadí), které označíme jako interval A (1. až 500. místo podle frekvence), B (501. – 1 000. místo), C (1 001 – 1 500. místo) a D (1 501. – 2 000. místo). Třídy celkově obsahují 1 635 plnovýznamových slov. Dalších 365 slov jsou slova gramatická a vlastní jména. Celkový počet zpracovávaných slov je tedy 2 000.
Tab. 1: Počty slov v sémantických třídách a v jednotlivých intervalech frekvence
Číslo třídy | Název třídy | Počet slov v třídě | Intervaly | |||
---|---|---|---|---|---|---|
A | B | C | D | |||
1 | bytí, událost | 28 | 8 | 10 | 6 | 4 |
2 | vztah, seskupení | 49 | 16 | 14 | 11 | 8 |
3 | množství, číslo | 52 | 14 | 17 | 8 | 13 |
4 | řád, zákonitost | 51 | 13 | 12 | 13 | 13 |
5 | změna, příčina | 70 | 12 | 24 | 22 | 12 |
6 | čas, období | 34 | 12 | 12 | 4 | 6 |
7 | průběh času | 52 | 18 | 14 | 12 | 8 |
8 | prostor | 50 | 10 | 12 | 13 | 15 |
9 | tvar | 37 | 5 | 10 | 13 | 9 |
10 | pohyb | 62 | 13 | 9 | 15 | 25 |
11 | přenos, změna polohy | 43 | 4 | 12 | 12 | 15 |
12 | hmota, krajina | 45 | 8 | 12 | 11 | 14 |
13 | vlastnosti hmoty, smysly | 77 | 15 | 20 | 23 | 19 |
14 | živočich, biologická činnost | 42 | 11 | 8 | 13 | 10 |
15 | části organismu | 43 | 9 | 12 | 13 | 9 |
16 | práce, činnost | 42 | 17 | 2 | 8 | 15 |
17 | zemědělství, průmysl, doprava | 49<-td> | 6 | 17 | 9 | 17 |
18 | obchod, majetek, dát | 61 | 15 | 16 | 15 | 15 |
19 | úřad, řízení, výchova | 61 | 3 | 13 | 25 | 20 |
20 | společnost, stát, skupina | 62 | 16 | 17 | 17 | 13 |
21 | boj, politika, armáda | 40 | 3 | 12 | 5 | 20 |
22 | vztahy mezi lidmi, morálka | 63 | 8 | 17 | 15 | 23 |
23 | rodina, sex, přátelství | 69 | 18 | 18 | 16 | 17 |
24 | město, obydlí | 47 | 10 | 13 | 12 | 12 |
25 | oděv, jídlo, nemoc | 30 | 2 | 11 | 6 | 11 |
26 | zpráva, řeč, psaní | 53 | 11 | 18 | 13 | 11 |
27 | hledání, vyučování, pravda | 71 | 16 | >11 | 25 | 19 |
28 | myšlení, vědomost | 69 | 11 | 23 | 19 | 16 |
29 | věda, umění, náboženství | 47 | 6 | 16 | 16 | 9 |
30 | charakter, zážitek, zábava | 48 | 9 | 14 | 13 | 12 |
31 | nálada, dojmy, city | 49 | 7 | 7 | 13 | 12 |
32 | lidská situace | 39 | 2 | 5 | 11 | 21 |
Celkem | 1 635 | 328 | 438 | 427 | 443 |
V tab. 2 jsou prezentovány aritmetický průměr součinů pořadí a frekvence a standardní odchylka pro jednotlivé sémantické třídy. První sloupec (Číslo třídy) obsahuje číslo sémantické třídy (číslování je totožné s číslováním v tab. 1). Ve druhém sloupci (Aritmetický průměr součinů) je pak uveden aritmetický průměr součinů pořadí a frekvence (do výpočtu však není zahrnuto prvních pět slov v pořadí, u nichž jsou odchylky od Zipfova zákona – viz dále – největší). Ve třetím sloupci (Standardní odchylka) je uvedena standardní odchylku od aritmetického průměru. Poznamenejme, že ve dvou případech, konkrétně u třídy č. 13 a 28, byl výpočet aritmetického průměru a standardní odchylky z technických důvodů proveden pouze pro prvních 50 slov.
Tab. 2: Aritmetický průměr součinů pořadí a frekvence a standardní odchylka pro jednotlivé sémantické třídy
Číslo třídy | Aritmetický průměr součinů | Standardní odchylka |
---|---|---|
3 | 5718 | 1097 |
4 | 5050 | 982 |
5 | 6982 | 1156 |
6 | 4761 | 1125 |
7 | 6704 | 1286 |
8 | 4461 | 886 |
9 | 3304 | 757 |
10 | 5043 | 929 |
11 | 3659 | 777 |
12 | 4120 | 854 |
13 | 6559 | 1293 |
14 | 4298 | 917 |
15 | 4465 | 945 |
16 | 4579 | 977 |
17 | 4104 | 816 |
18 | 5929 | 1055 |
19 | 4729 | 846 |
20 | 6399 | 1130 |
21 | 3005 | 671 |
22 | 4989 | 877 |
23 | 6892 | 1154 |
24 | 4485 | 910 |
25 | 2710 | 689 |
26 | 5316 | 1015 |
27 | 6261 | 1035 |
28 | 5765 | 1137 |
29 | 4459 | 906 |
30 | 4568 | 916 |
31 | 4326 | 871 |
32 | 2463 | 600 |
Zipfův a Mandelbrotův zákon
Ve výpočetní lingvistice je známý a velmi populární Zipfův zákon. Dokonce se dá říci, že od publikování jeho zveřejnění v roce 1935 se datuje historie komputační (výpočetní) lingvistiky. Zdůvodnění svého zákona se Zipf věnuje ve své slavné a často citované knize Principle of least effort and human behavior [ZIPF, 1949].
Formulace zákona je velmi jednoduchá, zní takto: r = konst./ f , kde r je rank (pořadí v seznamu slov uspořádaných podle klesající frekvence), f je frekvence (četnost) slova ve zpracováváném textu a konst. je vhodná konstanta. Jedná se o empirický zákon, resp. zákon statistické povahy, daná rovnice proto neplatí ve všech případech, s malými odchylkami však platí pro jednotlivé hodnoty, konstanta je tedy „rozmazaná“.
Existuje ještě Mandelbrotův zákon z roku 1955. Je zobecněním Zipfova zákona, jeho tvůrce Benoit Mandelbrot (známý jako tvůrce fraktálů) navíc podal jeho exaktní matematický důkaz [MANDELBROT, 1964] , [VALOUCH, 1970]. Důkaz má podobu řešení optimalizační úlohy množství informace předané textem. Výsledkem řešení integrální rovnice je zákon v tomto znění: r = konst/ (f + A) exp beta
V Mandelbrotově zákoně jsou oproti Zipfově zákonu navíc konstanty A a beta (výrazem exp beta je míněn exponent beta). Mandelbrotův zákon je tak mnohem pružnější a může vystihnout širší paletu textů než původní Zipfův zákon. Zipfův zákon například selhává v některých případech vědeckých textů.
Rozložení odborných termínů ve vědeckém textu
V disertační práci [FRIŠ, 2006] byla také zkoumána problematika rozložení odborných termínů ve vědeckém textu. Z knihy Úvod do teorie grafů [SEDLÁČEK, 1981] byly vybrány všechny matematické termíny obsažené v rejstříku. Výběr slov do sémantických tříd byl tedy objektivní, nepodléhal subjektivitě sestavovatele. Výsledek zpracování textu knihy je prezentován v tab. 3 a 4. Tab. 3 představuje frekvenční slovník celého textu a ukazuje, že celý text splňuje výše zmiňovaný Mandelbrotův zákon.
Tab. 3: Fragment tabulky frekvenčního slovníku textu knihy [SEDLÁČEK, 1981]
Pořadové číslo (klesající pořadí) – výběr | Slovo/heslo | Empiricky zjištěná frekvence | Frekvence vypočtená užitím Mandelbrotova zákona | Rozdíl mezi empirickými a vypočtenými hodnotami |
---|---|---|---|---|
258 | odvodit | 9 | 8 | 1 |
238 | stačit | 10 | 9 | 1 |
218 | společný | 11 | 10 | 1 |
198 | vztah | 12 | 11 | 1 |
178 | odstranit | 14 | 13 | 1 |
158 | podaný | 16 | 15 | 1 |
138 | kubický | 19 | 17 | 2 |
118 | dát | 24 | 21 | 3 |
98 | dokázat | 29 | 26 | 3 |
78 | tak | 36 | 35 | 1 |
58 | pravidelný | 47 | 49 | -2 |
38 | množina | 72 | 79 | -7 |
18 | z | 124 | 175 | -51 |
10 | hrana | 184 | 303 | -119 |
8 | že | 254 | 366 | -112 |
6 | uzel | 355 | 457 | -102 |
4 | graf | 529 | 601 | -72 |
2 | . | 1062 | 854 | 208 |
Tab. 4 obsahuje seznam matematických termínů ve zmiňované knize [SEDLÁČEK, 1981] a rovněž ukazuje, že i tento seznam slov splňuje Mandelbrotův zákon (byť i s jinými parametr).
Tab. 4: Fragment tabulky frekvenčního slovníku odborných termínů z textu knihy [SEDLÁČEK, 1981]
Pořadové číslo (klesající pořadí) – výběr | Slovo/heslo | Empiricky zjištěná frekvence | Frekvence vypočtená užitím Mandelbrotova zákona | Rozdíl mezi empirickými a vypočtenými hodnotami |
---|---|---|---|---|
20 | podgraf | 34 | 25 | 9 |
19 | uzlový | 36 | 27 | 9 |
18 | most | 40 | 29 | 11 |
17 | strom | 40 | 32 | 8 |
16 | tah | 44 | 35 | 9 |
15 | délka | 47 | 38 | 9 |
14 | pravidelný | 47 | 42 | 5 |
13 | komponenta | 50 | 47 | 3 |
12 | souvislost | 53 | 52 | 1 |
11 | konečný | 59 | 58 | 1 |
10 | množina | 72 | 66 | 6 |
9 | souvislý | 77 | 75 | 2 |
8 | sled | 80 | 86 | 6 |
7 | faktor | 81 | 101 | -20 |
6 | kružnice | 83 | 119 | -36 |
5 | číslo | 86 | 144 | -58 |
4 | stupeň | 140 | 177 | -37 |
3 | hrana | 184 | 224 | -40 |
2 | uzel | 355 | 294 | 61 |
1 | graf | 529 | 406 | 123 |
Je velice pravděpodobné, že kdybychom obdobně zpracovali odborné knihy z oblasti chemie či biologie, budou i tyto knihy splňovat Mandelbrotův zákon. Lze se domnívat, že se jedná o univerzální vlastnost. odborných textů..
V rámci disertace bylo rovněž prozkoumáno zastoupení sémantických tříd v souvislém beletristickém textu [ŘEZÁČ, 1944]. Z tohoto textu bylo vybráno deset úseků, z nichž každý byl tvořen 3 000 slovy. V tab. 5 je uveden počet slov (z jednotlivých sémantických tříd), který se vyskytuje v tomto textu a zároveň je uveden ve výše zmiňovaném seznamu 2 000 nejfrekventovanějších slov. Jako příklad jsou v tab. 5 uvedeny sémantické třídy 3 a 24.
Tab. 5: Ukázka zastoupení sématnických tříd v beletristickém textu [ŘEZÁČ, 1944]
Třída 3 | Třída 24 | |||
---|---|---|---|---|
Úseky textu | Počet slov ze seznamu nejfrekventovanějších slov | Odchylka od aritmetického průměru | Počet slov z e seznamu nejfrekventovanějších slov | Odchylka od aritmetického průměru |
1 | 23 | - 8,4 | 16 | - 10,3 |
2 | 20 | - 11,4 | 29 | 2,7 |
3 | 31 | - 0,4 | 33 | 6,7 |
4 | 32 | 0,6 | 21 | - 5,3 |
5 | 34 | 2,6 | 45 | 18,7 |
6 | 38 | 6,6 | 32 | 5,7 |
7 | 42 | 10,6 | 18 | - 8,3 |
8 | 39 | 7,6 | 23 | - 3,3 |
9 | 31 | - 0,4 | 19 | - 7,3 |
10 | 24 | - 7,4 | 27 | 0,7 |
Aritmetický průměr: 31, 4 | Aritmetický průměr: 26,3 |
Podobné hodnoty se vyskytují i u zbývajících 31 sémantických tříd zkoumaného beletristického textu. Můžeme tedy v tomto případě rovněž hovořit o jisté rovnoměrnosti zastoupení sémantických tříd v textu.
Sémantické třídy a klasifikace věd
Tab. 6 ukazuje souvislosti sémantických tříd s klasifikací věd. Jedná se o pracovní přehled, přiřazení oborů vědy vychází ze znalostí a zkušeností autora.
Tab. 6: Korespondence sémantických tříd s jednotlivými obory vědy
Název třídy | Obor vědy |
---|---|
existence | filozofie |
událost | filozofie |
skutečnost | filozofie |
vztahy/vztah | logika, filozofie |
seskupení | filozofie |
řád, řada | filozofie |
zákonitost | filozofie |
změna, začátek | filozofie |
příčina | filozofie |
množství, počet | matematika |
číslo | matematika |
prostor | geometrie |
tvar | geometrie |
čas | fyzika |
období | fyzika |
průběh (času) | fyzika |
pohyb | fyzika |
přenos, přinést | fyzika |
krajina, svět | geografie |
hmota | fyzika |
smysl(y), vidět, hlas | fyziologie |
živočich, spát | biologie |
(části) těla, ruka | biologie |
práce | praxeologie |
činnost | praxeologie |
zemědělství | zemědělství |
průmysl | inženýrství |
doprava, auto, cesta | doprava |
obchod, mít, firma | ekonomie |
majetek | ekonomie |
dát | ekonomie |
úřad, správní úřad | státní správa |
řízení | management |
výchova | pedagogika |
společnost, vláda, veřejný | sociologie, politologie |
(sociální) skupina | sociologie |
boj, válka | vojensví |
politika | politologie |
armáda | vojensví |
morálka | filozofie, právo-justice |
vztahy (mezi lidmi), soud | psychologie, sociologie |
rodina, osoba | antropologie |
láska, sex | antropologie, sexuologie |
přátelství | antropologie |
město | urbanistika, architektura |
obydlí | architektura |
domácnost | ekonomie |
oděvy | textilní inženýrství |
jídlo | gastronomie |
nemoc, nemocnice | medicína |
zprávy/zpráva | žurnalistika |
řeč, jazyk | jazyky, lingvistika |
psaní | jazyky, lingvistika |
hledání | logika |
vyučování, škola | pedagogika |
pravda | logika, filozofie |
myšlení, řešení | psychologie |
vědomost, vědět | knihovnictví, informatika |
věda | věda |
umění | umění |
náboženství | teologie |
charakter, trenér | psychologie |
zážitek | psychologie |
zábava, sport | zábava |
sport | sport |
nálada | psychologie |
dojmy (dojem) | psychologie |
city (cit) | psychologie |
(lidská) situace | praxeologie |
bezpečnost | praxeologie |
gramatika (slova gramatická) | gramatika, lingvistika |
jméno (vlastní) | lingvistika |
divná slova | divná slova |
Pro zájemce o problematiku klasifikace věd doporučuji dílo Základové konkrétné logiky od T. G. Masaryka, např. ve vydání z roku 2001 (MASARYK, 2001).
Závěr a perspektivy
Článek podává úvodní informaci o sémantických třídách a slovníku sémantických tříd. Ukazuje, že sémantické třídy mají příznivé vlastnosti - jsou rovnoměrné a stabilní. Jejich využití lze tedy ve srovnání s jinými sémantickými klasifikacemi pokládat za výhodné. Rovněž je žádoucí další výzkum v této oblasti. V praxi lze prezentovaných poznatků využít např. v oblasti automatického zpracování textů a k vyhledávání (souvislé texty by např. mohly být převedeny k na čísla sémantických tříd a na jejich základě by mohly být automaticky zjišťovány obsahové vlastnosti zpracovávaných textů). Autor textu také počítá s převedením slovníku sémantických tříd do angličtiny (s využitím anglického frekvenčního slovníku [JOHANSSON; HOFLUND, 1989]).
ADAMIC, L.; HUBERMAN, B. 2002. Zipf's law and Internet. Glottometrics. 2002, no. 3, s.143-150. ISSN 1617-8912.
ALTMANN, G. 2002. Zipfian linguistics. Glottometrics. 2002, no. 3, s. 19-26. ISSN 1617-8912.
ANDERSEN, S. 2002. Speaker's information content : length-frequency correlation as partial correlation. Glottometrics. 2002, no. 3, s. 90-109. ISSN 1617-8912.
BEČKA, J. V. 1973. Lexikální složení českých odborných textů technického zaměření. Díl 1. Úvodní studie. Praha : SPN, 1973. 230 s. Acta Universitatis 17 Novembris Pragensis. Vědecký sborník fakulty společenských věd. Řada monografická, sv. 5.
BEČKA, J. V. 1982. Slovník synonym a frazeologismů. 3. upr. a dopl. vyd. Praha : Novinář, 1982. 463 s. Knihovnička novináře, sv. 29.
CARNAP, R. 1950. Logical foundations of inductive probability. Chicago, 1950.
CARNAP, R.; BAR-HILLEL, Y. 1964. Sémantická informace. In Teorie informace a jazykověda. 1. vyd. Praha : ČSAV, 1964, s. 165-175.
CONRAD, B.; MITZENMACHER M. 2004. Power laws for monkeys typing randomly : the case of unequal probabilities. In IEEE Transaction on Information Theory. July 2004, vol. 50, no. 7, s. 1403-1414. Postprint dostupný na World Wide Web: <http://www.eecs.harvard.edu/~michaelm/postscripts/toit2004a.pdf>.
CYHELSKÝ, L. ; KAŇOKOVÁ, J.; NOVÁK, I. 1986. Teorie statistiky. 2. upr. vyd. Praha : SNTL, 1986. 340 s.
ČERMÁK, F. et al. 2004. Frekvenční slovník češtiny. Vyd. 1. Praha : Nakladatelství Lidové noviny, 2004. 595 s. Obsahuje CD-ROM. ISBN 80-7106-676-1.
FENK-OZLON, G. ; FENK A. 2002. Zipf's tool analogy and word order. Glottometrics. 2002, no. 5, s. 22-28. ISSN 1617-8912.
FRIŠ, M. 2006. Mandelbrotův zákon a sémantické třídy. Praha, 2006. 45 s. Disertace. Univerzita Karlova v Praze, Matematicko-fyzikální fakulta. Vedoucí disertace prof. PhDr. Eva Hajičová, DrSc.
GABAIX, X. 1999. Zipf's Law for cities : an explanation. The Quaterly Journal of Economics. August 1999, vol. 114, no. 3, s. 739-767. Dostupné také na World Wide Web: <http://econ-www.mit.edu/faculty/download_pdf.php?id=530>.
GRAŽDANIKOV, E. D. 1987. Metod postrojenija sistemnoj klassifikaciji nauk. Novosibirsk, 1987.
GUMENJUK, A.; KOSTYSHIN A.; SIMONOVA S. 2002. An approach to the analysis of text structure. Glottometrics. 2002, no. 3, s. 61- 89. ISSN 1617-8912.
HALLER J. et al. (ed.). 1969-1977. Český slovník věcný a synonymický. 1. vyd. Praha : SPN, 1969-1977. 3 sv.
HALLER, J. 1969 – 1987. Slovník věcný a synonymický. Praha : SPN, 1969-1987. 4 sv.
HALLIG, R.; WARTBURG, W. 1963. Begriffsystem als Grundlage fur die Lexikographie. Berlin, 1963.
HERDAN, G. 1962. The calculus of linguistic observations. Haag : Mouton, 1962. 271 s.
HERDAN, G. 1964. Quantitative linguistics. London : Butterworths, 1964. xvi, 284 s.
HILBERG, W. 2002. The unexpected fundamental influence of mathematics upon language. Glottometrics. 2002, no. 5, s. 29-50. ISSN 1617-8912.
HŘEBÍČEK, L. 2002. Zipf's Law and text. Glottometrics. 2002, no. 3, s. 27-38. ISSN 1617-8912.
JELÍNEK, J.; BEČKA, J. V.; TĚŠITELOVÁ, M. 1961. Frekvence slov, slovních druhů tvarů v českém jazyce. 1. vyd. Praha : SPN, 1961. 585 s.
JOHANSSON, S.; HOFLUND, K. 1989. Frequency analysis of English. Cambridge, 1989.
KOEHLER, R. 2002. A general remark on certain criticism of Zipf 's Law. Glottometrics. 2002, no. 5, s. 51-61. ISSN 1617-8912.
KOMENSKÝ, J. A. 1941. Orbis pictus. Praha : Fr. Borový, 1941. 254 s.
KOSOVSKIJ, B. I. 1974. Obyščeje jazykoznanije. Minsk, 1974.
KRÁLÍK, J. 1983. Some notes on the frequency-rank relation. In HAJIČOVÁ, E. (ed.). Prague Studies in Mathematical Linguistics. Sv. 8. 1. vyd. Praha : Academia, 1983, s. 67-80.
KROMER, V. 2002. Zipf's law and its modification possibilities. Glottometrics. 2002, no. 5, s. 1-13. ISSN 1617-8912.
LI, W. 2002. Zipf's Law everywhere. Glottometrics. 2002, no. 5, s. 14-21. ISSN 1617-8912. LIMPERT E.; STAHEL, W. A.; ABBT, M. 2001. Log-normal distributions across the sciences. Bioscience. 2001, vol. 51, no. 5, s. 341-352. Dostupné také na World Wide Web: <http://stat.ethz.ch/~stahel/lognormal/bioscience.pdf>.
Longman lexicon of contemporary English. London, 1981.
MANDELBROT, B. 1964. Komunikace a formální struktura textů. In Teorie informace a jazykověda. Praha : ČSAV, 1964, s. 130-150.
MANDELBROT, B. On the theory of word frequencies and on related Markovian models of discourse. In Structure of language and its mathematical aspects : proceedindgs of symposia in applied mathematics. Vol. 12. Providence (RI, USA) : American Mathematical Society, 1961, s. 190-219.
MASARYK T. G. 2001. Základové konkrétné logiky. Praha : Masarykův ústav AV ČR, 2001.
MORKOVKIN, V. V. et al. 1984. Leksičeskaja osnova russkogo jazyka. Moskva, 1984.
MORKOVKIN, V. V. et al. 1985. Leksičeskoje minimum sovremennogo russkogo jazyka. Moskva, 1985.
MOSKOVIČ, V. A. 1969. Statistika i semantika. Moskva, 1969.
NIRENBURG S.; RASKIN V. 2004. Ontological semantics. Cambridge (MA, USA) : c2004. xii, 420 s. ISBN 0262140861.
PALA, K.; VŠIANSKÝ, J. 2000. Slovník českých synonym. 3., dopl. vyd. Praha : Nakladatelství Lidové noviny, 2000. 479 s. ISBN 80-7106-450-5.
POPESCU, I.-I. 2003. On a Zipf ' Law extension to impact factors. Glottometrics. 2003, no. 6, s. 83- 93. ISSN 1617-8912.
PRUEN, C.; ZIPF, R. 2002. Biographical notes on G. K. Zipf. Glottometrics. 2002, no. 3, s. 1-11. ISSN 1617-8912.
QUINE, W.O. 1966. The ways of paradox, and other essays. New York (NY, USA) : Random, x, 258 s. 1966.
RACHMANOV, I.V. 1967. Slovar‘ naiboleje upotribitel‘nych slov nemeckogo jazyka. Moskva, 1967.
ROBBINS, J. 2002. Technology, ease, and entropy : a testimonial to Zipf' Principle of Least Effort. Glottometrics. 2002, no. 5, s. 81-96. ISSN 1617-8912.
Roget‘s Thesaurus of English words and phrases. Harmondsworth (Velká Británie) : Penguin Books, 1968. 712 s.
Roget’s Thesaurus. In Wikipedia [online]. [cit. 2007-07-21]. Dostupné na World Wide Web: <http://en.wikipedia.org/wiki/Roget's_Thesaurus>.
ROUSSEAU, R. 2002. Georg Kingsley Zipf : life, ideas, his law and informetrics. Glottometrics. 2002, no. 3, s. 11-18. ISSN 1617-8912.
ŘEZÁČ, V. 1944. Rozhraní. 1. vyd. V Praze : Fr. Borový, 1944. 528 s. Sbírka hodnotné prózy Žatva, sv. 57.
SADOWSKI, W. 1975. Matematická štatistika. 1. vyd. Bratislava : Alfa, 1975. 103 s.
SEDLÁČEK, J. 1981. Úvod do teorie grafů. Praha : Academia 1981. 271 s. Cesta k vědění, č. 29.
SILAGADZE, Z. K. 1999. Citations and the Zipf-Mandelbrot‘s law [online]. Submitted on 21 Jan 1999 (v1), last revised 26 Jan 1999 (this version, v2). [cit. 2007-07-07]. Dostupné na World Wide Web: <http://arxiv.org/abs/physics/9901035>. arXiv:physics/9901035v2 [physics.soc-ph].
SMETÁČEK, V. 1982. Sémantický analyzátor : úvod do problematiky. 1. vyd. Olomouc : Univerzita Palackého, 1982. 189 s.
SMETÁČEK, V. 1984. Sémantický analyzátor : experimentální ověřování. 1. vyd. Olomouc : Univerzita Palackého, 1984. 296 s.
SMETÁČEK, V. 1988. Základní informace o bázi BALEX. Československá informatika. 1988, roč. 30, č. 11, s. 330-333.
ŠTEINFELDT, E. 1963. Častotnyj slovar´ russkogo jazyka. Talin, 1963.
TĚŠITELOVÁ, M. 1974. Otázky lexikální statistiky. Praha : Academia 1974. 289 s. Studie a práce lingvistické ČSAV, sv. 9.
TĚŠITELOVÁ, M. 1980. Využití statistických metod v gramatice. Praha : Academia 1980. 219 s. Studie a práce lingvistické ČSAV, sv. 15.
TĚŠITELOVÁ, M. 1992. Quantitative linguistics. 1. vyd. Praha : Academia,1992. 253 s. ISBN 80-200-0131-X.
TĚŠITELOVÁ, M. et al. 1983. Frekvenční slovník češtiny věcného stylu. Praha : Ústav pro jazyk český ČSAV, 1983. 329 s.
THORNDIKE, E. L.; LORGE, I. 1972. The teacher’s word book of 30,000 words. New York, 1972.
UHLÍŘOVÁ, L. 2002. Zipf's notion of "economy" on text level. Glottometrics. 2002, no. 3, s. 39-60. ISSN 1617-8912.
VALOUCH, V. 1970. Vztahy mezi pořadím a četností kódových znaků (slov). Praha, 1970. 42 s. Univerzita Karlova v Praze, Matematicko-fyzikální fakulta. Vedoucí disertace Marie Koenigová.
Wordnet [online]. Princeton (NJ, USA) : Princeton University, Cognitive Science Laboratory [cit. 2007-07-07]. Dostupné na World Wide Web: <http://wordnet.princeton.edu/>.
ZANETTE D. H.; MONTEMURRO M. A. 2005. Dynamics of text generation with realistic Zipf's distribution. Journal of Quantitative Linguistics. 2005, vol. 12, no.1, s. 29-40.
ZIPF, G. K. 1935. The psycho-biology of language. Boston (MA, USA) : Houghton Mifflin Company, 1935. ix, 336 s.
ZIPF, G. K. 1949. Human behaviour and the principle of least effort. Cambridge (MA, USA) : Addison-Wesley, 1949.
ZIPF, G. K. 1965. The psycho-biology of language. Cambridge (MA, USA) : MIT Press, 1965.