Čas nutný k přečtení

10 minut

Tisk

a- a+

Již přečteno

TEXTQUEST: software pro obsahovou analýzu

0 comments

Autoři:

Jonák, Zdeněk

Vydání:

2000, ročník 4, číslo 5

Rubrika:

Informační věda

Obsahová analýza dokumentu představuje vedle řady rutinních knihovnických procesů, činnost, vyžadující nejen mnoho času, ale i vysoký podíl intelektuální a tvůrčí činnosti. V důsledku toho se pojem obsahové analýzy v knihovnách omezil na proces letmé prohlídky dokumentu a jeho několikařádkový popis.

Takto zúžený pohled na obsahovou analýzu vůbec neodpovídá představě autorů, kteří metodu obsahové analýzy uvedli někdy v první třetině 20. století v život. (Záměrně neodkazuji na tisíciletou tradici obsahové analýzy, za kterou lze označit studium bible apod.)

Obsahová analýza v pravém slova smyslu je metoda, která zmapováním kvantitativní struktury souboru textů dospívá k tomu, co jednotliví autoři, v důsledku své subjektivní zaujatosti, neměli a ani nemohli mít v úmyslu sdělit - k odhalení latentního obsahu dokumentů. V souboru textů je vždy uloženo větší množství informací, které nelze prakticky získat čtením jednotlivých textů, poněvadž čtenář či analytik je schopen srovnávat jednotlivé texty zpravidla jen z jednoho hlediska. Obsahová analýza zpracovávající obrovské soubory textů z velikého počtu aspektů může, díky využití počítačových kapacit a rychlostí, tuto úlohu plnit spolehlivěji. Po potřebě tohoto druhu informací sílí tlak. Prognostikové, podnikatelé, ekonomové se zajímají stále častěji o informace, které nejsou všeobecně dostupné a které by chtěli znát včas především pouze oni.

Technologie "data mining", která je do jisté míry disciplinou obsahové analýzy, pracuje prozatím převážně s numerickými daty. V numerických údajích však není zakódováno to, co eminentně zajímá zmíněné typy lidí, protože to je uloženo nejčastěji v neurčitých a zahalených výrocích osob, vyskytujících se převážně v textových datech.

V knihovnictví potřeba obsahové analýzy teprve nazrává. Jde o potřebu orientovat se v nepřehledném množství dokumentů, vyhledat dokumenty podobné obsahem a hledat možnosti, jak je od sebe automaticky kvalitativně odlišit a poskytnout uživateli jen ty obsahově blízké jeho potřebám.

Proč se obsahová analýza dostává v odborných kruzích v zahraničí v současné době do popředí zájmu? Dle mého názoru to souvisí i s tím, že se poptávka po technologických inovacích začíná nasycovat a do popředí vystupují potřeby, které byly realizací počítačového zázemí pozdrženy.

Mezi nasycením informačních institucí výpočetní technikou a zesílením zájmu o obsahové problémy klasických i elektronických médií existuje přímá vzájemná souvislost. Zvýšený zájem o analýzu obsahu pravděpodobně signalizuje další etapu rozvoje informačních služeb, spočívající ve využití výpočetní techniky nikoliv jen k popisu a dopravě informačních zdrojů, ale i k jejich hlubšímu poznání, a tím i ke splnění kritéria adresnosti informačních služeb uživateli. Sleduji několik elektronických konferencí orientovaných na obsahovou analýzu textů a mohu potvrdit, že zájem o využití dokumentů ke kvantitativnímu vyhodnocení trendů vývoje v jednotlivých vědních oborech stoupá. Naše knihovnictví by nemělo k těmto signálům zůstat němé

V tomto článku nabízím ukázku programu jednoho ze systémů obsahové analýzy, který je k dispozici na softwarovém trhu a který signalizuje, že Evropa neřeší jenom "železo", sítě a servery, ale prozíravě pamatuje i na potřeby, které vyvstanou, jakmile se trh ICT nasytí a bude potřeba řešit otázku, co s giga a terabyty plných textů a očekáváním uživatelů, že se ten pravý dostane právě k nim. Mluví se o globální vesnici, a pravděpodobně se časem podaří dostat se alespoň mailem do každého domu. Jak však propojit texty uložené v serverech těchto domů? Bude to povinnost knihovníků, autorů…?

Je obtížné si například představit spojení mezi texty pomocí hyperlinků bez předchozí obsahové analýzy, která odhalí mezi ne desítkami, stovkami, tisíci, ale miliony textů obsahové podobnosti a spojí je automaticky do podoby hypertextu. Stačí na to dosavadní mocné, ale zatím lingvisticky jednoduché roboty?

V následujícím textu uvádím systém TEXTQUEST, který může sloužit jako ukázka, jak se bude možné kvantitativní analýzy obsahu souboru textů zhostit. Je rovněž lingvisticky primitivní a nejnáročnější intelektuální práci za něho musí odvést člověk, ale mohu odkázat na další vývojové varianty, které jsou již na trhu, i když zpravidla zatím pouze za dolary. Cílem článku je především ukázat, jaké prvky textu jsou k automatické obsahové analýza potřeba a jaké algoritmy je k jejich zpracování nutné vytvořit.

Z výsledků obsahové analýzy je možné se o knihovním fondu, za předpokladu, že je digitálně zpracován, dozvědět mnohonásobně více než poskytuje jakkoliv pečlivě zpracovaný katalog nebo bibliografie. Poukáži na adresu jednoho výsledku obsahové analýzy z rozhlasového a televizního vysílání, protože rozhlas či televize jsou vlastně knihovny audiálních či vizuálních záznamů.

Doufám, že již první pohled na pracnost způsobu zpracování čtenáře-knihovníky neodradí.

Popis systému TEXTQUEST

Myšlenka TextQuest se relizovala v roce 1983 v německém Münsteru na počítači IBM.

TextQuest vytváří následující výstupy:

- slovník jednoslovných výrazů
- slovník slovních sekvencí
- slovník permutací slovních výrazů
- slovník konkordancí

Tyto slovníky mohou sloužit k jednoduchému popisu textů, jako jeho indexy nebo jako podklad k tvorbě kategorií pro obsahovou analýzu, analýzu obtížnosti textu a další zjištění.

Slovník jednoslovných výrazů je abecedně uspořádaný seznam výrazů s údajem o počtu výskytů

Slovník slovních sekvencí je seznam sekvencí obsahující 1.- 4. slova

Např. z věty: Vybavení škol a knihoven informačními a komunikačními technologiemi.

2 slova	3 slova	4 slova
Vybavení škol	Vybavení škol informačními	Vybavení škol informačními a
škol informačními	škol informačními a	škol informačními a komunikačními

(pozn.: předložky, spojky a další výrazy mohou být z textů eliminovány pomocí tzv. slovníku zakázaných výrazů). Potom by písmeno "a " v uvedených sekvencích nebylo použito).

Slovník permutovaných slovních výrazů

Permutace představuje skupiny slov vzniklé záměnou pořadí prvků slov dané množiny slov.

Vybavení škol
Vybavení a
Vybavení knihoven
Vybavení informačními
Vybavení a
Vybavení komunikačními

Slovník konkordancí

Konkordance slouží k zobrazení slova v kontextu spolu s údajem o umístění slova v kontextu. Analyzované slovo je umístěno uprostřed řádky a ostatní slova ho obtékají. Délku kontextu lze nadefinovat.

Ukázka:

je považován za básníka rodného kraje
kdybychom brali v úvahu
sbírce sleduje Březina jakoby Obsahová analýza:

Obsahová analýza v pojetí systému TextQuest je považována za transformaci textu do numerické podoby. Obsahovým kategoriím jsou přiřazeny číselné kódy a jsou s nimi prováděny obvyklé matematicko-statistické operace. Obsahové kategorie se tvoří s využitím výše uvedených slovníků.

Porovnávání slovníků

Slovníky jednoslovných či víceslovných výrazů jednotlivých textů mají velkou vypovídací schopnost. Výsledkem je zjištění podobnosti/rozdílnosti slovníků. Na základě údaje o míře podobnosti/rozdílnosti, lze vytvářet hypotézy o obsahové podobnosti/rozdílnosti dokumentů a vytvářet podklady pro tvorbu algoritmů. Lze například vytvořit program vytvořený na základě hypotézy, že texty jejichž slovníky obsahují větší počet shodných slov jsou obsahově podobnější. Výstup ve formě slovníků jednoslovných či víceslovných výrazů mohou sloužit jako prvky pro tvorbu selekčních jazyků, indexů apod.

Systém tvorby kategorií

Slovníky však lze využít k daleko náročnější a propracovanější analýze obsahu. Je ovšem potřeba vytvořit intelektuálně příslušné obsahové kategorie a uvést je do vztahu se slovníky textů.

Subsystém názvů kategorií

Struktura názvu (z oblasti sportu):

kód     název (60 znaků)
1        části těla
2        druh sportu
3        sportovní náčiní

Subsystém interaktivního přiřazování slovních výrazů jednotlivým kategoriím

Vyžaduje velké intelektuální úsilí při formulaci kategorií a při přiřazování slovních výrazů těmto kategoriím.

Slovník
Název kategorie
atom               1. části těla
auto                2. druh sportu
.                      3. sportovní náčiní
.               .
činka

Subsystém testování kategorií a jim přiřazených výrazů

Tímto postupem se jednotlivé výrazy stávají součástí kategorií. Činka se přiřadí do kategorie 3. sportovní náčiní. Užitečné bude provést kontrolu, zda všechny výrazy odpovídají obsahu kategorií a zda se neopakují. Slova slovníku, která nebyla vybrána do žádné z kategorií jsou uložena do zvláštního souboru.

Výsledky obsahové analýzy:

Analyzovaný text je následně testován pomocí souboru kategorií.

Výsledky jsou uspořádány do tří souborů:

Vektorový soubor:
číselné kódy jsou uspořádány do souboru v pořadí, jak se vyskytly v textu.

Tabulkový soubor:
každý kód obsahuje pole s číslem frekvence výskytu výrazu.

Binární soubor:
je podobný tabulkovému. Kódem kategorie je buď:
1 - nalezení alespoň jednoho výrazu v kategorii
0 - žádný výskyt nenalezen

Využití výsledků systému TextQuest

Ve srovnání se schopnostmi lidského intelektu jsou výsledky analýzy systému TextQuest samozřejmě nedostatečné. Člověk dospěje po přečtení textu okamžitě k určitějším a přesvědčivějším poznatkům o obsahu než popisovaný systém. Na rozdíl od člověka může však systém číst po libovolnou dobu díla uložená v digitální formě, nikdy se neunaví a všechny je posoudí z libovolného počtu hledisek.

Výsledkem automatické obsahové analýzy je tabulka kategorií uspořádaných podle vah výskytů jednotlivých výrazů v jednom textu nebo souboru textů.

kategorie	výskyt	T1, T2 … Tn	T celkem
Kategorie A	hodnota	hodnota	hodnota
.
.
.
Kategorie Z	hodnota	hodnota	hodnota

Tabulku výskytů kategorií jednoho textu poskytující informaci o jeho obsahové struktuře lze např. využít pro popis textu ve vyhledávacích systémech

Tabulka výskytů souboru textů je podkladem pro obsahovou analýzu. Obsahovou analýzou zde rozumíme analýzu podobnosti obsahových struktur souborů textů. Výsledkem je možnost výzkumu vývoje sledované problematiky v časových řadách, vytvářet na základě zjištění údajů z minulosti odhady do budoucnosti apod. Z knihovnického hlediska je důležitá možnost uspokojovat velice specifické a podrobné požadavky uživatele. Uživatel se již nemusí uspokojit s vyhledáním nepřehledného množství dokumentů na svůj dotaz, ale může získat, pokud formuluje přesně svůj dotaz, odpověď na to, jak se formulovaný problém vyvíjel, může vyjmout z rozsáhlejších monografií pouze tu část, která se zabývá jeho problémem důkladněji apod.

Kromě podkladů pro obsahovou analýzu poskytuje systém TextQuest podklady pro velmi zajímavá praktická využití: Měření čtivosti, čtenářské obtížnosti textu, využitelný zejména v pedagogické praxi při tvorbě učebnic a učebních textů odstupňovaných dle didaktické náročnosti pro jednotlivé stupně. V psychoterapeutické praxi je možné využít subsystém pro zjišťování příznaků schizofrenie.

Čtivost textu

Měření jazykové obtížnosti textu. Čeština má z hlediska měření čtivosti textu ve srovnání s angličtinou specifické zvláštnosti. Proto nejsou anglické míry čtivosti vždy použitelné. V naší praxi je například znám tzv. Mistríkův vzorec, který měří:

- délku věty ve slovech
- délku slova ve slabikách
- počet všech slov
- počet všech různých slov

Při měření obtížnosti textu se vychází se z hypotézy:
- čím je věta delší, tím složitější je model skutečnosti, předkládaný čtenáři,
- čím je slovo delší, tím obtížněji je čtenář vnímá (délka též svědčí o frekvenci užívání slova. Většina frekventovanějších slov se díky komunikačním mechanismům zkracuje.
- počet rozdílných slov: rozdílná slovas ztěžují čtenáři text tím, že častěji naráží na slova, která dosud v předchozím textu nevyskytla.

Systém TextQest používá následující algoritmus.

Subsystém měření čtivosti umožňuje používat 8 různých vzorců čtivosti, založených na měření syntaktických kriterií textu. Oproti jiným vzorcům nepracuje se vzorcem 100 slov, ale s celým textem či jeho částmi.
Hodnota vzorce je mezi 0-100. nejvyšší hodnoty dosahují texty nejlépe čtivé.

Jako ukázku uvádíme nejznámější - Flescheho vzorec:

REI= 206.835 - (počet slabikpočet slov * 0.864) - (počet slovpočet vět )

Analýza struktury osobnosti

Tento subsystém testuje příznaky schizofrenie.

Algoritmus zpracovaný podle E. Mitteneckera je založen na skutečnosti, že rozdíl mezi mentálně zdravým člověkem a schizofrenikem se pozná podle rozdílného počtu opakovaných slov. K tomu poskytuje systém dostatečné podklady.

Závěr

Obsahová analýza je i při její částečné automatizaci metoda velmi pracná a v současné situaci si lze jen obtížně představit její zařazení do knihovnického procesu. Stejně tak však bylo obtížné si ještě před několika lety představit možnost vybavení knihoven počítači, standardizovanými formáty či Internetem.

Obsahová analýza umožňuje nejen hlubší profilaci fondu vzhledem ke stále specifičtějším požadavkům odborníků, ale nabízí především možnost analyzovat digitalizované fondy jako celek a využít těchto informací k řešení společensky důležitých úkolů. Ve fondech knihoven je ukryto nepřeberné množství latentních informací, o nichž se zatím neví, jak je využívat. Bez automatizovaného nástroje, který porozumí obsahu, si lze také jen obtížně představit smysluplné provázání textů hypertextovými linky.

Z ukázky obsahové analýzy obsahu televizního a rozhlasového vysílání si lze udělat představu kolik informací lze vytěžit např. jen z výroků významných osobností. Nedej bože, aby se porovnaly jejich výroky v časových řadách za několik posledních let a někdo vznesl dotaz, proč se předchozí a současné výroky často málo podobají. Ale možná i z těchto důvodů není tato metoda, využívaná v době potlačené komunikace v krizových obdobích k dekódování utajených sdělení, příliš v módě.

Snad se však v nevinné oblasti knihovnictví podaří její slávu oživit.

Klíčová slova:

obsahová analýza

Hodnocení:

TEXTQUEST: software pro obsahovou analýzu

TEXTQUEST: software pro obsahovou analýzu

Popis systému TEXTQUEST

Ikaros.cz

Newsletter Ikaros.cz