Vyhledávání a video
1. Seznamte se s videem
V posledních zhruba dvaceti letech doznaly moderní informační technologie značného rozvoje. Počítače a nejen ony jsou výkonnější a uživatelům tak dovolují nahrávat nebo přehrávat hudbu či videa ve vysoké obrazové a zvukové kvalitě. Přestože by na tomto místě bylo vhodné ponořit se do historie kontejnerů, zvukových a obrazových formátů, což je předmětem již dříve zveřejněného článku YouTube, aneb tajemství videa a zvuku, záměrem tohoto článku je pohlížet na video více z uživatelského a vyhledávacího hlediska. Ze všeho nejdříve je však nutné definovat několik pojmů, které budou v tomto článku hojně používány [1].
1.1 Slovníček pojmů
Kodek (ang. codec) - složenina z počátečních slabik slov „kodér a dekodér“, respektive komprese a dekomprese; převzato z anglického codec analogického původu. Kodek je zařízení nebo počítačový program pracující na základě algoritmů, který dokáže transformovat datový tok a/nebo signál. Kodéry ukládají data do zakódované formy (většinou za účelem přenosu, uchovávání nebo šifrování). Naproti tomu dekodéry jsou používány pro obnovování přesné či alespoň originálu co nejpodobnější formy dat, např. pro zobrazování. Kodeky jsou implementací nějakého formátu, ať už standardizovaného (např. MPEG) nebo proprietárního (např. ASF).
Filtr (ang. Filter) – Souhrnné označení pro splitter (oddělovač video souboru na obraz, zvuk a titulky) a dekodéry obrazu a zvuku. DirectShow či FFDShow je soubor filtrů.
Obrazový bod (ang. pixel) – základní jednotka digitální grafiky, pixely jsou identifikovány souřadnicemi a jsou uspořádány do čtvercové soustavy, jejíž rozměry (šířka a výška) se nazývají rozlišení.
Rozlišení (ang. resolution) – počet pixelů v jenom řádku a sloupci (videa) monitoru.
Progresivní zobrazení (ang. progressive scan) – způsob, při němž jsou při přehrávání obrazu či videa zobrazovány celé snímky, za vteřinu je zobrazen určitý počet celých snímků, např. 25, 30. Vnímání obrazu je bez potíží.
Prokládané zobrazení (ang. interlaced scan) – způsob, při němž jsou při přehrávání obrazu či videa zobrazovány půlsnímky, za vteřinu je zobrazen dvojnásobný počet půlsnímků, např. 50. avšak reálně jde o poloviční počet sudých a poloviční počet lichých snímků, tedy 25 + 25. Subjektivní vnímání obrazu může být poznamenáno zrněním či rozklížením obrazu, zejména u pohyblivých elementů v záběru či při změně scény.
Poměr stran (ang. aspect ratio) – poměr výšky a šířky videa či monitoru. Poměr stranje ve vztahu k rozlišení udáván v základním tvaru zlomku, např. 4:3 a 16:9.
Vzorkovací frekvence (ang. sampling rate) - při pořizování zvukového signálu dochází k vytvoření až desítek tisíc vzorků za vteřinu. Pro lidské ucho je to frekvence 44 100 Hz (za sekundu se zaznamená 44 100 hodnot). Čím vyšší frekvenci chceme pořídit, tím vyšší vzorkovací frekvenci musíme použít, ale vždy minimálně dvojnásobnou, kvůli barvě zvuku. Snížením vzorkovací frekvence se nahrávka ochudí právě o tyto frekvence.
Snímková frekvence (ang. frame rate) – číslo, které udává počet snímků videa zaznamenávaných či zobrazených za vteřinu. Větší snímková frekvence znamená plynulejší dojem z přehrávání, kvalitnější obraz a větší velikost souboru. Udává se ve snímcích za vteřinu – FPS (frames per second).
(Multimediální) kontejner (ang. (Multimedia) Container) – kontejner povětšinou naznačuje výslednou příponu souboru, resp. definuje způsob uložení video stopy, zvukových stop, titulků a případně dalších částí do jednoho souboru. Kontejner není kodek, nedefinuje způsob (de)komprese. Kontejner nese informaci o použitých kodecích a způsobech synchronizace videa, zvuku a titulků [1 ; 2].
I-snímek (ang. I-frame), též také klíčový snímek (ang. keyframe) – takový snímek ve videu, který je kódován nezávisle na ostatních snímcích ve videu a je kódován celý jako obraz.
P-snímek (ang. P-frame) – takový snímek ve videu, který je závislý na předcházejícím I-snímku či P-snímku. U tohoto snímku je kódována pouze informace o změně vůči předešlým P-snímkům a I-snímku.
B-snímek (ang. B-frame) – takový snímek ve videu, který je závislý na předešlém P-snímku či I-snímku a současně na následujícím I-snímku či P-snímku. U tohoto snímku jsou kódovány pouze informace o změnách vůči předešlému I nebo P-snímku a následujícímu I nebo P-snímku [3].
1.2 Co najdeme ve videu?
Ačkoliv se to může zdát zbytečné, je vhodné na tomto místě připomenout, jakými základními složkami video disponuje. Jsou to text (ať už obrazově zachycen a nebo jako doprovodný materiál), zvuk a obraz, a tyto tři složky tvoří dohromady poněkud abstraktnější kategorii zvanou obsah. Přestože by to k tomu mohlo svádět, obsah videa nelze zredukovat pouze na text, obraz a zvuk. Většina filmů, seriálů, ale také třeba odborných přednášek zanechává v divákovi / posluchači určitý dojem. Právě tento dojem, vzpomínka, je pravděpodobně to nejčastější, vedle hereckého či personálního obsazení, co si divák pamatuje. Nelze totiž předpokládat, že by si běžný divák primárně přesně zapamatoval nějaký obraz či repliku, díky níž by mohl zpětně video dohledat.
Každá výše zmíněná základní složka videa má vlastní charakteristiky a zjednodušeně lze říci, že textem, obrazem i zvukem lze video vyhledávat, a text může navíc pomoci při hledání obrazu či zvuku. Zatímco text a zvuk může video postrádat a stále lze hovořit o videu, obraz je zcela klíčový, a právě proto se videu také (někdy s poněkud pejorativním nádechem) říká „pohyblivý obraz“ (angl. moving image).
Na tomto místě je důležité zmínit tři nezbytné „technické“ součásti, které tvoří video soubor. Jsou jimi komprimované video, komprimovaný zvuk a kontejner. Aby mohl uživatel soubor přehrát nebo s ním jinak pracovat, potřebuje rovněž tři součásti – splitter pro oddělení zakódovaného zvuku a videa spolu s dekodéry (kodeky) pro jejich dekódování. Splitteru s dekodéry obrazu a zvuku se souhrnně říká filtry. Následující tři kapitoly podrobněji pohlížejí na roli textu (kapitola 2), roli zvuku (kapitola 3) a obrazu (kapitola 4) ve videu a jejich procesech vyhledávání.
Všeobecnou otázkou vyhledávání videí je „Kdy a do jaké míry na zpracování samotných videí i vyhledávacího aparátu nasadit výpočetní techniku a kdy použít lidskou sílu?“
2. Textová složka videa a text jako vyhledávací nástroj
Text, přesněji alfanumerické znaky, jsou, řečeno v umělecké nadsázce, Popelkou videa jako takového, přestože mnohdy bývají vedlejším, byť nutným či vítaným doplněním zvukově obrazového dění. Z hlediska vyhledávání videí je text nejstarším a dodnes nejrozvinutějším vyhledávacím nástrojem.
2.1 Charakter(istiky) textu ve videu
Každé video obsahuje větší, či menší množství textu. I video, v jehož obrazové složce není text zastoupen vůbec, vždy obsahuje technické parametry, popisná metadata. Mezi nejdůležitější z nich můžeme zařadit délku videa, rozměry (rozlišení) videa, informace o použitých kodérech (kodecích), datových tocích a frekvencích, počet obrazových snímků za sekundu, velikost souboru, použitý kontejner a s ním související příponu souboru atd. Některé z těchto informací poskytne pouhý náhled souboru v operačním systému nebo přehrávač videí; pro zevrubný výpis těchto metadat lze doporučit volně dostupné programy, jako jsou např. GSpot či MediaInfo.
Uvažujeme-li nyní o videu, v němž je text zastoupen formou zakódování v obrazu, dostáváme se do širší oblasti. U většiny filmů, seriálů, ale i odborných videí je text zastoupen v roli zprostředkovatele názvových a jmenných údajů, tzn. úvodní či koncové titulky, název filmu, přednášky, jména herců či jiných tvůrců obsahu, přednášejícího aj. Text se ve videu vyskytuje rovněž jako součást „děje“, ať už z uměleckého hlediska (text dopisu, název obchodu), tak odborného (snímaná prezentace, zobrazený dokument, databáze aj.).
Třetí, neméně důležitou rolí textu ve videu, ať už je text součástí obrazu, součástí kontejneru videa nebo je tento text uložen v samostatném souboru, jsou titulky, které slouží jako jednodušší překladatelský nástroj než je dabing, anebo titulky pro neslyšící.
2.2 Role textu při vyhledávání videa
Význam textu při vyhledávání videa lze charakterizovat slovem „nezastupitelný“. Text byl prvním a je dodnes nejužívanějším prostředkem, jak video vyhledávat a to mnoha rozličnými způsoby. Kvalita a rozsah uplatnění textu při vyhledávání videa závisí na množství informací, které jsou textově zpracovány a zaindexovány. Výhoda textového vyhledávání je v tom, že dovoluje uživateli zadávat dotaz v přirozené a / nebo triviální podobě a výsledkem může být obrazová či zvuková kolekce záznamů. Text dovoluje popsat zcela konkrétní objekty (zelené auto na snímku z filmu nebo doslovný přepis dialogu) ale i abstraktnější zvukové či obrazové jevy (pláč, poklad). Všeobecnou nevýhodou textového vyhledávání videa je skutečnost, že je-li na jakýkoliv textový popis nasazen člověk (a nemusí to být ani profesionální indexátor), vždy se v jeho popisech najdou slabiny – užití nesouvisejících výrazů, nevelká slovní zásoba indexátora aj [4]. Mezi metody, kdy je na vstupu vyhledávání videa text, patří:
1) Vyhledávání názvové / jmenné – jde o zadávání názvových či personálních údajů, tyto údaje lze označit jako vnitřní metadata a jde především o název filmu, epizody seriálu, jméno herce, režiséra, scenáristy, jméno postavy, název producentské společnosti, datum výroby filmu aj.).
2) Vyhledávání externími (meta)daty – mezi tento typ vyhledávání lze zařadit tagová mračna, klíčová slova či jinak neorganizované textové řetězce, kterými mohou být videa opatřena. Do této kategorie je nutno zařadit i obsahově i kvalitativně velmi rozličné popisy děje ve videu (např. text distributora, do větných celků uživatelsky sestavený obsah filmu či znovu pouhá sousloví vyjadřující obsah videa). Jak bylo již výše zmíněno, technická metadata video souboru lze do této kategorie rovněž zařadit. Do tohoto typu vyhledávání patří i vyhledávání přes trvalé identifikátory [5].
3) Vyhledávání textového obsahu videa – vyhledávání videa přes text je spjato s textovým obsahem videa. Do této kategorie lze zařadit titulky, ať pro neslyšící či titulky překladu, a softwarové rozpoznávání textu v obraze videa.
4) Vyhledávání zvukové složky textem – toto vyhledávání souvisí se zvukovou složkou videa. Mezi oblasti, kdy se textem vyhledává zvuk, je softwarové rozpoznávání řeči, manuální přepisy zvuku do textu či vyhledávání řečových i neřečových zvukových složek videa [6].
5) Vyhledávání obrazové složky textem – vyhledávání textově zaznamenaných triviálních údajů o obraze (nejen) videa, údaje jsou zadávány pouze jako slovní řetězce [7].
2.3 Z praxe
V této kapitole je vhodné zmínit praktické příklady. Zmíněny, podle výše uvedeného členění, budou některé z webových sídel či vyhledávačů, na nichž lze rozličně textově vyhledávat videa podle různých údajů. Zmínit si ale rovněž zasluhují takové webové stránky, které ač nenabízejí vyhledávání primárně v oblasti videí, disponují takovými funkcemi, které by pro vyhledávání videa byly velmi přínosné. Všechny níže zmíněné weby a vyhledávače jsou (alespoň zčásti) zdarma, placené a volně nedostupné produkty nejsou zahrnuty.
Vyhledávání názvové / jmenné je nejrozšířenější z hlediska nabídky různých vyhledávačů a webových stránek i poptávky ze strany uživatelů, bez ohledu na přítomnost pokročilých vyhledávacích funkcí. Prakticky tento typ vyhledávání vypadá tak, že uživatel zadá do textového pole název filmu, epizody seriálu nebo jméno herce či jiné odpovědné osoby. Za všechny možné servery jmenujme alespoň dva, Československou filmovou databázi, www.csfd.cz [8] a Internet Movie DataBase, www.imdb.com [9].
Vyhledávání externími (meta)daty je rovněž velmi rozšířený způsob vyhledávání videí různého druhu. Stejně tak široká je i plejáda externích metadat, která mohou popisovat video z mnoha pohledů. Vyhledávání videí za pomoci tagových mračen je známo např. z YouTube, www.youtube.com [10]. Vyhledávání filmu dle jeho dějového obsahu, jinak řečeno dle zápletky, je možné opět v databázi www.imdb.com. Neméně zajímavou stránkou, s precizními, skoro až kriminalistickými kategorizacemi od „hlavního hrdiny“ až po „styl díla“ je All the watchers web, dostupný na www.allwatchers.com [11]. Vyhledávání videí podle technických metadat je možno např. na www.youtube.com či https://www.google.com/videohp [12].
Vyhledávání pomocí textového obsahu videa je z hlediska běžného uživatele relativně nový způsob vyhledávání videí, přesněji řečeno vyhledávání ve videích. Má-li video titulky, a je jedno, zda jsou uloženy v externím souboru či v kontejneru, lze je zaindexovat, a pomoci tak uživatelům vyhledávat videa skrze titulky. Druhou možností je extrakce textu z obrazu videa, což je velmi vhodný nástroj pro zachycení všech podstatných informací např. v odborných přednáškách. Vyhledávání pomocí titulků je k dispozici na serveru www.hulu.com [13], bohužel, Hulu je stále nedostupný pro uživatele mimo USA. Vyhledávání ve videozáznamech odborných přednášek i díky zachycení a zaindexování textových údajů z videí je možné na serveru www.talkminer.com [14], který umožňuje prohledávat videa s přednáškami a v nich obsažený text; asi netřeba připomínat, že pracovním jazykem je angličtina.
Vyhledávání zvukové složky textem je příbuzný způsob vyhledávání přes titulky. Ať už je zvuková stopa rozhlasového či televizního pořadu nebo videa přepsána manuálně anebo pomocí speciálního softwaru, výstupem je text a ten lze po indexaci vyhledávat stejně, jako vnitřní či externí metadata, která se k videu váží. Vyhledávání zvukové stopy je do určité míry možné ve vyhledávači Google, resp. ve videích na YouTube, nebo v rádiích Český Rozhlas a Impuls, na adresách www.impuls.cz [15] a www.rozhlas.cz [16]. Pro zajímavost, na adrese www.cogi.com [17] lze stáhnout demo software pro rozpoznávání řeči ve videích. Nevýhodou je opět přívětivost pouze pro angličtinu. Za zmínku stojí i vyhledávač http://www.findsounds.com/ [18], který uživateli dovoluje vyhledávat zvuky neřečové a nehudební povahy. K dispozici je i pragmatické třídění, pakliže se uživateli nedaří nic najít za použití jím volně tvořeného sousloví, kterým popisuje dotyčný zvuk.
Triviální vyhledávání obrazů, ať již obrazů jako takových či snímků zachycených z videí bylo v počátku možné na mnoha vyhledávačích, Google nevyjímaje. Avšak v dnešní době nelze obrazové vyhledávání Google považovat za triviální, neboť lze rešerši modifikovat atributy, které jsou vlastní obrazu či souboru s obrazem (barva, velikost aj.), více v kapitole 4.3. Triviální vyhledávání obrazů je dostupné např. na serveru http://images.search.yahoo.com/ [19].
3. Zvuková složka videa a zvuk jako vyhledávací nástroj
„,... zatímco hluchota odděluje člověka od lidí.“ praví druhá část výroku Heleny Kellerové [20]. Zjednodušeně řečeno zvuk ve videu dovoluje divákovi zpřesnit, zjemnit informace, které mu video podává svou obrazovou (někdy též textovou) složkou.
3.1 Charakter(istiky) zvuku ve videu
Většina videozáznamů (vyjma němého filmu, chybně kódovaných souborů a nebo záměrného vynechání) obsahuje zvukovou složku. Tato složka může přímo korespondovat s děním v záběru a nebo zvuk dění na obraze dotváří. Byť se nechá zvuk charakterizovat z hlediska jeho povahy či obsahu mnohými atributy, pro potřeby tohoto článku plně postačí členění základní. Zvuk má vlastnosti fyzikální, obsahové a technické (metadata).
Mezi fyzikální vlastnosti zvuku patří výška zvuku, která je dána jeho frekvencí – čím vyšší frekvence, tím vyšší zvuk. Další vlastnost zvuku je jeho barva, která je dána vyššími harmonickými tóny, např. rozdíly v tónech hudebních nástrojů či v hlasech lidí. Poslední vlastnost zvuku z hlediska fyziky je jeho hlasitost, což je subjektivní pojem popisující působení zvuku na sluch příjemce.
Zvuk z hlediska jeho obsahu je možno charakterizovat mnohými termíny, nicméně z hlediska videa lze zvuky rozdělit na hudbu, řeč a ruchy (neboli hluky). U řeči je rovněž důležitou charakteristikou jazyk.
Je-li zvuk ve videu přítomen, je dobré o něm vědět, nebo umět zjistit použitý formát, vzorkovací frekvenci, datový tok (jeho typ a hodnota), bitovou hloubku, počet kanálů, velikost souboru a délku zvukové stopy [21].
3.2 Role zvuku při vyhledávání videa
Zvukové či hudební vyhledávání z hlediska vyhledávání videí jako takových hraje (prozatím spíše) podpůrnou, doplňkovou roli. Většina vyhledávání, při nichž je cílem vyhledávání zvuková složka, probíhají přes textové zadávání rešeršního dotazu, nicméně je na tomto místě vhodné zmínit několik webových sídel, na nichž lze vyhledávat zvukovým, v převážné míře hudebním zadáním. Vyhledávat zvukem lze tedy melodie a písně, které byly užity ve videu, avšak toto vyhledávání musí být následně doplněno druhým krokem, kdy uživatel zjišťuje, ve kterých videích byla dotyčná skladba použita.
Mezi zvukové vyhledávání lze zařadit:
1) Vyhledávání ukázkou – uživatel odesílá zvukovou hudební nahrávku, kterou má k dispozici, k analýze.
2) Vyhledávání vyťukáváním – uživatel stiskne klávesu či tlačítko myši při každé další notě, která v duchu zazní.
3) Vyhledávání broukáním – uživatel zazpívá, zahvízdá či zabrouká tóny a / nebo část textu písně.
4) Vyhledávání notovým zápisem – uživatel zadává do (ne nutně jediné) notové osnovy (či mřížky) noty (příp. pomlky).
5) Vyhledávání zahráním – uživatel přes externí klaviaturu či klávesnici simuluje hru na hudební nástroj, většinou na klavír.
6) Vyhledávání obrysem melodie – uživatel zadává specifický textový řetězec, díky němuž je skladba dohledána podle vzájemného výškového poměru sousedících not (tónů) [21].
7) Hlasové vyhledávání – uživatel zadává hledané řetězce svým hlasem namísto psaní na klávesnici, případně hlasem ovládá i jiný než vyhledávací proces [22].
3.3 Z praxe
Jak již bylo zmíněno, zvukové a hudební vyhledávání ve videích je možné „nepřímou“ cestou. Hudební vyhledávání dovoluje vyhledávat melodie či písně. Ve filmovém průmyslu se o souboru písní a hudebních motivů jednoho díla hovoří jako o soundtracku. Klíčovou otázkou po úspěšném nalezení melodie či písně tedy je, zda existuje vazba mezi písní či melodií a daným filmem a uživatel dokáže tuto vazbu odhalit. Hlasové vyhledávání ve službách zvukové složky filmů a videí není volně k dispozici, akademické i komerční aktivity se soustřeďují spíše „opačným směrem“, tzn. zvuky a lidskou řeč převádět do textové podoby a vyhledávání následně zprostředkovat přes textový vstup.
Dominantní postavení ve vyhledávání ukázkou, které funguje zejména pro mobilní zařízení, má portál Shazam, dostupný na adrese www.shazam.com. Uživatel odesílá zvukový záznam (např. ve formátu MP3 či WAV) k porovnání se vzorkem v databázi hudebních záznamů [23].
Vyhledávání vyťukáváním funguje na adrese www.musipedia.org či www.bored.com/songtapper [24]. Uživatel při vyhledávání stiskne klávesu na klávesnice s každým dalším tónem, který si „v duchu“ zpívá.
Vyhledávání broukáním je poněkud širší rodina vyhledávacích metod, kdy uživatel svým hlasem umělecky „přednáší“ melodii či text skladby přes mikrofon. Broukání v tomto smyslu slova sdružuje zpěv, hvízdání či brumendo (zpěv se zavřenými ústy). Toto vyhledávání je možné na portálu www.midomi.com.
Vyhledávání notovým zápisem je metoda pro uživatele s pokročilou znalostí hudební teorie. Bez ohledu na vyhledávač uživatel zadává do notové osnovy noty, pomlky a posuvky. Z tohoto zadání je utvořen MIDI soubor, který je odeslán k analýze na shodu se vzorky v databázi. Vyhledávat notovým zápisem lze např. na www.peachnote.com [25] či www.musipedia.org.
Vyhledávání zahráním funguje přes webový prohlížeč, kdy uživatel „hraje jedním prstem“ na klavír melodii, kterou si pamatuje. Stejně jako při vyhledávání notovým zápisem i z tohoto procesu je vyhotoven MIDI soubor, který je odeslán na porovnání. Vyhledávat zahráním lze mj. na www.melodycatcher.com [26] či www.musipedia.org.
Vyhledávání obrysem melodie je netriviální forma textového vyhledávání hudby, přesto je vhodné ji zmínit v této kapitole, nikoliv kapitole zasvěcené textu. Textový řetězec je totiž sled symbolů, které popisují výškový vztah dvou sousedících not / tónů skladby. Možnosti vztahu jsou celkem 3 – tóny / noty jsou stejné výšky, první tón / nota je výš než tón / nota druhá a nebo první tón / nota je níže než tón / nota druhá. Tento typ vyhledávání je k dispozici v mnoha odborných hudebních bázích, jako je Répertoire International des Sources Musicales(zkr. RISM), a třeba na serverech www.peachnote.com či www.musipedia.org.
Hlasové vyhledávání, avšak jen jako náhrada textového vyhledávání, je v tuto chvíli možné pouze pro mobilní platformy prostřednictvím služby Google Voice Search, viz http://www.google.cz/intl/cs_ALL/mobile/voice-search/ [27]. Výsledky hlasového vyhledávání jsou totožné s těmi přes klávesnici zadanými, nicméně bude-li poptávka ze strany uživatelů a bude-li možno vyhledávací algoritmy upravit tak, aby uživatelé nacházeli přesné a úplné výsledky, nelze vyloučit v budoucnu hlasové vyhledávání (opět přes mikrofon, jako v případě vyhledávání broukáním) i ve zvukových stopách filmů a videí.
4. Obrazová složka videa a obraz jako vyhledávací nástroj
„Slepota odděluje člověka od věcí...,“ říká první část výroku Heleny Kellerové [20]. Prakticky vzato obraz je pro video zásadní a bez něj se stává „rozhlasovou hrou“. Obraz jako vyhledávací nástroj pro vyhledávání videa nemá tak bohatou historii, nicméně jde o oblast s nesmírně dynamickým rozvojem.
4.1 Charakter(istiky) obrazu ve videu
Obraz je zásadní, nikoliv však jediná složka videozáznamu. Je-li obrazová složka videa poškozena či nezobrazitelná, divák ztrácí „rychlou“ orientaci v tom, co video obsahuje, zvuk mu může absenci obrazu jen velmi omezeně nahradit. Obrazovou složku ve videu lze charakterizovat obsahově vnímatelnými atributy, technickými údaji (metadaty) a je také nutné zmínit princip kódování obrazu ve videu.
Mezi obsahově vnímatelné charakteristiky obrazu lze zařadit barvu, spolu s barevností a barevnou hloubkou. Barva je viditelný vjem (nejen lidského) oka a tento vjem má unikátní vlnovou délku a frekvenci. Barevnost (též barevný histogram) je soubor barev, které jsou v daném obrázku či videu k dispozici. Barevná hloubka je číselná hodnota, která udává, kolik bitů je vyhrazeno pro reprezentaci jednoho pixelu. Jinak řečeno barevná hloubka je údaj o tom, jakou z různých barev může pixel nést. Další hodnotou obrazu je jas, tedy svítivost pixelů v obraze. Černá barva má svítivost nulovou, bílá barva pak svítivost maximální. Při změně jasu se celé video stává buď tmavším nebo světlejším v závislosti na změně jasu, nižší vs. vyšší hodnota. Neméně důležitým parametrem je kontrast, veličina spjatá s možnostmi vidění oka. V základu jde o vyčíslení podílu jasu mezi nejsvětlejšími a nejtmavšími oblastmi videa. Další charakteristikou je tvar, tedy na obraze zachycené hranice objektu vůči okolnímu prostředí, které se ve videu projevují změnou jasu, kontrastu a barvy (zelené auto na asfaltové silnici). Poslední obsahově vnímatelnou vlastností obrazu je textura, což je plocha obrazu, která se charakteristicky barevně a strukturou odlišuje od ostatních oblastí obrazu (obloha i moře je „modré“ nicméně navzájem se liší) [28].
Mezi nejpodstatnější technická (meta)data, spjatá s obrazem videa, se řadí počet snímků za sekundu, celkový počet snímků ve videu, rozlišení obrazu (videa), poměr stran videa, informace o použitém kodéru obrazu, datový tok, typ zobrazení atd.
Nyní je důležité, i když zjednodušeně, objasnit, jak je obraz ve videu kódován. Uvažujme situaci, že video bude komprimované. To prakticky znamená, že některé snímky ve videu budou kódovány zcela nezávisle na zbývajících, v podstatě jako obrázky. Takovým snímkům se říká I-snímky (I-frames) či klíčové snímky (keyframes). Pak je tu skupina „předpovídaných“ snímků (predicted frames), P-snímků, u nichž jsou kódovány pouze změny oproti předešlému I-snímku nebo P-snímku. Takto se dá video úspěšně zakódovat a v závislosti na dalších nastaveních nebude mít tak nepřiměřenou velikost, jako kdyby každý jeho snímek byl kódován jako klíčový, tedy zjednodušeně každý snímek jako obraz. Obrazový materiál č. 1 ukazuje kódování videa za užití I-snímků a P-snímků.
Obrázový materiál 1: Schéma kódování videa za použití I a P-snímků [3]
Ve videu se mohou (ale nemusejí) objevit také „dvojsměrné“ (bidirectional) snímky, B-snímky, tedy takové snímky, u nichž je kódována změna vůči předešlému I-snímku nebo P-snímku a vůči následujícímu I-snímku či P-snímku [3]. Obrazový materiál č. 2 zobrazuje kódování videa, v němž jsou přítomny všechny druhy snímků, tedy I-snímky, P-snímky i B-snímky.
Obrazový materiál 2: Schéma kódování videa za použití I, P i B-snímků [3]
Dnes je běžnou praxí videa kódovat s I a P snímky, stejně jako s I, P i B snímky.
4.2 Role obrazu při vyhledávání videa
Je nutné si uvědomit, že statický obraz i video (pohyblivý obraz) mají většinu charakteristik, dle nichž je lze vyhledávat, společných. Zásadní rozdíl mezi obrazem videa a obrazem statickým je ten, že statický obraz je jaksi sám, nemá žádný bezprostřední kontext. Oproti tomu obrazová složka videa obsahuje kontext v rámci zvukové stopy, titulků a uvažujeme-li jeden snímek videozáznamu, pak má kontext i na úrovni ostatních snímků videozáznamu [29]. Video lze vyhledávat přes obrazovou složku těmito způsoby:
1) Vyhledávání ukázkou / příkladem – uživatel má k dispozici obrazový soubor z daného videa a tento soubor odesílá přes webové rozhraní k analýze do databáze s již dříve uloženými obrazy.
2) Vyhledávání náčrtkem – tato metoda dovoluje uživateli v jednoduchém grafickém editoru načrtnout, nakreslit, co hledá a takto vzniklý „obraz“ je porovnáván v databázi s již dříve uloženými obrazy.
3) Vyhledávání podle obrazových rysů a jejich kombinací – uživatel specifikuje jednu či více základních charakteristik obrazu (barva, tvar, textura) a přiřadí jim důležitost, např. obrázky s červenou barvou a travnatou strukturou, kde barva má důležitost 33% a textura 67%.
4) Vyhledávání podle pozice rysů – v tomto typu vyhledávání je kladen důraz na pozici, lokaci rysů v rámci obrazu, např. bílá v horní a modrá v dolní polovině obrazu.
5) Vyhledávání podle objektů a jejich vazeb – uživatel nepopisuje obraz jako celek, nýbrž objekt(y) na obraze, např. dítě vystupující ze žlutého školního autobusu.
6) Vyhledávání podle atributů obrazu – uživatel zadává atributy obrazu, např. rozlišení obrazu, DPI, geografickou lokaci na obraze, datum aj.
7) Konceptuální vyhledávání – v některých systémech jsou určité základní rysy obrazu extrahovány a tyto pak poslouží jako koncept, který může uživatel použít, např. sklizeň obilí, jako převažující žlutá barva na obraze, modrá v horní polovině obrazu a kombajn jako čtverec tmavé barvy v dolní polovině obrazu [30].
4.3 Z praxe
Sofistikované metody vyhledávání obrazů jsou v současnosti ve fázi teoretických modelů, pokusů a zkušebních provozů akademických institucí či soukromých společností. Nicméně přesto je vhodné v této kapitole zmínit i počítačové programy, které vyhledávání dle výše popsaných kritérií dovolují, nicméně množina výsledků nesestává z obrazových materiálů online, ale z obrazových materiálů uložených na daném počítači nebo na lokální síti [31].
Vyhledávání obrazové informace ukázkou / příkladem je sice v omezené míře a omezené množině výsledků, leč možné např. v systému CIRES (Content based Image Retrieval System), na adrese http://amazon.ece.utexas.edu/~qasim/cires.htm [32]. Nad množinou obrazových informací serveru Flickr lze vyhledávat přes vyhledávač Retrievr na adrese http://labs.systemone.at/retrievr/ [33].
Vyhledávání náčrtkem, kdy uživatel se pokouší primitivními způsoby reprodukovat obraz, který viděl (lhostejno, zda to byl statický či pohyblivý obraz), je možno díky programu nazvaném Search by Drawing, který je dostupný na webové adrese http://www.sepham.com/ [34] a nad obrazovými informacemi ze serveru Flickr opět přes http://labs.systemone.at/retrievr/.
Vyhledávání podle obrazových rysů a jejich kombinací je možné (byť jako demo a/nebo na omezeném indexu obrazů), např. v projektu PIRIA (Program for Indexing and Research Images by Affinity) na adrese http://www.kalisteo.org/demo/piria/ [35] nebo v online demo databázi společnosti Pixolution na adrese http://demo.pixolution.de/ [36]. Přestože jde jen zjednodušené vyhledávání podle barvy, je vhodné zmínit vyhledávač Google na www.google.com.
Vyhledávání obrazu podle pozice rysů je omezeně umožněno na webové adrese http://demo.pixolution.de/, kde uživatel může při rešerši specifikovat, v které části obrazu se nachází nějaká textová informace. Za zmínku stojí Multicolr Search Lab na webu TinEye, na adrese http://labs.tineye.com/multicolr [37], kde uživatel může velmi precizně vyvažovat podíly jednotlivých barev zastoupených v jím hledaném obraze, což může do značné míry nahradit ono vyhledávání „dle pozice rysů“, tedy namísto pozice barev specifikovat co nejpřesněji podíly barev.
Vyhledávání obrazů podle objektů a jejich vazeb je přítomno tehdy, pokud uživatel zadává jako rešeršní dotaz nikoliv název či jiné údaje o obraze, ale to, co je na obraze skutečně přítomno. Takto vyhledávat lze u většiny obrazových vyhledávačů, za všechny jmenujme vyhledávač Bing, na adrese http://www.bing.com/?scope=images [38] a Google, na adrese http://www.google.cz/imghp?hl=cs&tab=wi [39].
Vyhledávání podle atributů obrazu je již dnes k dispozici v největším vyhledávači volného webu, v Google, na adrese www.google.com.
Konceptuální vyhledávání si lze vyzkoušet na adrese http://picslikethat.com/ [40], kde uživatel vyhledává obrazy na základě konceptů a též objektů, je zde tedy určitý překryv s vyhledáváním objektů na obraze.
5. Postřehy, připomínky, náměty a zkušenosti
Video je bezesporu fascinující médium, které v sobě dokáže snoubit složku (pohyblivého) obrazu, zvuku a doplňkově také textu. Existuje ale řada menších, či větších obtíží, které uživatel počítače musí překonat, pokud chce (lhostejno na metodě) vyhledávat či přehrávat dohledané video.
5.1 Osobní zkušenosti s videem na PC
Byť je to výsostná věc každého uživatele, musím na tomto místě apelovat na rozvahu a zdravý rozum v situaci, kdy jsou s videem nějaké potíže. Operační systémy Windows si s sebou nesou určitou porci kodeků, přesněji dekodérů a filtrů, viz VfW a FFDShow [41 ; 42]. I tak se může stát, že video nelze vůbec načíst a nebo přehrát. V ten moment většina uživatelů sáhne po nějakém „instantním řešení“, kdy si stáhnou a nainstalují nějaký „all in one codec pack“. Toto řešení se s trochou nadsázky nechá přirovnat k nákupu celého železářství při skutečné potřebě několika specifických šroubů. Mnohem vhodnější a méně drastické řešení je ponejprv zjistit, jaké kodéry (kodeky) byly použity pro ono problémové video. Např. program GSpot toto umí identifikovat a umí i říci, zda je dekodér (kodek) nainstalován a funkční. Je-li tomu tak, pak je chyba v nastavení přehrávače a nebo nastavení FFDshow filtrů (dekodérů). Pokud dekodér (kodek) nainstalován není, je rozumné se po daném dekodéru (jen po něm) na internetu porozhlédnout, stáhnout a nainstalovat jej. Druhou možností je zvolit si takový přehrávač a nebo software na úpravu videa, který si při instalaci přináší kodéry i dekodéry s sebou, např. přehrávač JetAudio nebo program Avidemux.
Použití neklíčových snímků při kompresi videa s sebou nese výpočetní a paměťové nároky. V případě použití B-snímků jsou tyto snímky v datovém toku předcházeny svými referenčními snímky. Při použití neklíčových snímků musí dekodér udržovat ve své paměti snímky, které jsou pro dekódování dále příchozích snímků zapotřebí. Při přesunech ve videu (skok na určitou časovou pozici) musí přehrávač nejprve nalézt nejbližší předcházející klíčový snímek a pak od něj postupně dekódovat další snímky až ke snímku, na který má skočit. To je důvod, proč je např. střih videa s B-snímky obtížnější, než střih videa pouze s I-snímky a P-snímky, poněvadž aktuální pozice kurzoru na určitém snímku videa a k tomu zobrazený snímek nemusí být správný [3].
Další nepříjemností může být příliš „hustá“ nebo naopak „řídká“ četnost klíčových snímků. Zatímco při příliš husté četnosti bude extrahováno příliš mnoho obrazu, při řídké četnosti klíčových snímků hrozí vynechání určité scény či záběru. Toto se dá nastavit při rekompresi videa. Vhodným doplňkovým nástrojem se rovněž jeví kodek s VKI (variable keyframe interval) [43], při jehož použití se mohou klíčové snímky vkládat (také) při změně scény ve videu, nejen po určitém konstantním počtu snímků, resp. uběhnutém čase.
Vrátím-li se ke zvukové složce filmů a videí, je nutno připomenout, že většina vyhledávacích novinek a iniciativ přichází ze zámoří a dominantním rozpoznávaným jazykem je angličtina. Nicméně mnoho českých filmů a videí nemusí obsahovat originální (anglickou) zvukovou stopu, a tudíž vyhledávání české zvukové stopy nebude kvůli algoritmům parametrizovaným pro angličtinu možné [44].
5.2 Video a jeho možné problémy
Je otázkou, do jaké míry by mělo vyhledávání ve videu jít proti proudu, tedy být retrospektivní z hlediska roku vzniku videí (filmů, přednášek aj.). A hlavní problém retrospektivy zní: kde sehnat videomateriály? Pracovat s originály a pořizovat „nové digitální kopie“ nebo pracovat s již pořízenými kopiemi? A co v případě, že video má nějaký dílčí či celkový obrazový nebo zvukový defekt? Podívejme se pro zajímavost na některé z obrazových defektů, které mohou vzniknout při nekvalitním signálu nebo na nedigitálních médiích (VHS kazetách) a které mohou vyhledávání nejen přes obrazovou složku videa komplikovat [45].
Obrazový materiál 3A a 3B: Uskakující obraz / obraz bez úskoků
Na obrazových přílohách č. 3A a 3B lze spatřit jev, kdy při nekvalitním analogovém signálu obraz „přeskakuje“, to znamená, že horní část obrazu opouští obrazovku přes její horní okraj, vespod se objevuje okraj obrazové složky videa a následně se odspodu obrazovky obraz přes svou horní část vrací na obrazovku ve správné pozici. Tento jev se může několikrát za sebou zopakovat. Při této chybě nelze video vyhledávat přes obrazové vyhledávání, avšak vyhledávání videí přes textové údaje a nebo přes zvukovou složku je funkční, neboť tento obrazový defekt se zvuku zpravidla netýká.
Obrazový materiál 4A a 4B: Lokální zrnění / obraz bez zrnění
Na obrazových přílohách č. 4A a 4B je k vidění defekt, který je způsoben páskou videa, kdy lokální část obrazu chybí a místo ní je vidět zrnění. Při této chybě je velmi znesnadněno či úplně znemožněno obrazové vyhledávání a tento jev může být doprovozen defektem zvuku.
Obrazový materiál 5A a 5B: Ujíždějící obraz / obraz bez ujíždění
Obrazové přílohy 5A a 5B ukazují další z možných defektů videopásky, kdy obraz ujíždí z obrazovky ve vodorovném směru. Při tomto defektu nelze přes obraz video vyhledávat a je velká pravděpodobnost, že bude tímto defektem poškozen i zvuk.
Obrazový materiál 6A a 6B: Celkové zrnění / obraz bez zrnění
Pár obrazových příloh 6A a 6B ukazuje celkové zrnění obrazu, které je způsobeno opotřebovanou či jinak defektní páskou videa. Vyhledávání videa přes obraz není možné a pravděpodobnost poškození zvuku při tomto defektu je 1:1.
Obrazový materiál 7A a 7B: Ztráta barev / barevnost v pořádku
Obrazové přílohy s čísly 7A a 7B dokumentují ztrátu barev. Toto poškození obrazu bývá opět na straně videokazety a vyhledávání obrazové složky videa je možné na základě všech ostatních atributů vyjma vyhledávání přes barevné atributy obrazu. Tento defekt se zpravidla zvuku netýká.
Obrazový materiál 8A a 8B: Nesprávná barvnost / barevnost v pořádku
Dvojice obrazových příloh s čísly 8A a 8B ukazují nesprávnou barevnost obrazu videa. Ta bývá rovněž způsobena chybou na straně videokazety. Vyhledávání videa přes obrazové atributy je možné, vyjma atributů barevnostních. Zvuková složka videa tímto defektem postižena není.
Obrazový materiál 9A a 9B: Duchy v obraze / obraz bez duchů
Obrazové přílohy s čísly 9A a 9B zobrazují tzv. duchy, což je způsobeno poruchou či špatným natočením antény nebo silně nekvalitními povětrnostními podmínkami (nejčastěji mlha v kombinaci s větrem) při příjmu analogového signálu. Obrazové vyhledávání videa v tomto případě nelze vůbec použít. Jsou-li duchy v průběhu videa neměnné, neovlivňují ani zvukovou stopu.
Obrazový materiál 10A a 10B: Slabý signál / signál v pořádku
Obrazové přílohy 10A a 10B ukazují slabý analogový signál, jehož slabost nesouvisí s videokazetou, ale se vzdáleností vysílače, kvalitou a stářím antény a kabeláže. Obrazové vyhledávání při slabém signálu nelze použít a slabý signál s sebou často nese i poškození zvuku.
5.3 A kde je komplexní vyhledávač videí?
I přestože jsme na prahu roku 2013, je nutno poznamenat, že v době vzniku tohoto článku neexistuje, resp. není volně dostupný žádný vyhledávač videí, který by v sobě integroval všechny tři složky – vyhledávání textem, hudbou (zvukem) a obrazem. Zatímco vyhledávání videí přes textové řetězce je v rámci vyhledávání pevně zakořeněno, vyhledávání hudbou je dynamicky se rozvíjející odvětví. Vyhledávání hlasem nachází uplatnění a pevné místo v rámci mobilních platforem. Vyhledávání obrazem je „benjamínkem“ mezi vyhledáváními a jeho rozvoj lze zasadit do akademických týmů a soukromých institucí. Pokud je nějaké obrazové vyhledávání k dispozici, pak jedině jako „demo“ anebo jako program, který napřed prohledá počítač a teprve pak se může něco dít ve smyslu vyhledávání [46 ; 47 ; 48].
Jak jsem uvedl výše, protože sofistikovanější formy vyhledávání obrazové složky včetně videa, viz podkapitola 4.2, je z hlediska přítomných produktů na volném webu prozatím „v plenkách“, lze říci, že komplexní vyhledávač videí nemůže jako takový vzniknout. Základní otázky pro takový vyhledávač spatřuji celkem dvě: 1) Jak pokročilé a jak parametrizovatelné metody vyhledávání obrazu, zvuku a textové vyhledávání uživateli nabídnout, aby se necítil zmaten, ba co více, aby našel, co hledá, a na vyhledávač se v budoucnu vracel? 2) Do jaké míry uživatele začlenit či odstínit do samotného procesu vyhledávání? [49; 50]
5.4 Jak by mohl komplexní vyhledávač videí vypadat a fungovat?
Podíváme-li se na současnou plejádu serverů s videi, jako je např. YouTube, Stream.cz a další, je jasné, že vyhledávání se ve valné míře soustřeďuje na interní a externí metadatový aparát videí. Na serveru Hulu.com lze (zatím pouze na území USA) vyhledávat v titulcích pro neslyšící. Za zmínku dozajista stojí i meziuniverzitní sdílená kolekce videí na adrese www.open-video.org, kde lze hovořit o pokročilejším vnitřním členění videozáznamů dle jejich obsahové povahy, a dle bytostných charakteristik videí (barevné vs. černobílé, bez zvuku vs. se zvukem). Jinými slovy na různých produktech lze najít slibné pokusy, jak učinit vyhledávání videí přívětivějším a pokročilejším, než je tomu u „velkých hráčů“, jako jsou YouTube, Metacafe, Blinx aj [51].
Ačkoliv nejsem programátor ani matematik, nýbrž informační pracovník, domnívám se, že „sestavit“ a zahájit provoz komplexního vyhledávače videí je možný. Jde o to sestavit jednotné uživatelské rozhraní, které bude v sobě kombinovat tři dílčí vyhledávací masky – textovou, zvukovou a obrazovou. Uživatel jednoduše vybere zatržením, jakou složku či charakteristiku videa chce použít pro jeho vyhledávání. Při volbě jediné masky budou výsledky vyhledávání k dispozici ihned, pokud by uživatel vyhledával z více hledisek, např. v masce textové zadá jméno herce, o němž ví, že ve filmu hrál, v masce zvukové zadá do vyhledávacího pole část dialogu z filmu a v masce obrazové zadá charakteristiky určité scény filmu (co bylo na obraze, jakou to mělo barvu...). Výsledek pak nechť je množina takových výsledků, které jsou pro všechny tři dílčí masky totožné. A podle čeho v oněch dílčích maskách vyhledávat? Dle možností, zmíněných v kapitolách 2.2, 3.2 a 4.2 [52].
Prakticky vzato – textové vyhledávání videí může v navrhovaném vyhledávači vypadat v jednodušším módu jako např. na webové adrese www.imdb.com, v sofistikovanější podobě pak jako na webové adrese www.allthewatchers.com při přepnutí do nejpokročilejšího módu vyhledávání. Zvukové vyhledávání může být implementováno obdobně, jako pro mobilní platformy, vyhledávání hudební složky filmu pak může být zajištěno jako na serverech www.musipedia.org či www.midomi.com. Při konstrukci vyhledávací masky pro vyhledávání videí přes obraz se lze nepřímo inspirovat na adrese http://tvlistings.zap2it.com/tv/watch-tv-online?aid=zap2it, kde lze vyhledávat v televizním programu a pořadech vysílaných na amerických TV stanicích. Z hlediska obrazového vyhledávání pak stojí za implementaci vyhledávání ukázkou / příkladem, vyhledávání náčrtkem a vyhledávání podle obrazových rysů a jejich kombinací. Právě posledně zmiňované způsoby vyhledávání se musejí nejprve úspěšně etablovat v rámci volného webu a pak je lze teprve rozšířit do různých vyhledávačů.
6. Závěrem, aneb odhad budoucnosti
Zlí jazykové tvrdí, že největší penzum internetového obsahu tvoří filmy pro dospělé. S tím nelze nic jiného, než souhlasit. Je ale potřeba zmínit dva okamžiky, kdy tento druh „zábavy“ byl sesazen, byť na okamžik, z trůnu nejvyhledávanějšího obsahu. Prvním takovým okamžikem byl rok 1999, kdy na asi 2 měsíce návštěvníci hledali ponejvíce hudbu, přesněji MP3 soubory, to bylo v době, kdy MP3 zaznamenávaly světový rozmach. Druhou takovou chvilkou byl rok 2005, kdy bylo nejvyhledávanějším médiem video, resp. portál pro jeho prohlížení a sdílení, YouTube.
Výše zmíněné skutečnosti úzce souvisejí s budoucím rozmachem sofistikovaných, na obsah zaměřených (content-based) vyhledávačů. Zatímco v textu a zvuku (hudbě) už se nechá hledat pomocí obsahu, ve statickém obraze a pohyblivém obraze je ještě potřeba vyčkat nějaký čas, odhaduji nejdéle 3 roky, dokud světlo světa nespatří nějaká byť zprvu ne dokonalá (částečně) bezplatná služba, která uživatelům nabídne obsahové vyhledávání v obrazech, ať pohyblivých či statických. Pokud takový projekt a produkt nebude ztrátový, určitě se jej chopí nějaký nadnárodní koncern a s taktikou venture capital tento produkt vylepší a učiní jej více masovým a oblíbeným. Rozmach takové služby bude dle mého mínění umocněn pokračujícím rozmachem chytrých telefonů a jiných mobilních platforem.
Nezbývá nic jiného, než si přát, aby vyhledávání videí obsahovým způsobem spatřilo v masové míře světlo světa co nejdřív a pevně zakořenilo ve světě volného i placeného webu.
- VOCŮ, Ondřej. Když se řekne YouTube.... Ikaros [online]. 2011, roč. 15, č. 4 [cit. 2013-01-24]. Dostupný z: http://ikaros.cz/node/6758. URN-NBN:cz-ik6758. ISSN 1212-5075.
- VOCŮ, Ondřej. YouTube, aneb tajemství videa a zvuku. Ikaros [online]. 2011, roč. 15, č. 5 [cit. 2013-01-24]. Dostupné z: http://ikaros.cz/node/6803. URN-NBN:cz-ik6803. ISSN 1212-5075.
- Typ snímku. In: Wikipedie: otevřená encyklopedie [online]. San Francisco (Kalifornie): Wikimedia Foundation, 2001- last mod. 2012-03-15 [cit. 2013-01-27]. Dostupné z: http://cs.wikipedia.org/wiki/Typ_snímku.
- HANDL, Jan. Netextové vyhledávání je na Internetu stále problém. In Lupa.cz: server o českém internetu [online]. Praha : Internet Info, 2008-10-09 [cit. 2013-01-24]. Dostupné z: http://www.lupa.cz/clanky/netextove-vyhledavani-je-na-internetu-problem/. ISSN 1213-0702.
- GOODRUM, Abby A. Image Information Retrieval: an Overview of Current Research. Informing Science. 2000, Vol. 3, p. 63-66. ISSN 1521-4672. Dostupné též z: http://www.acsu.buffalo.edu/~marissac/conceptpaper/GOODRUM_OVERVIEW.pdf.
- SZÖKE, Igor. Igor Szöke – Automatické zpracování a dolování informací z audiovizuálních záznamů. In: Vimeo [online]. 2012-11-15 [cit. 2013-01-25]. 01:01:06. Kanál uživatele KISK. Dostupné z: http://vimeo.com/54092074.
- SNOEK, Cees G. M., WORRING, Marcel. Concept-Based Video Retrieval. Foundations and Trends in Information Retrieval. April 2008, vol. 2, issue 4, p. 215-322. ISSN: 1554-0669 (print). ISSN: 1554-0677 (online). Dostupné též z: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.156.5031&rep=rep1&type=pdf.
- Česko-Slovenská filmová databáze [online databáze]. Praha (Česká republika): POMO Media Group, c2001-2013 [cit. 2013-01-27]. Dostupné z: http://www.csfd.cz/.
- IMDb: Movies, TV and Celebrities [online databáze]. [s.l]: IMDb.com Inc., c1990-2013 [cit. 2013-01-27]. Dostupné z: http://www.imdb.com/.
- YouTube [online videodatabáze]. San Bruno (Kalifornie) : YouTube LLC, 2013 [cit. 2013-01-27]. Dostupné z: http://www.youtube.com/.
- GORDON, Steve. AllWatchers.com [online]. Houston (Texas): 2000-2013 [cit. 2013-01-27]. Dostupné z: http://allwatchers.com/default.asp.
- Google videa. In: Google: Česká republika [online vyhledávač]. Mountain View (Kalifornie): Google Inc., 2013 [cit. 2013-01-27]. Dostupné z: https://www.google.com/videohp.
- Hulu: watch TV, watch movies [online]. Los Angeles (Kalifornie): Hulu, c2012 [cit. 2013-01-27]. Dostupné z: http://www.hulu.com/.
- TalkMiner [online]. Palo Alto (Kalifornie): FXPAL, c2008-2011 [cit. 2013-01-27]. Dostupné z: http://talkminer.com/.
- Rádio Impuls: Ráááádio [online]. Praha (Česká republika): Rádio Impuls, 2013 [cit. 2013-01-27]. Dostupné z: http://www.impuls.cz/.
- Český rozhlas [online]. Praha: Česká republika: Český rozhlas, c1997-2013 [cit. 2013-01-27]. Dostupné z: http://www.rozhlas.cz/portal/portal/.
- Cogi: capture every detail from every important conversation without taking notes [online]. Santa Barbara (Kalifornie): Cogi Inc., c2008-2013 [cit. 2013-01-27]. Dostupné z: http://cogi.com/.
- FindSounds: Search the Web for Sounds [online vyhledávač]. Grass Valley (Kalifornie): Comparisonics Corporation, c2013 [cit. 2013-01-27]. Dostupné z: http://www.findsounds.com/.
- Yahoo! Search: Images. In:Yahoo! Search [online vyhledávač]. Sunnyvale (Kalifornie): Yahoo! Inc., c2013 [cit. 2013-01-27]. Dostupné z: http://images.search.yahoo.com/.
- Helen Kellerová. In: Wikipedie: otevřená encyklopedie [online]. San Francisco (Kalifornie): Wikimedia Foundation, 2001- last mod. 2012-10-16 [cit. 2013-01-30]. Dostupné z: http://cs.wikiquote.org/wiki/Helen_Kellerová.
- VOCŮ, Ondřej. Vyhledávání hudbou a jeho vazby na portály se sdíleným videem. Knihovna. 2012, roč. 23, č. 1, s. 63-83. [cit. 2013-01-24]. Dostupné z: http://knihovna.nkp.cz/knihovna121/12_163.htm. ISSN 1801-3252 (Print). ISSN 1802-8772 (Online).
- Hlasové vyhledávání. In: Wikipedie: otevřená encyklopedie [online]. San Francisco (Kalifornie): Wikimedia Foundation, 2001- last mod. 2012-09-18 [cit. 2013-01-26]. Dostupné z: http://cs.wikipedia.org/wiki/Hlasové_vyhledávání.
- Shazam [online]. London (Velká Británie): Shazam Entertainment Ltd, c2002–2013 [cit. 2013-01-28] Dostupné z: http://www.shazam.com/.
- SongTapper. In: Bored.com [online]. [s.l.]: Bored.com c1996-2013 [cit. 2013-01-29]. Dostupné z: http://www.bored.com/songtapper/.
- VIRO, Vladimir. Music Ngram Viewer [online]. [s.l.]: [s.n.], c2011 [cit. 2013-01-29]. Dostupné z: http://www.peachnote.com/.
- MelodyCatcher: the Internet Music Search Engine [online]. [s.l.]: MelodyCatcher, c2007-2010 [cit. 2013-01-29]. Dostupné z: http://melodycatcher.com/contact.php.
- Hlasové vyhledávání. In: Google Mobil [online]. Mountain View (Kalifornie): Google Inc., 2013 [cit. 2013-01-29]. Dostupné z: http://www.google.cz/intl/cs_ALL/mobile/voice-search/.
- BLAŽEK, Jakub. Systémy vyhledávání obrazových informací. Část II.: Problematika vyhledávání. Inflow: information journal [online]. 2010, roč. 3, č. 3 [cit. 2013-01-24]. Dostupné z: http://www.inflow.cz/systemy-vyhledavani-obrazovych-informaci-cast-i-problematika-vyhledavani. ISSN 1802-9736.
- GHODESWAR, Shweta, MESHRAM, B.B. Content Based Video Retrieval. In: Proceedings of ISCET 2010: International Symposium on Computer Engineering & Technology, 19th and 20th March 2010. Mandi Gobindgarh (Indie): RIMT Institute, 2010, page 135. ISBN 978-81-910304-0-2. Dostupné též z: http://www.rimtengg.com/iscet/proceedings/pdfs/advcomp/135.pdf.
- ALP ASLANDOGAN, Y., YU, Clement T. Techniques and systems for image and video retrieval. IEEE Transactions on Knowledge and Data Engineering. January/February 1999, vol. 11, no. 1, p. 56-63. ISSN 1041-4347. Dostupné též z: citeseerx.ist.psu.edu/viewdoc/download;jsessionid=EC41ECFAECB999F9988D139C141E894E?doi=10.1.1.53.4340&rep=rep1&type=pdf.
- CHANG, Shih-Fu, SMITH, John R., BEIGI, Mandis, BENITEZ, Ana. Visual Information Retrieval from Large Distributed On-line Repositories. Communications of the ACM. December 1997, vol. 40, no. 12, p. 63-71. ISSN 0001-0782. Dostupné též z: http://coitweb.uncc.edu/~jfan/chang4.pdf.
- IQBAL, Qasim. CIRES: Content based Image Retrieval System [online]. [s.l.]: Red Hat, 2008 [cit. 2013-01-29]. Dostupné z: http://amazon.ece.utexas.edu/~qasim/cires.htm.
- retrievr [online]. [s.l.]: System one, 2011 [cit. 2013-01-29]. Dostupné z: http://labs.systemone.at/retrievr/.
- COMITE, Marco. Sepham: Search by Drawing [online]. [s.l.]: [s.n.], c2001-2012 [cit. 2013-01-29]. Dostupné z: http://www.sepham.com/.
- PIRIA Demonstration. In: Ambient Intelligence - Interactive Systems[online]. Paris (Francie): CEA LIST, c2007 [cit. 2013-01-29]. Dostupné z: http://www.kalisteo.org/demo/piria/.
- pixolution vWeb demo. In: pixolution: the experts for image search technologies [online]. Berlin (Německo): pixolution GmbH, 2013 [cit. 2013-01-29]. Dostupné z: http://demo.pixolution.de/.
- Multicolr Search Lab. In: TinEye Labs [online]. Toronto (Kanada): Idée Inc., c2013 [cit. 2013-01-29]. Dostupné z: http://labs.tineye.com/multicolr.
- Bing: Images [online]. Redmond (Washington): Microsoft, c2013 [cit. 2013-01-29]. Dostupné z: http://www.bing.com/?scope=images.
- Google obrázky. In: Google: Česká republika [online vyhledávač]. Mountain View (Kalifornie): Google Inc., 2013 [cit. 2013-01-29]. Dostupné z: http://www.google.cz/imghp?hl=cs&tab=wi.
- PicsLikeThat: visual image search on fotolia. In: pixolution: the experts for image search technologies [online]. Berlin (Německo): pixolution GmbH, 2013 [cit. 2013-01-29]. Dostupné z: http://picslikethat.com/.
- Video for Windows. In: Wikipedia: the free encyclopedia [online]. San Francisco (Kalifornie): Wikimedia Foundation, 2001- last mod. 2012-10-10 [cit. 2013-01-28]. Dostupné z: http://en.wikipedia.org/wiki/Video_for_Windows.
- ffdshow. In: Wikipedia: the free encyclopedia [online]. San Francisco (Kalifornie): Wikimedia Foundation, 2001- last mod. 2013-01-21 [cit. 2013-01-28]. Dostupné z: http://en.wikipedia.org/wiki/FFDShow.
- ROTH, Volker. Content-Based Retrieval from Digital Video. Image and Vision Computing. May 1999, vol. 17, issue 7, p. 531-540. ISSN 1872-8138. Dostupné též z: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.40.340&rep=rep1&type=pdf.
- AIGRAIN, Philippe, ZHANG, HongJiang, PETKOVIC, Dragutin. Content-Based Representation and Retrieval of Visual Media: A State-of-the-Art Review. Multimedia Tools and Applications. 1996, vol. 3, no. 3, p. 197-202. ISSN 1573-7721. Dostupné též z: http://paigrain.debatpublic.net/docs/MTAP.pdf.
- Manuela [telenovela]. Režie Carlos Escalada. Námět Manoel Carlos. Buenos Aires, Řím: Crustel s.a., ReteItalia, Deltavision, 1991. Argentinská verze, 228 dílů. 37-43 min.
- Video search engine. In: Wikipedia: the free encyclopedia [online]. San Francisco (Kalifornie): Wikimedia Foundation, 2001- last mod. 2012-12-03 [cit. 2013-01-26]. Dostupné z: http://en.wikipedia.org/wiki/Video_search_engine.
- Audio search engine. In: Wikipedia: the free encyclopedia [online]. San Francisco (Kalifornie): Wikimedia Foundation, 2001- last mod. 2012-12-11 [cit. 2013-01-26]. Dostupné z: http://en.wikipedia.org/wiki/Audio_search_engine.
- Are there search engines for image, sound or movie content? In: Pandia Search & Social [online]. Oslo (Norsko): Pandia, 1998-2012, last mod 2007-01-12 [cit. 2013-01-26]. Dostupné z: http://www.pandia.com/sew/352-image-search.html.
- SCLAROFF, Stan, SHAPIRO, Linda. CBIVR: Content-Based Image and Video Retrieval [online]. Cambridge (Massachusetts): CSAIL: MIT Computer science and artificial intelligence laboratory, 2002 [cit. 2013-01-25]. Přednáškový materiál. Dostupné z: http://www.ai.mit.edu/courses/6.801/Fall2002/lect/lect24.pdf.
- LIANG, Edmund. Content-Based Video Retrieval System [online]. Dallas (Texas): SMU: Bobby B. Lyle School of Engineering, 2007 [cit. 2013-01-26]. Přednáškový materiál. Dostupné z: http:lyle.smu.edu/~mhd/8337sp07/pres/edmund.ppt.
- SMEATON, Alan F., WILKINS, Peter, WORRING, Marcel, ROOIJ, Ork de, CHUA, Tat-Seng, LUAN, Huanbo. Content-Based Video Retrieval: Three Example Systems from TRECVid. International Journal of Imaging Systems and Technology. August 2008, vol. 18, issue 2-3, p. 195-201. ISSN 0899-9457. Dostupné též z: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.175.1075&rep=rep1&type=pdf.
- WAN, Gary, LIU, Zao. Content-Based Information Retrieval and Digital Libraries. Information Technology and Libraries. March 2008, vol. 27, no. 1, p. 41-47. ISSN 2163-5226. Dostupné též z: http://www.ala.org/lita/ital/sites/ala.org.lita.ital/files/content/27/1/wan.pdf.