Zvuk v amatérském filmu - Zpracování zvuku

Množství informací za jednotku času

Při střihu musíme dávat pozor na to, aby nebyl výsledný zvuk příliš přesycený informacemi. O tom jsem napsal něco už v části o tvorbě postsynchronů (ořezání frekvencí). Nejde ale jen o zvuk. Musíme počítat i s obrazem. Celkový film totiž nesmí diváka nudit nebo příliš přetěžovat informacemi. Pokud je v určitém okamžiku v obraze příliš mnoho informací, nemůžeme zároveň ve zvukové stopě pustit komplikovanou hudbu a k tomu ještě informačně významné ruchy a mluvené slovo. Rozložme si celý film do několika proudů - obraz, hudba, ruchy a mluvené slovo (případně ještě titulky důležitého informativního charakteru). Každý tento proud může využívat celý pomyslný informační prostor jen tak, aby spolu s dalšími proudy diváka nepřetěžoval. V některých místech filmu mohou všechny proudy dost zeslábnout (pokud chceme nechat diváka odpočinout, což je taky důležité). Nesmí to být však v takové míře, aby se divák nudil.

Zamysleme se třeba nad scénou, kdy postava jde z místa A do místa B. Např. z bytu po chodbě a schodech ven. Během té doby se v obraze nic důležitého neděje (autor tím chtěl jenom říct, že se postava přemisťuje). Co se ruchů týče, tak jsou čistě doprovodné (kroky). Nic se neříká a hudba většinou také není příliš zajímavá (jedná se přeci jen o amatérský film, který nemá hudbu komponovanou přímo na míru od odborníků). Toto je typický příklad špatně promyšlené scény, která diváka nudí (i já jsem takovou natočil a pořád se s ní setkávám v různých amatérských filmech). Mimochodem, podobně je to i se scénou, kdy si postava dělá snídani. Nejhorší je, když je to obyčejný chleba s máslem, nebo jiné, ne zrovna dobře vypadající jídlo. Když už do filmu chceme dávat jídlo, tak by mělo vypadat dobře hlavně po vizuální stránce (a taky tu scénu s přípravou jídla moc neprotahovat). Je totiž dost možné, že divák bude zrovna po obědě a nebude mít na jídlo ani pomyšlení. A už vůbec ne na nějaké, které nevypadá zrovna nejlépe. A to na něj pak bude působit negativním dojmem, i když to tak autor vůbec nezamýšlel. Samozřejmě jiný případ je, pokud to tak autor chce schválně (např. vězeňská strava). Ale to už dost odbočuji.

Jiná situace nastává, když postava jde nějakou dlouhou vzdálenost a my touto scénou chceme říct, že putuje opravdu dlouho. Zde by mělo být v obraze vidět, že to postavu unavuje a že to s ním něco postupně dělá (prostě vývoj). To že se mění prostředí není až tak zajímavé. Divák se hlavně dívá na herce. Dobré je taky použít nějakou lepší hudbu (i když to bývá těžké).

Nebo původní scénu můžeme upravit jiným způsobem. Přidáme komentář vypravěče. Hned nám přibude informačně významný proud, který zajistí, aby se divák nenudil.

Další možnost použití původní scény je taková, že se zasadí za informačně velmi významnou scénu. Divák si potřebuje trochu odpočinout a utřídit informace. Potom tato nudná scéna nevadí, ba právě naopak.

Střih, úroveň šumu

Teď k trochu víc technickým záležitostem. Při střihu je velmi dobré zvuky prolínat. Ostrý přechod je poznat (hlavně když máme nějaký zvuk v pozadí). Častá chyba nastává v situaci, kdy máme relativně čistý zvuk. A při střihu nám připadá, že ho není třeba prolínat. Bohužel ale musíme myslet taky na to, že to co v reproduktorech není slyšet, může být slyšet na sluchátkách (nebo na jiném typu reproduktorů). Absolutně čistý zvuk bez šumu mít nikdy nebudeme, takže doporučuji opravdu vždy prolínat, ať nemáme hlasitostní skoky.

Další věc je, pokud používáme zvuk dvojí kvality. Např. jsme získali nějakou kvalitní hudební nahrávku, v podstatě bez šumu. A potom máme vlastní zvuk, kde je úroveň šumu o dost větší. V tomto případě je lepší mít pořád konstantní úroveň šumu. I v místech, kde nechceme mít žádné ruchy, pouze kvalitní hudbu. Pokud by totiž šum na chvíli přestal (ne nutně skokově, ale i relativně rychlým zeslabením) a potom by zase začal a bylo by to poznat, nebylo by to dobré. Hlavně pokud by šum začal v místě, kde se zrovna objeví nějaký ruch. A přestal v místě kde ruchy nejsou. Divák si totiž časem na určitou úroveň šumu zvykne a ignoruje ji. Pokud by se ale tato úroveň pořád měnila, rušilo by ho to.

Samozřejmě se najdou výjimky, kde to nevadí. Např. budeme šum ztlumovat velmi pomalu. Nebo ho ztlumíme v místě, které je hudebně výrazné, takže to nejde poznat.

Je velmi dobré, když hned na začátku filmu není šum slyšet vůbec. Pokud si divák zapne film a první co slyší je šum, působí to na něj dojmem, že film, který uvidí, bude nekvalitní po všech stránkách. Abychom se tomu vyhnuli, je třeba si s tím nějak chytře poradit. Pokud např. máme k dispozici kvalitní hudební nahrávku, může film začít právě hudbou a šum se může hodně pomalu zesilovat v průběhu. Nebo můžeme hned na začátku použít nějaký dostatečně hlasitý zvuk, ve kterém se šum ztratí. Ne vždy s tím však jde něco dělat.

Samozřejmě existuje různý software na odstranění šumu. Některé jsou více účinné, některé méně. Osobně doporučuji používat je s mírou. Některé totiž odstraní šum, zároveň však dost výrazně zkreslí zvuk, o který nám jde. Najdou se i lepší, které mají minimální vliv zkreslení na mluvené slovo. Pokud se však v nahrávce vyskytne nějaký zvuk s jinou frekvenční charakteristikou než má mluvené slovo, už si s ním nedokáží tak dobře poradit a vliv zkreslení je také znatelný.

Kompresor

K vyrovnání dynamiky hlasitosti slouží zařízení (software), které se jmenuje kompresor (neplést si s komprimací zvuku do formátu MP3 apod.). Často se stává, že náš nahraný zvuk není, co se hlasitosti týče, vyrovnaný. Chvíli jsme mířili mikrofonem trochu mimo, chvíli herci stáli dál, chvíli zase mluvili víc potichu než jindy. Není to dobré řešit automatickou regulaci vstupní hlasitosti (na kameře nebo jiném záznamovém zařízení). Lepší je při zpracování zvuku použít kompresor.

Kompresor pracuje na následujícím principu. Pokud hlasitost zvuku přesáhne určitou hodnotu (threshold), tento hlasitý zvuk se zeslabí o určitou hodnotu (ratio, amount). Vezměme si příklad, kdy je threshold nastaven na -5 dB a ratio na 3:1. Pokud je zvuk pod -5 dB, nic se neděje. Jakmile ale přesáhne -5 dB, např. na hodnotu -2 dB, zeslabí se tento rozdíl (3 dB) na 1/3. Rozdíl je tedy jenom 1 dB. Výsledná hlasitost bude místo -2 dB jen -4 dB. Čím větší je poměr hodnoty ratio, tím větší je i limitace. Existuje zařízení s názvem limiter, které funguje podobně jako kompresor, ale hodnotu ratio má nastavenu na nekonečno:1. Nikdy se tedy nepřekročí hladina threshold. Podobný efekt mají i kompresory s nastaveným ratio vetším než 10:1. Omezení je tak velké, že je lze považovat za limitery.

Kompresor má ale i jiné parametry než threshold a ratio. Dá se nastavit, jak rychle se zvuk ztlumí na požadovanou hladinu po překročení threshold. Tomuto parametru se říká attack. Běžně se nastavuje v jednotkách až desítkách milisekund. Dále lze nastavit tzv. release, což je podobný parametr, jen určuje, jak rychle se přestane zeslabovat, pokud hlasitost klesne zpět pod threshold. Tady se běžně nastavují hodnoty ve stovkách milisekund, až několik málo sekund.

De-esser

Existují i kompresory, které pracují v určitém nastaveném frekvenčním pásmu. Někdy se stává, že v záznamu mluveného slova jsou přehnaně slyšet tzv. sykavky. Jedná se o souhlásky jako s, z, c, š atd. To není žádoucí. Kompresor tedy můžeme nastavit tak, aby pracoval pouze ve frekvenčním pásmu těchto sykavek. Potom se mluví o tzv. de-esseru.

Ruční srovnání hlasitostí, normalizace

I když použijeme kompresor a dobře ho nastavíme, často musíme některé části regulovat ručně. Osobně bych tuto regulaci rozdělil na lokální a globální.

Lokální myslím případ, kdy máme v záznamu velký hlasitostní skok. Např. silný krátký zvuk úderu. Představme si, že máme v programu pro zpracování zvuku ukazatel který měří od 0 dB (nejhlasitější zvuk) do -nekonečno dB (ticho). Máme zvukový soubor kde běžný zvuk dosahuje úrovně max. -7 dB. Tento zvuk by se hodilo normalizovat tak, aby max. hladina byla 0 dB. Jenomže v jednom místě máme krátké hlasitý úder dosahující hlasitosti -0,5 dB a délky asi 0,02 sec. Pokud zvuk upravíme jako na obrázku (v místě nejvyšší hlasitosti postupně zvuk ztlumíme o asi 21 dB), dosáhneme snížení přibližně o 7 dB, aniž by to bylo subjektivně nějak výrazně poznat. A celý zvukový soubor můžeme normalizovat.

Na obrázku vidíte grafické znázornění zvuku (délka výřezu je 30 ms). V místě největší hlasitosti je zvuk postupně ztlumen až o 21 dB. Celkově se dosáhlo snížení hlasitosti asi o 7 dB. Subjektivní snížení hlasitosti však není skoro vůbec znatelné.

Mluvil jsem ale i o něco jako globální hlasitosti. Hlasitost v celém filmu by totiž měla být vyrovnaná. Často se stává, že stříháme film po částech, které potom nakonec spojíme dohromady. Každá z nich má trochu jinou průměrnou hlasitost. Film si potom celý pustíme. Při zapnutí nastavíme hlasitost reproduktorů tak, aby nám to vyhovoval. Pokud je hlasitost v některé části filmu nedostatečná nebo naopak, tak podvědomě, aniž bychom si to pořádně uvědomili, upravíme hlasitost na reproduktorech. To ale nemůže udělat každý (např. divák na veřejné projekci).

Další věc je, že váš film může být oproti jiným v průměru jinak hlasitý. Což samozřejmě není dobré. Nejlepší způsob jak to řešit je asi ten, že si veškerou hlasitost, kromě hlasitosti reproduktorů, nastavíme na maximum. To znamená výstupní hlasitost ve střihovém programu, v operačním systému, v přehrávači videa. Potom si pustíme několik běžných filmů (profesionálních) a nastavíme hlasitost reproduktorů tak, aby nám zvuk vyhovoval. Potom se vrátíme do střihového programu, kde máme kompletní film připravený pro finální export. Procházíme náhodně úseky našeho filmu a snažíme se upravit hlasitost tak, aby byla přijatelná. Snažíme se postupně náhodně proklikat všechny části filmu. Náhodně to doporučuji dělat pro to, že kdybych to dělali postupně, tak se může stát, že budeme mít tendenci hlasitost postupně zvyšovat nebo snižovat. Pokud budeme procházet film náhodně, stane se nám, že na razíme na místa, která jsem už upravovali. Tak si pořád děláme kontrolu, že je hlasitost všude stejná. Dobré je taky pustit si na chvíli i kousky profesionálních filmů v přehrávači, abychom hlasitost průběžně porovnávali s jiným filmem. Musíme ale dávat pozor na to, že výstupní hlasitost střihového programu musí být na stejné úrovni jako u přehrávače videa (nejlépe na maximální, protože přehrávač může hlasitost ukazovat v jiných jednotkách než střihový program). Je také třeba dávat pozor na to, že v některých operačních systémech lze nastavit hlasitost pro každou aplikaci zvlášť mimo rozhraní aplikace (např. ve Windows 7 je to Směšovač hlasitosti, ve Windows XP to nastavit nelze).

Stereo

O stereu už jsem něco napsal výš. Teď jen doplním nějaké praktické záležitosti.

Stereo při střihu

Se stereem by se to nemělo přehánět. Pokud chceme zvukem zvýraznit nějakou akci, která se děje mimo obraz, pak zvuk můžeme na stereo bázi trochu posunout. Nikdy ale neposunujme o víc jak 50%. Při poslechu na sluchátkách to může být nepříjemné. Také si můžeme pomáhat zpožděním zvuku.

Běžné dialogy a ruchy, které jsou v obraze, klidně můžeme mít přímo uprostřed. Nebo jen mírně posunuty. Ale jen minimálně, nesmí se to přehánět. Máme např. scénu, kde vedle sebe stojí dvě osoby a vedou dialog. Obě jsou v záběru na obraze. Když ale mluví levá, tak slyšíme zvuk výrazně zleva. Když pravá, tak zprava. Pokud se akce děje v obraze, pak používejme stereo jen jemně, skoro neznatelně.

Naopak hudbu nebo hluk prostředí můžeme s výhodou rozprostřít do celé šíře.

Tvorba stereo zvuku z mono zvuku

Pokud potřebujeme vytvořit stereo zvuk prostředí z mono zvuku, je to velmi jednoduché. Zvuk prostředí je totiž jen taková vycpávka, která je v podstatě pořád stejná a nemá žádné výrazné body nebo změny. Můžeme ji tedy relativně libovolně prodlužovat opakováním a prolínáním, můžeme jí pod synchronním zvukem celkem libovolně posunovat. Když tedy chceme z takové mono nahrávky vytvořit stereo, můžeme ji např. rozpůlit na dvě stejně dlouhé části, ty dát do dvou stop pod sebe a každou stopu nastavit do jednoho reproduktoru.

Někdy ale potřebujeme vytvořit stereo i z jiného zvuku. Např. z hudby. Existuje několik metod, které většinou pracují např. s mírným zpožděním v jednom kanále. Ty mají ale některé nevýhody a nedoporučuje se je používat. Jedna z nejhorších je otočení fáze v jednom kanále. O této metodě jsem již psal. Zvuk pak může znít nepříjemně nejen ve sluchátkách, ale i z reproduktorů. Hlavní nevýhoda ale je, že pokud tento stereo zvuk smícháme zpět do mono zvuku (což se děje např. u mono televizí, levnějších notebooku atd.), neuslyšíme nic, protože se stopy navzájem odečtou. Při obyčejném zpoždění jednoho z kanálů se zase velmi projevuje tzv. hřebenový filtr. O něm jsem už také psal.

Naštěstí existuje jedna celkem dobrá metoda. Mono zvuk si dáme do 3 stop. 1. stopu necháme jak je. 2. a 3. stopu zpozdíme o stejnou dobu (přibližně kolem 10 ms). 2. potom nasměrujeme doleva, 3. doprava (nebo naopak) a u 3. (nebo 2.) otočíme fázi. Pokud se takto vytvořený stereo zvuk smíchá do mona, 2. a 3. stopa se odečte a dostaneme 1. stopu. Tedy původní mono zvuk.

Rychlost

Jistě víte, co se stane pokud zvuk zrychlíme nebo zpomalíme. Při zrychlení jsou všechny tón vyšší a při zpomalení hlubší. Existuje ale metoda, která umožňuje do určité míry měnit rychlost zvuku bez změny výšky tónu. Jedná se o tzv. pitch shift. Existuje spoustu různých algoritmů. Některé jsou více kvalitní, některé méně. Některé jsou určený pro konkrétní typ zvuku (řeč, bubny atd.). Pomocí těchto algoritmů můžeme také samozřejmě měnit výšku tónu bez změny rychlosti. Nebo kombinovat změnu rychlosti i výšky tónu. Je dobré si ale uvědomit, že změnu je možné udělat jen v rozmezí několika málo půltónů. Potom se už zhoršuje kvalita zvuku.

Jen pro představu - pokud budeme měnit výšku tónů bez pitch shift algoritmu a původní zvuk bude mít délku 1 minuta, pak zvýšení o 1 půltón způsobí změnu délky na 56,632 sec. O 2 půltóny na 53,454 sec. O 5 půltónů na 44,949. O 12 půltónů (tedy jednu oktávu) na 30 sec (polovinu).

Maximizace

Nyní se už pomalu dostáváme do závěrečných prací zpracování zvuku. Vzpomeňte si, když jsem psal o tom, že bychom měli zvuk normalizovat podle ostatních profesionálních filmů. Může se však stát, že ať se snažíme jak chceme, výsledný zvuk pořád není tak hlasitý jako zvuk profesionální. U filmu to tedy většinou nebývá problém. Ale hudební nahrávky jsou zpravidla hlasitější než filmy. Jak tedy zesílit zvuk ještě víc, i když už je normalizovaný?

Dá se využít tzv. maximizace. Zde nevím, jestli všechny maximizéry fungují na stejném principu, ale minimálně jeden z principů využívá kompresor. Zvuk se nejdřív rozdělí do několika frekvenčních pásem. Každé pásmo má potom svůj kompresor. Výsledek se smíchá a normalizuje. Dosáhne se tak subjektivního efektu zesílení zvuku až o několik dB. Tento krok by se měl se zvukem provádět až jako úplně poslední (u filmu se může často vynechat).

Dynamika

Výhodou komprimovaného zvuku je, že je relativně dobře poslouchatelný i v hlučnějším prostředí (auto, oslava atd.). Pokud bychom totiž měli zvuk s velkým dynamickým rozsahem (obsahoval by velmi tiché části i velmi hlasité části), tiché úseky by v hluku mohli zaniknout. Pokud bychom pak zvuk na výstupu zesílili, pak by byl zas zvuk při nástupu hlasitější části nepříjemný a rušivý. Velká výhoda je nejen v hlasitých prostředích, ale naopak ve velmi tichých, kde potřebujeme být potichu. Např. v noci. Jistě znáte situaci, kdy si chcete pustit nějaký film nebo hudbu v noci, ale nechcete probudit někoho kdo spí ve vedlejší místnosti. Pokud má zvuk velký dynamický rozsah, tak musíme pořád regulovat hlasitost. V tichých částech totiž už skoro nic neslyšíme a v hlasité by byly moc hlasité. Proto pro kontrolu výsledné dynamiky doporučuji provádět kontrolu právě v noci, kdy si zvykneme být víc tiší a citlivý a hlasitostní změny.

Kontrola výsledku

Velmi užitečná věc (i profesionálové ji dělají) je zkontrolovat výsledný zvuk na různých reproduktorech a v různém prostředí. Pokaždé totiž může znít dost odlišně a může se zdát, že některé části nebudou tak výrazné jak bychom potřebovali. Nebo hůř, někde nebude rozumět mluvenému slovu. Minimálně vždy vyzkoušejte zvuk na běžných domácích reproduktorech k počítači, na méně kvalitních reproduktorech notebooku, ve sluchátkách a na reproduktorech televize. Dobré je pustit si film i v mono verzi. Velký rozdíl také bývá při projekci ve velkých a někdy i hlučných prostorech (hospoda nebo festival). Je to sice velmi pracné, ale hodně to pomůže.

Osobně jsem se setkal s problémem, že hlavně na reproduktorech notebooku dochází v některých hlasitějších částech k rezonanci. Často se to dá ale řešit odřezáním konkrétního úzkého frekvenčního pásma. Je třeba si s tím ale pohrát a správné pásmo najít. Nesmí být moc velké, aby nedošlo ke zkreslení zvuku.

Při práci se zvukem odpočívejte. I sluch se může unavit a po několika hodinách strávených nad filmem můžeme slyšet poněkud odlišně, než jak jsme slyšeli na začátku. Další den se pak můžeme hodně divit, co jsme to včera vytvořili.

Export zvuku, formáty

Zde bych chtěl odkázat na moje dva články, které jsou sice primárně zaměřený na digitální video, je v nich však řeč i o zvuku. Jsou to Digitální video - pojmy a software a Teorie digitálního videa.

V kostce bych chtěl ale říct, že pokud budete zvuk exportovat s úmyslem ho znovu zpracovat, používejte bezztrátovou kompresi (kompresi dat, neplést s kompresí dynamiky) (formát FLAC) nebo nepoužívejte kompresi vůbec (formát WAV). Ztrátovou kompresi (formát MP3 nebo AC3) používejte pouze u finálního exportu celého filmu (nebo celé zvukové stopy filmu, která se pak dá připojit k video souboru bez rekomprimace pomocí programů jako Avidemux nebo VirtualDubMod).

U zvuku pro video soubor je standardem vzorkovací frekvence 48000 Hz. Ne 44100 Hz! To je standard pro hudbu na CD, MP3 apod. Bitová hloubka bývá 16 bitů. Pokud exportujeme verzi pro internet, běžně se používá formát MP3 a datový tok 128 kbps. Pokud chceme kvalitnější zvuk, můžeme jít v případě MP3 až k 256 kbps (vyšší datové toky u MP3 už nemají smysl, jsou neefektivní). U DVD, nebo pokud chceme mít zvuk vícekanálový, se používá formát AC3. K dosažení dobré kvality je ale třeba trochu větší datový tok. U stereo to je běžně 224 kbps, u 5.1 zvuku 384 kbps.

Pokud chceme opravdu dobrou kvalitu (i poměr kvalita/velikost), pak můžeme použít formát Vorbis (někdy označován jako OGG). Dobré kvality je dosahováno u datových toků od 64 kbps až po 320 kbps. Problém je s podporou v přehrávačích, která je sice slušná, ale ne zaručená (na rozdíl od MP3).

Osobně u zvuku nepoužívám proměnný datový tok. Často jsem s ním měl totiž problémy při zpracování (i když jsem se zvukem jako takovým nic nedělal, jen ho připojoval k jinému videu). Pokud však víte co děláte, klidně do toho.

Napsáno: 27. 2. 2010, Autor: Radim