Kompresja w praktyce. Mastering w odwrotnej kolejności: czy można zwiększyć dynamikę skompresowanych nagrań? Zakres dynamiczny skompresowany lub standardowy
W czasach, gdy badacze dopiero zaczynali rozwiązywać problem tworzenia interfejsu głosowego dla komputerów, często musieli tworzyć własny sprzęt, który pozwala wprowadzać informacje dźwiękowe do komputera, a także wyprowadzać je z komputera. Dzisiaj takie urządzenia mogą być przedmiotem zainteresowania jedynie historycznego, ponieważ współczesne komputery można łatwo wyposażyć w urządzenia wejścia i wyjścia dźwięku, takie jak adaptery dźwięku, mikrofony, słuchawki i głośniki.
Nie będziemy wchodzić w szczegóły urządzenie wewnętrzne tych urządzeń, ale porozmawiamy o tym, jak działają i przedstawimy kilka zaleceń dotyczących wyboru dźwiękowych urządzeń komputerowych do pracy z systemami rozpoznawania i syntezy mowy.
Jak powiedzieliśmy w poprzednim rozdziale, dźwięk to nic innego jak wibracje powietrza, których częstotliwość mieści się w zakresie częstotliwości odbieranych przez człowieka. U różnych osób dokładne granice zakresu słyszalnych częstotliwości mogą się różnić, ale uważa się, że drgania dźwięku leżą w zakresie 16-20 000 Hz.
Zadaniem mikrofonu jest przekształcanie drgań dźwiękowych w drgania elektryczne, które można następnie wzmocnić, przefiltrować w celu usunięcia zakłóceń i zdigitalizować w celu wprowadzenia. informacja dźwiękowa do komputera.
Zgodnie z zasadą działania najpopularniejsze mikrofony dzielą się na węglowe, elektrodynamiczne, pojemnościowe i elektretowe. Niektóre z tych mikrofonów wymagają do działania zewnętrznego źródła prądu (np. mikrofon węglowy i pojemnościowy), inne natomiast pod wpływem drgań dźwięku są w stanie samodzielnie generować przemienne napięcie elektryczne (są to mikrofony elektrodynamiczne i elektretowe).
Możesz także rozdzielać mikrofony według celu. Są mikrofony studyjne, które można trzymać w dłoni lub zamontować na statywie, są mikrofony radiowe, które można przypiąć do ubrania i tak dalej.
Istnieją również mikrofony zaprojektowane specjalnie dla komputerów. Mikrofony te są zwykle montowane na statywie umieszczonym na powierzchni stołu. Mikrofony komputerowe można łączyć ze słuchawkami, jak pokazano na ryc. 2-1.
Ryż. 2-1. Słuchawki nagłowne z mikrofonem
Jak wybrać z całej gamy mikrofonów ten, który najlepiej nadaje się do systemów rozpoznawania mowy?
Zasadniczo możesz poeksperymentować z dowolnym posiadanym mikrofonem, o ile można go podłączyć do adaptera audio komputera. Jednak twórcy systemów rozpoznawania mowy zalecają zakup mikrofonu, który podczas pracy będzie znajdował się w stałej odległości od ust mówiącego.
Jeśli odległość między mikrofonem a ustami się nie zmieni, to średni poziom sygnału elektrycznego pochodzącego z mikrofonu również nie zmieni się zbytnio. Wpłynie to pozytywnie na jakość nowoczesnych systemów rozpoznawania mowy.
Jaki jest tutaj problem?
Osoba jest w stanie z powodzeniem rozpoznawać mowę, której głośność zmienia się w bardzo szerokim zakresie. Ludzki mózg jest w stanie odfiltrować cichą mowę z hałasu, takiego jak hałas samochodów jadących ulicą, obce rozmowy i muzyka.
Jeśli chodzi o nowoczesne systemy rozpoznawania mowy, ich możliwości w tym zakresie pozostawiają wiele do życzenia. Jeśli mikrofon stoi na stole, to gdy odwrócisz głowę lub zmienisz pozycję ciała, zmieni się odległość między ustami a mikrofonem. Spowoduje to zmianę poziomu wyjściowego mikrofonu, co z kolei obniży niezawodność rozpoznawania mowy.
Dlatego podczas pracy z systemami rozpoznawania mowy najlepsze rezultaty osiągniemy, jeśli użyjemy mikrofonu dołączonego do słuchawek, jak pokazano na ryc. 2-1. Podczas korzystania z takiego mikrofonu odległość między ustami a mikrofonem będzie stała.
Zwracamy również uwagę na fakt, że wszelkie eksperymenty z systemami rozpoznawania mowy najlepiej przeprowadzać w odosobnieniu, w cichym pokoju. W takim przypadku wpływ zakłóceń będzie minimalny. Oczywiście, jeśli trzeba wybrać system rozpoznawania mowy, który może działać w warunkach silnych zakłóceń, to testy trzeba wykonać inaczej. Jednak, o ile wiedzą autorzy książki, odporność na zakłócenia systemów rozpoznawania mowy jest nadal bardzo, bardzo niska.
Mikrofon dokonuje dla nas transformacji drgań dźwiękowych na wibracje. prąd elektryczny. Te wahania można zobaczyć na ekranie oscyloskopu, ale nie spiesz się do sklepu, aby kupić to drogie urządzenie. Wszystkie badania oscylograficzne możemy przeprowadzić przy użyciu konwencjonalnego komputera wyposażonego w adapter dźwięku, np. adapter Sound Blaster. Później powiemy Ci, jak to zrobić.
Na ryc. 2-2 pokazaliśmy oscylogram sygnału dźwiękowego uzyskanego podczas wymawiania długiego dźwięku a. Ten przebieg został uzyskany przy użyciu programu GoldWave, który omówimy w dalszej części książki, a także przy użyciu adaptera audio Sound Blaster i mikrofonu podobnego do pokazanego na ryc. 2-1.
Ryż. 2-2. Oscylogram sygnału audio
Program GoldWave pozwala na rozciągnięcie przebiegu wzdłuż osi czasu, co pozwala zobaczyć najdrobniejsze szczegóły. Na ryc. 2-3 pokazaliśmy rozciągnięty fragment oscylogramu dźwięku, o którym mowa powyżej.
Ryż. 2-3. Fragment oscylogramu sygnału audio
Zauważ, że wielkość sygnału wejściowego z mikrofonu zmienia się okresowo i przyjmuje zarówno wartości dodatnie, jak i ujemne.
Gdyby w sygnale wejściowym występowała tylko jedna częstotliwość (czyli gdyby dźwięk był „czysty”), przebieg odbierany z mikrofonu byłby sinusoidalny. Jednak, jak już powiedzieliśmy, widmo dźwięków mowy ludzkiej składa się z zestawu częstotliwości, w wyniku czego kształt oscylogramu sygnału mowy jest daleki od sinusoidalnego.
Sygnał, którego wielkość zmienia się nieustannie w czasie, nazwiemy sygnał analogowy. To jest sygnał pochodzący z mikrofonu. W przeciwieństwie do analogu, sygnał cyfrowy to zestaw wartości liczbowych, które zmieniają się dyskretnie w czasie.
Aby komputer mógł przetworzyć sygnał audio, musi on zostać przekonwertowany z postaci analogowej na cyfrową, czyli przedstawiony jako zbiór wartości liczbowych. Proces ten nazywa się cyfryzacją analogową.
Digitalizacja sygnału audio (i dowolnego analogowego) odbywa się za pomocą specjalnego urządzenia o nazwie Analogowy do cyfrowego konwertera ADC (przetwornik analogowo-cyfrowy, ADC). To urządzenie znajduje się na płytce adaptera dźwięku i jest zwyczajnie wyglądającym mikroukładem.
Jak działa konwerter analogowo-cyfrowy?
Okresowo mierzy poziom sygnału wejściowego i wyprowadza na wyjście wartość liczbową wyniku pomiaru. Proces ten zilustrowano na ryc. 2-4. Tutaj szare prostokąty oznaczają wartości sygnału wejściowego, mierzone w pewnym stałym przedziale czasu. Zbiór takich wartości jest cyfrową reprezentacją wejściowego sygnału analogowego.
Ryż. 2-4. Pomiary zależności amplitudy sygnału od czasu
Na ryc. Na rysunku 2-5 pokazaliśmy podłączenie przetwornika analogowo-cyfrowego do mikrofonu. W takim przypadku sygnał analogowy jest podawany na wejście x 1, a sygnał cyfrowy jest usuwany z wyjść u 1 -u n.
Ryż. 2-5. Analogowy do cyfrowego konwertera
Przetworniki analogowo-cyfrowe charakteryzują się dwoma ważnymi parametrami - częstotliwością konwersji oraz liczbą poziomów kwantyzacji sygnału wejściowego. Właściwy dobór tych parametrów ma kluczowe znaczenie dla uzyskania odpowiedniej cyfryzacji sygnału analogowego.
Jak często trzeba mierzyć wartość amplitudy wejściowego sygnału analogowego, aby informacja o zmianach wejściowego sygnału analogowego nie została utracona w wyniku cyfryzacji?
Wydawałoby się, że odpowiedź jest prosta – sygnał wejściowy powinien być mierzony jak najczęściej. Rzeczywiście, im częściej przetwornik analogowo-cyfrowy dokonuje takich pomiarów, tym lepiej będzie śledzić najmniejsze zmiany amplitudy analogowego sygnału wejściowego.
Jednak zbyt częste pomiary mogą prowadzić do nieuzasadnionego wzrostu przepływu danych cyfrowych i marnowania zasobów komputerowych w przetwarzaniu sygnałów.
Na szczęście, właściwy wybór częstotliwość konwersji (częstotliwość próbkowania) jest dość prosta. Aby to zrobić, wystarczy odwołać się do twierdzenia Kotelnikowa, znanego specjalistom w dziedzinie cyfrowego przetwarzania sygnałów. Twierdzenie to mówi, że częstotliwość konwersji musi być dwukrotnością maksymalnej częstotliwości widma konwertowanego sygnału. Dlatego, aby zdigitalizować bez utraty jakości sygnału audio, którego częstotliwość mieści się w zakresie 16-20 000 Hz, należy wybrać częstotliwość konwersji nie mniejszą niż 40 000 Hz.
Należy jednak pamiętać, że w profesjonalnym sprzęcie audio częstotliwość konwersji jest wybierana kilkakrotnie większa niż podana wartość. Ma to na celu osiągnięcie bardzo Wysoka jakość dźwięk cyfrowy. W przypadku systemów rozpoznawania mowy ta jakość nie ma znaczenia, więc nie będziemy zwracać Twojej uwagi na ten wybór.
A jaka częstotliwość konwersji jest potrzebna do digitalizacji dźwięku ludzkiej mowy?
Ponieważ dźwięki mowy ludzkiej leżą w zakresie częstotliwości 300-4000 Hz, minimalna wymagana częstotliwość konwersji wynosi 8000 Hz. Jednakże wiele programy komputerowe Rozpoznawanie mowy wykorzystuje standardową częstotliwość konwersji 44 000 Hz dla konwencjonalnych adapterów audio. Taki współczynnik konwersji z jednej strony nie prowadzi do nadmiernego wzrostu strumienia danych cyfrowych, a z drugiej zapewnia odpowiednią jakość digitalizacji mowy.
W szkole uczono nas, że przy każdym pomiarze pojawiają się błędy, których nie można całkowicie wyeliminować. Błędy takie wynikają z ograniczonej rozdzielczości przyrządów pomiarowych, a także z tego, że sam proces pomiarowy może wprowadzać pewne zmiany wartości mierzonej.
Przetwornik analogowo-cyfrowy przedstawia wejściowy sygnał analogowy jako strumień liczb o ograniczonej pojemności. Konwencjonalne adaptery audio zawierają 16-bitowe bloki ADC zdolne do reprezentowania amplitudy sygnału wejściowego jako 216 = 65536 różnych wartości. Urządzenia ADC w wysokiej klasy sprzęcie audio mogą być 20-bitowe, co zapewnia większą dokładność odwzorowania amplitudy sygnału audio.
Nowoczesne systemy i programy rozpoznawania mowy zostały stworzone dla zwykłych komputerów wyposażonych w zwykłe adaptery dźwiękowe. Dlatego, aby przeprowadzać eksperymenty z rozpoznawaniem mowy, nie musisz kupować profesjonalnego adaptera audio. Adapter taki jak Sound Blaster doskonale nadaje się do digitalizacji mowy w celu dalszego rozpoznawania.
Wraz z użytecznym sygnałem do mikrofonu zwykle wchodzą różne odgłosy - hałas z ulicy, szum wiatru, obce rozmowy itp. Hałas ma negatywny wpływ na jakość systemów rozpoznawania mowy, dlatego należy się nim zająć. Jednym ze sposobów, o których już wspomnieliśmy, jest to, że dzisiejsze systemy rozpoznawania mowy najlepiej sprawdzają się w cichym pomieszczeniu, pozostając sam na sam z komputerem.
Jednak nie zawsze da się stworzyć idealne warunki, dlatego trzeba użyć specjalnych metod, aby pozbyć się zakłóceń. Aby zmniejszyć poziom szumów, przy projektowaniu mikrofonów stosuje się specjalne sztuczki i specjalne filtry, które usuwają częstotliwości z widma sygnału analogowego, które nie przenoszą przydatna informacja. Ponadto stosowana jest taka technika, jak kompresja zakresu dynamicznego poziomów sygnału wejściowego.
Porozmawiajmy o tym wszystkim w kolejności.
filtr częstotliwości Nazywa się urządzenie, które przekształca widmo częstotliwości sygnału analogowego. W tym przypadku w procesie transformacji następuje selekcja (lub pochłanianie) oscylacji określonych częstotliwości.
Możesz myśleć o tym urządzeniu jako o czymś w rodzaju czarnej skrzynki z jednym wejściem i jednym wyjściem. W stosunku do naszej sytuacji do wejścia filtra częstotliwości zostanie podłączony mikrofon, a do wyjścia przetwornik analogowo-cyfrowy.
Filtry częstotliwości są różne:
filtry dolnoprzepustowe;
Filtry górnoprzepustowe
Przepuszczanie filtrów pasmowych
blokowanie filtrów pasmowych.
Filtry dolnoprzepustowe(filtr dolnoprzepustowy) usuwa z widma sygnału wejściowego wszystkie częstotliwości, których wartości są poniżej określonej częstotliwości progowej, w zależności od ustawienia filtra.
Ponieważ sygnały audio mieszczą się w zakresie 16-20 000 Hz, wszystkie częstotliwości poniżej 16 Hz można odciąć bez pogorszenia jakości dźwięku. W przypadku rozpoznawania mowy ważny jest zakres częstotliwości 300-4000 Hz, więc częstotliwości poniżej 300 Hz można wyciąć. W takim przypadku wszelkie szumy, których widmo częstotliwości leży poniżej 300 Hz, zostaną odcięte od sygnału wejściowego i nie będą zakłócać procesu rozpoznawania mowy.
Podobnie, filtry górnoprzepustowe(filtr górnoprzepustowy) wycina z widma sygnału wejściowego wszystkie częstotliwości powyżej określonej częstotliwości progowej.
Ludzie nie słyszą dźwięków o częstotliwości 20 000 Hz lub wyższej, więc można je wyciąć z widma bez zauważalnego pogorszenia jakości dźwięku. W przypadku rozpoznawania mowy można wyciąć wszystkie częstotliwości powyżej 4000 Hz, co doprowadzi do znacznego obniżenia poziomu zakłóceń wysokoczęstotliwościowych.
Filtr pasmowy(filtr pasmowy) można traktować jako połączenie filtra dolnoprzepustowego i filtra górnoprzepustowego. Taki filtr zatrzymuje wszystkie częstotliwości poniżej tzw częstotliwość dolnego przejścia, jak również powyżej górna częstotliwość przepustowa.
Tak więc dla systemu rozpoznawania mowy wygodny jest filtr pasmowoprzepustowy, który opóźnia wszystkie częstotliwości, z wyjątkiem częstotliwości z zakresu 300-4000 Hz.
Jeśli chodzi o filtry pasmowe (filtr pasmowy), pozwalają one wyciąć z widma sygnału wejściowego wszystkie częstotliwości, które leżą w danym zakresie. Taki filtr jest wygodny na przykład do tłumienia szumu, który zajmuje pewną ciągłą część widma sygnału.
Na ryc. 2-6 pokazaliśmy podłączenie filtra przelotowego.
Ryż. 2-6. Filtrowanie sygnału audio przed digitalizacją
Muszę powiedzieć, że zwykłe adaptery dźwiękowe zainstalowane w komputerze mają filtr pasmowy, przez który przechodzi sygnał analogowy przed cyfryzacją. Szerokość pasma takiego filtra odpowiada zwykle zakresowi sygnałów audio, czyli 16-20 000 Hz (w różnych adapterach audio wartości górnych i dolnych częstotliwości mogą się nieznacznie różnić).
Ale jak osiągnąć węższe pasmo 300-4000 Hz, odpowiadające najbardziej informacyjnej części spektrum mowy ludzkiej?
Oczywiście, jeśli masz upodobanie do projektowania sprzętu elektronicznego, możesz zrobić swój własny filtr z układu wzmacniacza operacyjnego, rezystorów i kondensatorów. Tak właśnie zrobili pierwsi twórcy systemów rozpoznawania mowy.
Jednak przemysłowe systemy rozpoznawania mowy muszą być zdolne do pracy na standardowym sprzęcie komputerowym, więc sposób wytwarzania specjalnego filtra pasmowoprzepustowego nie jest tutaj odpowiedni.
Zamiast tego w nowoczesne systemy przetwarzanie mowy wykorzystuje tzw cyfrowe filtry częstotliwości zaimplementowane w oprogramowaniu. Stało się to możliwe po procesor komputer stał się wystarczająco potężny.
Zaimplementowany w oprogramowaniu cyfrowy filtr częstotliwości przekształca wejściowy sygnał cyfrowy na wyjściowy sygnał cyfrowy. Podczas procesu konwersji program w szczególny sposób przetwarza strumień wartości liczbowych amplitudy sygnału pochodzącego z przetwornika analogowo-cyfrowego. Wynikiem konwersji będzie również strumień liczb, ale ten strumień będzie odpowiadał już przefiltrowanemu sygnałowi.
Mówiąc o przetworniku analogowo-cyfrowym, zauważyliśmy takie ważna cecha, jako liczba poziomów kwantyzacji. Jeśli w adapterze audio jest zainstalowany 16-bitowy konwerter analogowo-cyfrowy, to po digitalizacji poziomy sygnału audio mogą być reprezentowane jako 216 = 65536 różnych wartości.
Jeśli jest kilka poziomów kwantyzacji, to tzw szum kwantyzacji. Aby zredukować ten szum, wysokiej jakości systemy cyfryzacji dźwięku powinny używać przetworników analogowo-cyfrowych z maksymalną dostępną liczbą poziomów kwantyzacji.
Istnieje jednak inny sposób na zmniejszenie wpływu szumu kwantyzacji na jakość sygnału audio, który jest wykorzystywany w systemach cyfrowego nagrywania dźwięku. Stosując tę technikę, sygnał jest przepuszczany przez nieliniowy wzmacniacz przed digitalizacją, która uwydatnia sygnały o małej amplitudzie sygnału. To urządzenie wzmacnia słabe sygnały silniejszy niż silny.
Ilustruje to wykres amplitudy sygnału wyjściowego w funkcji amplitudy sygnału wejściowego pokazany na ryc. 2-7.
Ryż. 2-7. Wzmocnienie nieliniowe przed digitalizacją
Na etapie konwersji zdigitalizowanego dźwięku z powrotem na analogowy (który omówimy w dalszej części tego rozdziału), sygnał analogowy jest ponownie przepuszczany przez nieliniowy wzmacniacz, zanim zostanie wyprowadzony do głośników. Tym razem zastosowano inny wzmacniacz, który uwydatnia sygnały o dużej amplitudzie i ma odwrotną charakterystykę przenoszenia (zależność amplitudy sygnału wyjściowego od amplitudy sygnału wejściowego) niż przy digitalizacji.
Jak to wszystko może pomóc twórcom systemów rozpoznawania mowy?
Jak wiesz, osoba całkiem dobrze rozpoznaje mowę wypowiadaną cichym szeptem lub dość głośnym głosem. Można powiedzieć, że dynamiczny zakres poziomów głośności pomyślnie rozpoznanej mowy dla osoby jest dość szeroki.
Niestety dzisiejsze systemy komputerowego rozpoznawania mowy nie mogą się jeszcze tym pochwalić. Aby jednak nieco rozszerzyć określony zakres dynamiki przed cyfryzacją, możliwe jest przepuszczenie sygnału z mikrofonu przez wzmacniacz nieliniowy, którego charakterystykę przenoszenia pokazano na ryc. 2-7. Zmniejszy to poziom szumu kwantyzacji podczas digitalizacji słabych sygnałów.
Twórcy systemów rozpoznawania mowy ponownie zmuszeni są skupić się przede wszystkim na dostępnych na rynku adapterach dźwięku. Nie zapewniają one opisanej powyżej nieliniowej konwersji sygnału.
Możliwe jest jednak stworzenie programowego odpowiednika nieliniowego wzmacniacza, który konwertuje zdigitalizowany sygnał przed przekazaniem go do modułu rozpoznawania mowy. I chociaż taki wzmacniacz programowy nie będzie w stanie zredukować szumu kwantyzacji, można go wykorzystać do podkreślenia tych poziomów sygnału, które przenoszą najwięcej informacji mowy. Na przykład możesz zmniejszyć amplitudę słabych sygnałów, pozbywając się w ten sposób sygnału szumu.
Poziom dźwięku jest taki sam w całej kompozycji, jest kilka pauz.
Zawężenie zakresu dynamicznego
Zawężenie zakresu dynamicznego, czyli prościej kompresja, jest niezbędny do różnych celów, najczęstsze z nich:
1) Osiągnięcie jednego poziomu głośności w całej kompozycji (lub części instrumentu).
2) Osiągnięcie jednego poziomu głośności kompozycji w całym albumie / audycji radiowej.
2) Zwiększenie zrozumiałości, głównie przy kompresji określonej partii (wokal, bęben basowy).
Jak następuje zawężenie zakresu dynamicznego?
Kompresor analizuje wejściowy poziom audio, porównując go z wartością progową zdefiniowaną przez użytkownika.
Jeśli poziom sygnału jest poniżej wartości Próg– wtedy kompresor kontynuuje analizę dźwięku bez jego zmiany. Jeśli poziom dźwięku przekroczy wartość Threshold, kompresor rozpocznie działanie. Ponieważ rolą kompresora jest zawężenie zakresu dynamiki, logiczne jest założenie, że ogranicza on największe i najmniejsze wartości amplitudy (poziom sygnału). Na pierwszym etapie ograniczane są największe wartości, które maleją z pewną siłą, którą nazywamy Stosunek(Nastawienie). Spójrzmy na przykład:
Zielone krzywe pokazują poziom dźwięku, im większa amplituda ich oscylacji od osi X, tym wyższy poziom sygnału.
Żółta linia to próg (próg) działania sprężarki. Zwiększając wartość Threshold użytkownik odsuwa ją od osi X. Zmniejszając wartość Threshold przybliża ją do osi Y. Oczywiste jest, że im niższa wartość progowa, tym częściej kompresor będzie działają i odwrotnie, im wyżej, tym rzadziej. Jeśli wartość Ratio jest bardzo wysoka, to po osiągnięciu poziomu sygnału Threshold, cały kolejny sygnał zostanie stłumiony przez kompresor do wyciszenia. Jeśli wartość Ratio jest bardzo mała, nic się nie stanie. Dobór wartości Threshold i Ratio zostanie omówiony później. Teraz powinniśmy zadać sobie następujące pytanie: Jaki jest sens tłumienia wszystkich kolejnych dźwięków? Rzeczywiście, nie ma to sensu, wystarczy pozbyć się wartości amplitudy (pików), które przekraczają wartość Threshold (zaznaczoną na wykresie na czerwono). Aby rozwiązać ten problem, istnieje parametr Wydanie(Fade out), który określa czas trwania kompresji.
Przykład pokazuje, że pierwsze i drugie przekroczenie progu trwają krócej niż trzecie przekroczenie progu. Tak więc, jeśli parametr Release jest ustawiony na pierwsze dwa piki, to podczas przetwarzania trzeciego piku może pozostać nieprzetworzona część (ponieważ próg przekraczający próg trwa dłużej). Jeśli parametr Release jest ustawiony na trzeci szczyt, to podczas przetwarzania pierwszego i drugiego szczytu za nimi powstaje niepożądany spadek poziomu sygnału.
To samo dotyczy parametru Ratio. Jeżeli parametr Ratio jest ustawiony na pierwsze dwa piki, to trzeci nie będzie wystarczająco tłumiony. Jeśli parametr Ratio jest ustawiony na przetwarzanie trzeciego piku, przetwarzanie pierwszych dwóch pików będzie zbyt wysokie.
Problemy te można rozwiązać na dwa sposoby:
1) Poprzez ustawienie parametru ataku (Atak) - rozwiązanie częściowe.
2) Kompresja dynamiczna to kompletne rozwiązanie.
Parametr anadal (Atak) służy do ustawienia czasu, po którym sprężarka rozpocznie pracę po przekroczeniu progu Progu. Jeśli parametr jest bliski zeru (jest równy zero w przypadku kompresji równoległej, patrz odpowiedni artykuł) - wtedy kompresor zacznie natychmiast tłumić sygnał, a czas określony przez parametr Release będzie działał. Jeśli prędkość ataku jest wysoka, kompresor zacznie działać po pewnym czasie (jest to konieczne dla jasności). W naszym przypadku można ustawić parametry progu (próg), tłumienia (zwolnienia) i poziomu kompresji (współczynnik), aby przetworzyć dwa pierwsze szczyty, a wartość ataku (atak) ustawić bliską zeru. Wtedy kompresor wytłumi pierwsze dwa piki, a przetwarzając trzeci, wytłumi go aż do przekroczenia progu (Próg). Nie gwarantuje to jednak wysokiej jakości przetwarzania dźwięku i jest bliskie ograniczenia (zgrubne obcięcie wszystkich wartości amplitudy, w tym przypadku kompresor nazywany jest limiterem).
Spójrzmy na wynik przetwarzania dźwięku przez kompresor:
Piki zniknęły, zaznaczam, że ustawienia przetwarzania były dość delikatne i tłumiliśmy tylko najbardziej wystające wartości amplitudy. W praktyce zakres dynamiczny zawęża się znacznie bardziej i ten trend dopiero się rozwija. W świadomości wielu kompozytorów podbijają muzykę, ale w praktyce kompletnie pozbawiają ją dynamiki dla tych słuchaczy, którzy prawdopodobnie będą jej słuchać w domu, a nie w radiu.
Pozostaje nam rozważyć ostatni parametr kompresji, to Osiągać(Osiągać). Amplifikacja ma na celu zwiększenie amplitudy całej kompozycji i de facto jest odpowiednikiem innego narzędzia edytorów dźwięku – normalizacji. Spójrzmy na wynik końcowy:
W naszym przypadku kompresja była uzasadniona i poprawiła jakość dźwięku, ponieważ wydatny szczyt jest bardziej przypadkiem niż zamierzonym skutkiem. Dodatkowo widać, że muzyka jest rytmiczna, dlatego ma wąski zakres dynamiki. W przypadkach, w których celowo dokonano wysokich wartości amplitudy, kompresja może stać się błędem.
Kompresja dynamiczna
różnica kompresja dynamiczna od niedynamicznego jest to, że na pierwszym poziomie tłumienie sygnału (stosunek) zależy od poziomu sygnału przychodzącego. Sprężarki dynamiczne są w sumie nowoczesne programy, parametry Ratio i Threshold są sterowane za pomocą okna (każdy parametr ma swoją oś):
Nie ma jednego standardu wyświetlania wykresu, gdzieś wzdłuż osi Y wyświetlany jest poziom sygnału przychodzącego, a gdzieś przeciwnie poziom sygnału po kompresji. Gdzieś punkt (0,0) znajduje się w prawym górnym rogu, gdzieś w lewym dolnym rogu. W każdym razie przesunięcie kursora myszy nad to pole zmienia wartości liczb, które odpowiadają parametrom Ratio i Threshold. Tych. Ustawiasz poziom kompresji dla każdej wartości Threshold, dzięki czemu możesz ustawić kompresję bardzo elastycznie.
Łańcuch boczny
Kompresor łańcucha bocznego analizuje sygnał jednego kanału, a gdy poziom dźwięku przekracza próg (próg), stosuje kompresję na drugim kanale. Łańcuch boczny ma swoje zalety w pracy z instrumentami, które znajdują się w tym samym regionie częstotliwości (aktywnie używany jest bęben basowo-basowy), ale czasami używane są instrumenty zlokalizowane w różnych obszarach częstotliwości, co prowadzi do interesującego efektu łańcucha bocznego.
Część druga – etapy kompresji
Istnieją trzy etapy kompresji:
1) Pierwszy etap - kompresja poszczególne dźwięki(pojedyncze sesje).
Barwa każdego instrumentu ma następujące cechy: Attack, Hold, Decay, Delay, Sustain, Release.
Etap kompresji poszczególnych dźwięków podzielony jest na dwie części:
1.1) Kompresja poszczególnych dźwięków instrumentów rytmicznych
Często elementy rytmu wymagają osobnej kompresji, aby nadać im klarowność. Wiele osób przetwarza bęben basowy oddzielnie od innych instrumentów rytmicznych, zarówno na etapie kompresji poszczególnych dźwięków, jak i na etapie kompresji poszczególnych partii. Wynika to z faktu, że znajduje się on w obszarze niskich częstotliwości, gdzie oprócz niego zwykle obecny jest tylko bas. Klarowność bębna basowego rozumiana jest jako obecność charakterystycznego kliknięcia (bęben basowy ma bardzo krótki czas ataku i utrzymania). Jeśli nie ma kliknięcia, musisz go przetworzyć kompresorem, ustawiając próg na zero i czas ataku od 10 do 50 ms. Realese kompresora musi zakończyć się, zanim kopnięcie rozpocznie się ponownie. ostatni problem można rozwiązać za pomocą wzoru: 60.000 / BPM , gdzie BPM to tempo utworu. Na przykład 60 000/137 = 437,96 (czas w milisekundach do nowego taktu 4-metrowej kompozycji).
Wszystko to dotyczy innych instrumentów rytmicznych o krótkim czasie ataku – powinny one mieć uwydatniony klik, którego kompresor nie powinien tłumić na żadnym z etapów kompresji.
1.2) Kompresjaposzczególne dźwiękiinstrumenty harmoniczne
W przeciwieństwie do instrumentów rytmicznych, partie instrumentów harmonicznych rzadko składają się z pojedynczych dźwięków. Nie oznacza to jednak, że nie powinny być przetwarzane na poziomie kompresji dźwięku. Jeśli używasz sampla z nagraną częścią, to jest to drugi poziom kompresji. Ten poziom kompresji dotyczy tylko zsyntetyzowanych instrumentów harmonicznych. Mogą to być samplery, syntezatory wykorzystujące różne metody syntezy dźwięku (modelowanie fizyczne, FM, addytywne, subtraktywne itp.). Jak zapewne zgadłeś, mówimy o programowaniu ustawień syntezatora. TAk! To też kompresja! Prawie wszystkie syntezatory posiadają programowalny parametr obwiedni (ADSR), co oznacza obwiednię. Za pomocą koperty ustawiany jest czas Ataku (Ataku), Zaniku (Zaniku), Poziomu Utrzymania (Utrzymanie), Zaniku (Uwolnienia). A jeśli powiesz mi, że to nie jest kompresja każdego pojedynczego dźwięku – jesteś moim wrogiem na całe życie!
2) Drugi etap - Kompresja poszczególnych części.
Przez kompresję poszczególnych partii rozumiem zawężenie zakresu dynamicznego szeregu połączonych pojedynczych dźwięków. Ten etap obejmuje również nagrania partii, w tym wokale, które wymagają obróbki kompresyjnej, aby nadać jej klarowność i zrozumiałość. Podczas przetwarzania partii przez kompresję należy wziąć pod uwagę fakt, że przy dodawaniu poszczególnych dźwięków mogą pojawić się niechciane piki, których należy się pozbyć na tym etapie, ponieważ jeśli nie zostanie to zrobione teraz, obraz może się pogorszyć na etapie mieszania całej kompozycji. Na etapie kompresji poszczególnych części należy wziąć pod uwagę kompresję etapu przetwarzania poszczególnych dźwięków. Jeśli osiągnąłeś klarowność bębna basowego, nieprawidłowe ponowne przetwarzanie na drugim etapie może wszystko zepsuć. Nie jest konieczne przetwarzanie wszystkich części przez kompresor, ani nie jest konieczne przetwarzanie wszystkich pojedynczych dźwięków. Na wszelki wypadek radzę założyć analizator amplitudy w celu stwierdzenia występowania niepożądanych skutków ubocznych łączenia poszczególnych dźwięków. Oprócz kompresji na tym etapie należy zadbać o to, aby w miarę możliwości strony były różne pasma częstotliwości wykonać kwantyzację. Warto również pamiętać, że dźwięk ma taką charakterystykę jak maskowanie (psychoakustyka):
1) Cichszy dźwięk jest maskowany przez głośniejszy dźwięk przed nim.
2) Cichszy dźwięk o niskiej częstotliwości jest maskowany przez głośniejszy dźwięk o wysokiej częstotliwości.
Na przykład, jeśli masz partię syntezatora, często nuty zaczynają grać zanim poprzednie skończą się grać. Czasem jest to konieczne (tworzenie harmonii, styl gry, polifonia), ale czasem wcale – możesz skrócić ich koniec (Delay - Release) na wypadek, gdyby był słyszalny w trybie solo, ale nie słyszany w trybie wszystkich partii. To samo dotyczy efektów, takich jak pogłos – nie powinien trwać do momentu ponownego uruchomienia źródła dźwięku. Obcinając i usuwając niechciany sygnał, sprawiasz, że dźwięk jest czystszy, a to również można uznać za kompresję - ponieważ usuwasz niechciane fale.
3) Trzeci etap - Kompresja kompozycji.
Kompresując całą kompozycję trzeba wziąć pod uwagę fakt, że wszystkie części są kombinacją wielu pojedynczych dźwięków. Dlatego łącząc je, a następnie kompresując należy uważać, aby finalna kompresja nie zepsuła tego, co osiągnęliśmy w dwóch pierwszych etapach. Trzeba też oddzielić kompozycje, w których ważny jest szeroki lub wąski zakres. przy kompresowaniu kompozycji o szerokim zakresie dynamicznym wystarczy założyć kompresor, który zmiażdży krótkotrwałe piki, które powstały w wyniku zsumowania części. Podczas kompresji kompozycji, w której ważny jest wąski zakres dynamiki, wszystko jest znacznie bardziej skomplikowane. Tutaj kompresory ostatnie czasy nazywane są maksymalizatorami. Maximizer to wtyczka łącząca kompresor, limiter, korektor graficzny, wzmacniacz i inne narzędzia do transformacji dźwięku. Jednocześnie musi koniecznie dysponować solidnymi narzędziami do analizy. Maksymalizacja, końcowe przetwarzanie przez kompresor, jest w dużej mierze potrzebne do zwalczania błędów popełnionych na poprzednich etapach. Błędy - nie tyle kompresja (jednak jeśli robisz na ostatnim etapie to, co mogłeś zrobić na pierwszym etapie, to już jest pomyłka), ale w początkowym doborze dobrych sampli i instrumentów, które by ze sobą nie kolidowały (mówimy o zakresach częstotliwości) . To w tym celu korekcja odpowiedzi częstotliwościowej. Często zdarza się, że przy mocnej kompresji na masterze trzeba zmienić parametry kompresji i miksowania na wcześniejszym etapie, ponieważ przy silnym zawężeniu zakresu dynamiki wychodzą ciche dźwięki, które wcześniej były maskowane, zmienia się dźwięk Poszczególne komponenty kompozycje.
W tych częściach celowo nie mówiłem o konkretnych parametrach kompresji. Uznałem za konieczne napisanie o tym, że podczas kompresji należy zwracać uwagę na wszystkie dźwięki i wszystkie części na wszystkich etapach tworzenia kompozycji. Tylko w ten sposób ostatecznie uzyskasz harmonijny wynik, nie tylko z punktu widzenia teorii muzyki, ale także z punktu widzenia inżynierii dźwięku.
Poniższa tabela zawiera praktyczne wskazówki dotyczące przetwarzania poszczególnych partii. Jednak w przypadku kompresji liczby i ustawienia wstępne mogą jedynie sugerować żądany obszar wyszukiwania. Idealne ustawienia kompresji zależą od indywidualnego przypadku. Parametry Gain i Threshold zakładają normalny poziom dźwięku (logiczne wykorzystanie całego zakresu).
Część trzecia - Opcje kompresji
Szybkie odniesienie:
Próg - określa poziom dźwięku przychodzącego sygnału, po osiągnięciu którego kompresor zaczyna pracować.
Attack (Attack) - określa czas, po którym kompresor zacznie działać.
Poziom (stosunek) - określa stopień redukcji wartości amplitudy (w stosunku do pierwotnej wartości amplitudy).
Release (release) – określa czas, po którym sprężarka przestanie działać.
Wzmocnienie – Określa, jak bardzo sygnał wejściowy zostanie wzmocniony po przetworzeniu przez kompresor.
Tabela kompresji:
Narzędzie | Próg | atak | Stosunek | Wydanie | Osiągać | Opis |
wokale | 0 dB | 1-2ms 2-5ms 10 ms 0,1 ms 0,1 ms |
mniej niż 4:1 2,5: 1 4:1 – 12:1 2:1 -8:1 |
150ms 50-100ms 150 ms 150ms 0,5s |
Kompresja podczas nagrywania powinna być minimalna, wymaga obowiązkowej obróbki na etapie miksowania, aby było jasne i zrozumiałe. | |
instrumenty dęte | 1-5ms | 6:1 – 15:1 | 0.3s | |||
Beczka | 10 do 50 ms 10-100ms |
4:1 i powyżej 10:1 |
50-100ms 1ms |
Im niższy próg i im większy współczynnik i im dłuższy atak, tym wyraźniejszy klik na początku kopnięcia. | ||
Syntezatory | Zależy od typu fali (obwiednie ADSR). | |||||
Bęben roboczy: | 10-40ms 1-5ms |
5:1
5:1 – 10:1 |
50ms 0,2s |
|||
Hi-hat | 20ms | 10:1 | 1ms | |||
Mikrofony napowietrzne | 2-5ms | 5:1 | 1-50ms | |||
bębny | 5ms | 5:1 – 8:1 | 10ms | |||
Gitara basowa | 100-200ms 4ms do 10ms |
5:1 | 1ms 10ms |
|||
Smyczki | 0-40ms | 3:1 | 500ms | |||
Syntezator. gitara basowa | 4ms-10ms | 4:1 | 10ms | Zależy od kopert. | ||
Perkusja | 0-20ms | 10:1 | 50ms | |||
Gitara akustyczna, fortepian | 10-30 ms 5 - 10ms |
4:1
5:1 -10:1 |
50-100ms 0,5s |
|||
Elektronitara | 2-5ms | 8:1 | 0,5s | |||
Końcowa kompresja | 0,1 ms 0,1 ms |
2:1
2:1 do 3:1 |
50ms 0,1 ms |
Wyjście 0 dB | Czas ataku zależy od celu - czy usunąć szczyty, czy wygładzić tor. | |
Limiter po końcowej kompresji | 0 mS | 10:1 | 10-50ms | Wyjście 0 dB | Jeśli potrzebujesz wąskiego zakresu dynamiki i szorstkiego „cięcia” fal. |
Informacje zostały zaczerpnięte z różnych źródeł, do których odwołują się popularne zasoby w Internecie. Różnicę w parametrach kompresji tłumaczy się różnicą w preferencjach brzmieniowych i pracy z innym materiałem.
Technologia kodowania stosowana w odtwarzaczach DVD z własnymi
dekodery i odbiorniki audio. Kompresja (lub redukcja) zakresu dynamiki służy do ograniczania szczytów dźwięku podczas oglądania filmów. Jeśli widz chce obejrzeć film, w którym możliwe są gwałtowne zmiany poziomu głośności (film o wojnie,
na przykład), ale nie chce przeszkadzać członkom rodziny, należy włączyć DRC. Subiektywnie, ze słuchu, po włączeniu DRC, proporcja niskie częstotliwości i wysokie dźwięki tracą swoją przejrzystość, więc nie należy włączać trybu DRC, chyba że jest to konieczne.
DreamWeaver (zobacz — pierwsza strona)
edytor wizualny dokumenty hipertekstowe, opracowany przez firmę programistyczną Macromedia Inc. Potężny profesjonalny program DreamWeaver zawiera możliwość generowania Strony HTML o dowolnej złożoności i skali, a także posiada wbudowane narzędzia do obsługi dużych projektów sieciowych. jest narzędziem projekt wizualny, który wspiera zaawansowane narzędzia koncepcji WYSIWYG.
Kierowca (patrz Kierowca)
Komponent oprogramowania, który umożliwia interakcję z urządzeniami
komputer, taki jak Karta sieciowa(NIC), klawiatura, drukarka lub monitor. sprzęt sieciowy(np. koncentrator) podłączony do komputera wymaga sterowników, aby komputer mógł komunikować się z tym sprzętem.
DRM (Digital Rights Management - Zarządzanie dostępem i kopiowaniem informacji chronionych prawem autorskim, Digital Rights Management)
u Koncepcja polegająca na wykorzystaniu specjalnych technologii i metod ochrony materiałów cyfrowych w celu zapewnienia, że są one udostępniane tylko uprawnionym użytkownikom.
v Program kliencki do interakcji z pakietem Digital Rights Management Services, który służy do kontrolowania dostępu do informacji chronionych prawem autorskim i kopiowania ich. Usługi DRM działają w środowisku Serwer Windows 2003. Oprogramowanie klienckie będzie działać w systemach Windows 98, Me, 2000 i XP, umożliwiając aplikacjom takim jak Office 2003 dostęp do odpowiednich usług. W przyszłości Microsoft powinien wydać moduł zarządzania prawami cyfrowymi dla przeglądarka internetowa poszukiwacz. W przyszłości planowane jest posiadanie takiego programu na komputerze do pracy z dowolną treścią wykorzystującą technologie DRM w celu ochrony przed nielegalnym kopiowaniem.
Droid (Robot) (Patrz Agent)
DSA(Algorytm podpisu cyfrowego — algorytm podpis cyfrowy)
Algorytm podpisu cyfrowego klucza publicznego. Opracowany przez NIST (USA) w 1991 r.
DSL (cyfrowa linia abonencka)
Nowoczesna technologia obsługiwana przez publiczne centrale telefoniczne do wymiany sygnałów na wyższych częstotliwościach niż te stosowane w konwencjonalnych modemach analogowych. Modem DSL może pracować jednocześnie z telefonem (sygnał analogowy) oraz z linia cyfrowa. Ponieważ widma sygnału głosowego z telefonu i cyfrowego sygnału DSL nie „przecinają się”, tj. nie wpływają na siebie nawzajem, DSL pozwala surfować po Internecie i rozmawiać przez telefon na tej samej linii fizycznej. Co więcej, technologia DSL zazwyczaj wykorzystuje wiele częstotliwości, a modemy DSL po obu stronach linii próbują wybrać te najlepsze do transmisji danych. Modem DSL nie tylko przesyła dane, ale również działa jako router. Wyposażony w port Ethernet modem DSL umożliwia podłączenie do niego kilku komputerów.
DSOM(System rozproszony Model obiektowy, rozproszony SOM — rozproszony model obiektowy systemu)
Technologia IBM z odpowiednim wsparciem oprogramowania.
DSR? (Gotowy zestaw danych - sygnał gotowości danych, sygnał DSR)
Sygnał interfejsu szeregowego wskazujący, że urządzenie (na przykład
modem) jest gotowy do wysłania bitu danych do komputera.
DSR? (Raport o stanie urządzenia)
DSR? (Rejestr stanu urządzenia)
DSS? (System wspomagania decyzji) (Patrz
Zastanówmy się nad pytaniem – dlaczego musimy zwiększać głośność? Aby słyszeć ciche dźwięki, które nie są słyszalne w naszych warunkach (na przykład, jeśli nie możesz słuchać głośno, jeśli obcy hałas w pokoju itp.). Czy można wzmocnić ciche dźwięki, ale nie głośne? Okazuje się, że możesz. Ta technika nazywa się kompresją zakresu dynamicznego (DRC). Aby to zrobić, musisz stale zmieniać aktualną głośność - ciche dźwięki są wzmacniane, głośne nie. Najprostsze prawo zmiany objętości jest liniowe, tj. głośność zmienia się zgodnie z prawem output_loudness = k * input_loudness, gdzie k jest współczynnikiem kompresji zakresu dynamiki:
Rysunek 18. Kompresja zakresu dynamiki.
Dla k = 1 nie dokonuje się żadnej zmiany (głośność wyjściowa jest równa głośności wejściowej). Widelec< 1 громкость будет увеличиваться, а динамический диапазон - сужаться. Посмотрим на график (k=1/2) - тихий звук, имевший громкость -50дБ станет громче на 25дБ, что значительно громче, но при этом громкость диалогов (-27дБ) повысится всего лишь на 13.5дБ, а громкость самых громких звуков (0дБ) вообще не изменится. При k >1 - głośność zmniejszy się, a zakres dynamiczny wzrośnie.
Spójrzmy na wykresy głośności (k = 1/2: kompresja DD o połowę):
Rysunek 19. Wykresy głośności.
Jak widać w oryginale były zarówno bardzo ciche dźwięki, 30dB poniżej poziomu dialogów, jak i bardzo głośne dźwięki - 30dB powyżej poziomu dialogów. To. zakres dynamiki wynosił 60dB. Po kompresji głośne dźwięki są tylko 15dB wyższe, a ciche o 15dB niższe niż dialogi (zakres dynamiki wynosi teraz 30dB). W ten sposób głośne dźwięki stają się znacznie cichsze, a ciche dźwięki stają się znacznie głośniejsze. W takim przypadku nie występuje przepełnienie!
Przejdźmy teraz do histogramów:
Rysunek 20. Przykład kompresji.
Jak widać, przy wzmocnieniu +30dB kształt histogramu jest dobrze zachowany, co oznacza, że głośne dźwięki pozostają dobrze zdefiniowane (nie przechodzą do maksimum i nie są odcinane, jak to ma miejsce przy prostym wzmocnieniu). Powoduje to ciche dźwięki. Histogram pokazuje to słabo, ale różnica jest bardzo zauważalna ze słuchu. Wadą metody są same skoki głośności. Mechanizm ich powstawania różni się jednak od skoków głośności, jakie występują podczas cięcia, a ich charakter jest inny – pojawiają się one głównie z bardzo silnym wzmocnieniem. ciche dźwięki(a nie przy cięciu głośnych, jak przy normalnym wzmocnieniu). Nadmierna kompresja prowadzi do spłaszczenia obrazu dźwiękowego – wszystkie dźwięki mają tę samą głośność i brak wyrazistości.
Silnie wzmacniające ciche dźwięki mogą powodować, że dźwięk nagrywania stanie się słyszalny. Dlatego w filtrze zastosowano nieco zmodyfikowany algorytm, aby poziom szumu wzrastał mniej:
Rysunek 21. Zwiększanie głośności bez zwiększania hałasu.
Tych. przy poziomie głośności -50 dB następuje przegięcie funkcji przenoszenia, a szum zostanie wzmocniony w mniejszym stopniu (linia żółta). W przypadku braku takiego przegięcia hałas będzie znacznie głośniejszy (szara linia). Taka prosta modyfikacja znacząco redukuje poziom hałasu nawet przy bardzo wysokich poziomach kompresji (kompresja 1:5 na rysunku). Poziom „DRC” w filtrze określa poziom wzmocnienia dla cichszych dźwięków (przy -50 dB), więc Poziom kompresji 1/5 pokazany na rysunku odpowiada poziomowi +40dB w ustawieniach filtra.
Druga część cyklu poświęcona jest funkcjom optymalizacji zakresu dynamicznego obrazów. W nim wyjaśnimy, dlaczego takie rozwiązania są potrzebne, rozważymy różne opcje ich wdrożenia, a także ich zalety i wady.
Obejmij ogrom!
W idealnym przypadku kamera powinna uchwycić obraz otaczającego świata tak, jak jest on postrzegany przez człowieka. Jednak z uwagi na to, że mechanizmy „widzenia” aparatu i ludzkiego oka znacząco się różnią, istnieje szereg ograniczeń, które nie pozwalają na spełnienie tego warunku.
Jednym z problemów, z jakimi borykali się wcześniej użytkownicy aparatów filmowych, a teraz z jakimi borykają się posiadacze aparatów cyfrowych, jest brak możliwości odpowiedniego uchwycenia scen z dużymi różnicami światła bez użycia specjalnych urządzeń i/lub specjalnych technik fotografowania. Cechy ludzkiego aparatu wzrokowego pozwalają równie dobrze dostrzec szczegóły scen o wysokim kontraście zarówno w jasno oświetlonych, jak i ciemnych obszarach. Niestety czujnik aparatu nie zawsze jest w stanie uchwycić obraz tak, jak go widzimy.
Im większa różnica jasności na fotografowanej scenie, tym większe prawdopodobieństwo utraty szczegółów w światłach i/lub cieniach. W efekcie zamiast błękitnego nieba z bujnymi chmurami na zdjęciu uzyskuje się jedynie białawą plamkę, a obiekty znajdujące się w cieniu zamieniają się w niewyraźne ciemne sylwetki lub wręcz zlewają się z otoczeniem.
W fotografii klasycznej do oceny zdolności aparatu (lub nośnika w przypadku kamer filmowych) do transmisji określony zakres jasność, koncepcja jest używana szerokość geograficzna(szczegóły na pasku bocznym). Teoretycznie szerokość geograficzna aparatów cyfrowych jest określona przez głębię bitową przetwornika analogowo-cyfrowego (ADC). Na przykład przy użyciu 8-bitowego ADC, biorąc pod uwagę błąd kwantyzacji, teoretycznie osiągalna wartość szerokości fotograficznej wyniesie 7 EV, dla 12-bitowego ADC - 11 EV itd. Jednak w prawdziwe urządzenia zakres dynamiczny obrazów okazuje się być w to samo maksymalne teoretyczne ze względu na wpływ różnych rodzajów hałasu i innych czynników.
Duża różnica w poziomach jasności jest poważna
problem fotografii. W tym przypadku możliwości aparatu
nie wystarczyło, aby odpowiednio przekazać najwięcej
jasne obszary sceny, w wyniku czego zamiast niebieskiego obszaru
niebo (oznaczone kreską) okazało się białą „łatką”
Maksymalna wartość jasności, jaką może wykryć czujnik światłoczuły, zależy od poziomu nasycenia jego komórek. Wartość minimalna zależy od kilku czynników, w tym ilości szumu termicznego matrycy, szumu transferu ładunku i błędu ADC.
Warto również zauważyć, że szerokość geograficzna fotograficzna tego samego aparatu cyfrowego może się różnić w zależności od wartości czułości ustawionej w ustawieniach. Maksymalny zakres dynamiki można osiągnąć ustawiając tzw. czułość podstawową (odpowiadającą minimalnej możliwej wartości liczbowej). Wraz ze wzrostem wartości tego parametru zakres dynamiczny maleje ze względu na wzrost poziomu hałasu.
Fotograficzna szerokość nowoczesnych modeli aparatów cyfrowych wyposażonych w sensory duży rozmiar 14-bitowe lub 16-bitowe przetworniki ADC mają wartość od 9 do 11 EV, czyli znacznie więcej niż w przypadku kolorowych negatywów 35 mm (średnio 4 do 5 EV). W ten sposób nawet stosunkowo niedrogie aparaty cyfrowe mają wystarczającą swobodę fotograficzną, aby odpowiednio uchwycić większość typowych scen fotografii amatorskiej.
Jest jednak problem innego rodzaju. Wiąże się to z ograniczeniami nałożonymi przez istniejące standardy rejestracji obrazów cyfrowych. Używając 8-bitowego formatu JPEG na kanał koloru (który stał się de facto standardem zapisu obrazów cyfrowych w przemysł komputerowy i technologii cyfrowej), nawet teoretycznie niemożliwe jest zapisanie zdjęcia o szerokości geograficznej większej niż 8 EV.
Załóżmy, że ADC kamery pozwala na uzyskanie obrazu o głębi bitowej 12 lub 14 bitów, zawierającego rozróżnialne szczegóły zarówno w światłach jak i cieniach. Jeśli jednak szerokość fotograficzna tego obrazu przekracza 8 EV, to w procesie konwersji do standardowego formatu 8-bitowego bez żadnych dodatkowych czynności (czyli po prostu odrzucając „dodatkowe” bity), część informacji rejestrowanych przez czujnik światłoczuły zostanie utracony.
Zakres dynamiczny i fotograficzna szerokość geograficzna W uproszczeniu zakres dynamiczny definiuje się jako stosunek maksymalnej wartości jasności obrazu do jego minimalnej wartości. W fotografii klasycznej tradycyjnie używa się terminu szerokość geograficzna, co w rzeczywistości oznacza to samo. Szerokość zakresu dynamicznego można wyrazić jako stosunek (na przykład 1000:1, 2500:1 itd.), ale najczęściej używana jest skala logarytmiczna. W tym przypadku oblicza się wartość logarytmu dziesiętnego stosunku jasności maksymalnej do jej wartości minimalnej, a po liczbie następuje duża litera D (z angielskiego gęstość? - gęstość), rzadziej? - skrót OD (od angielskiej gęstości optycznej? - gęstość optyczna). Na przykład, jeśli stosunek maksymalnej wartości jasności do minimalnej wartości dowolnego urządzenia wynosi 1000:1, to zakres dynamiczny wyniesie 3,0 D: Do pomiaru szerokości geograficznej tradycyjnie stosuje się tzw. jednostki ekspozycji, oznaczane skrótem EV (od angielskich wartości ekspozycji; profesjonaliści często nazywają je „stopami” lub „krokami”). W tych jednostkach wartość kompensacji ekspozycji jest zwykle ustawiana w ustawieniach aparatu. Zwiększenie wartości szerokości geograficznej o 1 EV jest równoznaczne z podwojeniem różnicy między maksymalnym i minimalnym poziomem jasności. Tak więc skala EV jest również skalą logarytmiczną, ale w tym przypadku do obliczenia wartości liczbowych stosuje się logarytm o podstawie 2. Szerokość geograficzna fotograficzna wyniesie 8 EV: |
Kompresja to rozsądny kompromis
Najskuteczniejszym sposobem zachowania pełnych informacji o obrazie przechwyconych przez czujnik światła aparatu jest rejestrowanie zdjęć w Format RAW. Jednak nie wszystkie aparaty mają taką funkcję i nie każdy fotograf-amator jest gotowy na żmudną pracę polegającą na doborze indywidualnych ustawień dla każdego wykonanego zdjęcia.
Aby zmniejszyć możliwość utraty szczegółów w obrazach o wysokim kontraście, konwertowanych wewnątrz aparatu do 8-bitowego JPEG, w urządzeniach wielu producentów (nie tylko kompaktowych, ale także lustrzankach jednoobiektywowych) wprowadzono specjalne funkcje pozwalające na kompresję zakresu dynamicznego zapisane obrazy bez interwencji użytkownika. Zmniejszając ogólny kontrast i tracąc niewielką część informacji o oryginalnym obrazie, takie rozwiązania pozwalają zachować w 8-bitowym JPEGu szczegóły w światłach i cieniach zarejestrowane przez światłoczuły czujnik urządzenia, nawet jeśli zakres dynamiczny oryginalnego obrazu okazał się szerszy niż 8 EV.
Jednym z pionierów rozwoju tego kierunku była firma HP. Wprowadzony na rynek w 2003 roku aparat cyfrowy HP Photosmart 945 jako pierwszy na świecie zaimplementował technologię HP Adaptive Lightling, która automatycznie kompensuje brak światła w ciemnych obszarach obrazu, a tym samym zachowuje szczegóły cieni bez ryzyka prześwietlenia (co jest bardzo ważne podczas fotografowania scen o wysokim kontraście). Algorytm HP Adaptive Lightling opiera się na zasadach przedstawionych przez angielskiego naukowca Edwina Landa w teorii percepcji wzrokowej człowieka RETINEX.
Menu funkcji adaptacyjnego oświetlenia HP
Jak działa oświetlenie adaptacyjne? Po uzyskaniu 12-bitowego obrazu obrazu, wyodrębnia się z niego pomocniczy obraz monochromatyczny, który w rzeczywistości jest mapą świetlną. Podczas przetwarzania obrazu mapa ta jest używana jako maska, która pozwala dostosować stopień wpływu dość złożonego filtra cyfrowego na obraz. Zatem w obszarach odpowiadających najciemniejszym punktom mapy wpływ na obraz przyszłego obrazu jest minimalny i odwrotnie. Takie podejście pozwala pokazać szczegóły w cieniach, selektywnie rozjaśniając te obszary i odpowiednio zmniejszając ogólny kontrast wynikowego obrazu.
Należy zauważyć, że gdy funkcja Adaptive Lighting jest włączona, przechwycony obraz jest przetwarzany w sposób opisany powyżej, zanim ostateczny obraz zostanie zapisany do pliku. Wszystkie opisane operacje wykonywane są automatycznie, a użytkownik może wybrać tylko jeden z dwóch trybów Adaptive Lighting w menu kamery (niski lub wysoki poziom wpływ) lub wyłączyć tę funkcję.
Ogólnie rzecz biorąc, wiele specyficznych funkcji współczesnych aparatów cyfrowych (w tym omówione w poprzednim artykule systemy rozpoznawania twarzy) to swego rodzaju produkty uboczne lub produkty konwersji projektów badawczych, które pierwotnie były realizowane dla klientów wojskowych. Jeśli chodzi o funkcje optymalizacji zakresu dynamiki obrazu, jednym z najbardziej znanych dostawców tego typu rozwiązań jest firma Apical. Algorytmy stworzone przez jej pracowników w szczególności leżą u podstaw działania funkcji SAT (Shadow Adjustment Technology - technologia korekcji cieni) zaimplementowanej w wielu cyfrowych aparatach Olympus. W skrócie działanie funkcji SAT można opisać następująco: na podstawie oryginalnego obrazu obrazu tworzona jest maska odpowiadająca najciemniejszym obszarom, a następnie poziom ekspozycji jest automatycznie korygowany dla tych obszarów.
Sony nabyło również licencję na prawo do korzystania z opracowań Apical. Wiele modeli aparatów kompaktowych z serii Cyber-shot oraz lustrzanek serii alpha posiada funkcję tzw. optymalizacji zakresu dynamicznego (Dynamic Range Optimizer, DRO).
Zdjęcia wykonane przy wyłączonym urządzeniu HP Photosmart R927 (góra)
oraz aktywowana funkcja Oświetlenie adaptacyjne
Korekcja obrazu po aktywacji DRO jest wykonywana w procesie pierwotnego przetwarzania obrazu (czyli przed nagraniem gotowego pliku) Format JPEG). W wersji podstawowej DRO posiada ustawienie dwustopniowe (w menu można wybrać standardowy lub rozszerzony tryb jego działania). Gdy wybrany jest tryb standardowy, na podstawie analizy obrazu ekspozycja jest korygowana o wartość ekspozycji, a następnie do obrazu jest stosowana krzywa tonalna w celu wyrównania ogólnego balansu. Tryb zaawansowany wykorzystuje bardziej złożony algorytm, który umożliwia wprowadzanie poprawek zarówno w cieniach, jak i światłach.
Deweloperzy Sony nieustannie pracują nad ulepszeniem algorytmu DRO. Na przykład w lustrzance a700, gdy włączony jest zaawansowany tryb DRO, można wybrać jedną z pięciu opcji korekcji. Dodatkowo istnieje możliwość zapisania na raz trzech wariantów jednego zdjęcia (rodzaj braketingu) z różnymi ustawieniami DRO.
Wiele aparatów cyfrowych firmy Nikon ma funkcję D-Lighting, która również opiera się na algorytmach Apical. Co prawda, w przeciwieństwie do opisanych powyżej rozwiązań, D-Lighting jest zaimplementowany jako filtr do przetwarzania wcześniej zapisanych obrazów za pomocą krzywej tonalnej, której kształt pozwala rozjaśnić cienie, pozostawiając resztę obrazu bez zmian. Ponieważ jednak w tym przypadku przetwarzane są gotowe obrazy 8-bitowe (a nie oryginalny obraz ramki, który ma większą głębię bitową i odpowiednio szerszy zakres dynamiczny), możliwości D-Lighting są bardzo ograniczone. Użytkownik może uzyskać ten sam wynik, przetwarzając obraz w edytorze graficznym.
Porównując powiększone fragmenty wyraźnie widać, że ciemne obszary oryginalnego obrazu (po lewej)
gdy funkcja Adaptive Lighting jest włączona, stają się jaśniejsze;
Istnieje również szereg rozwiązań opartych na innych zasadach. Tak więc w wielu aparatach z rodziny Lumix firmy Panasonic (w szczególności DMC-FX35, DMC-TZ4, DMC-TZ5, DMC-FS20, DMC-FZ18 itp.) funkcja rozpoznawania oświetlenia (Intelligent Exposure) jest część integralna Inteligentne systemy automatycznego sterowania fotografowaniem. Funkcja inteligentnej ekspozycji opiera się na automatycznej analizie obrazu klatki i korekcji ciemnych obszarów obrazu w celu uniknięcia utraty szczegółów w cieniach, a także (w razie potrzeby) kompresji zakresu dynamicznego scen o wysokim kontraście.
W niektórych przypadkach działanie funkcji optymalizacji zakresu dynamicznego zapewnia nie tylko pewne operacje przetwarzania oryginalnego obrazu obrazu, ale także korektę ustawień fotografowania. Na przykład w nowych modelach aparatów cyfrowych Fujifilm (w szczególności w FinePix S100FS) zaimplementowana jest funkcja rozszerzania zakresu dynamicznego (Wide Dynamic Range, WDR), co według twórców pozwala zwiększyć szerokość geograficzna fotograficzna o jeden lub dwa kroki (w zakresie ustawień - 200 i 400%).
Gdy funkcja WDR jest włączona, aparat wykonuje zdjęcia z kompensacją ekspozycji -1 lub -2 EV (w zależności od wybranego ustawienia). W ten sposób obraz ramy jest niedoświetlony - jest to konieczne, aby zachować maksymalną informację o szczegółach w prześwietleniach. Następnie uzyskany obraz jest przetwarzany za pomocą krzywej tonalnej, co pozwala wyrównać ogólny balans i dostosować poziom czerni. Obraz jest następnie konwertowany do formatu 8-bitowego i zapisywany jako plik JPEG.
Kompresja zakresu dynamiki pozwala zachować więcej szczegółów
w światłach i cieniach, ale nieuniknioną konsekwencją takiego uderzenia
to zmniejszenie ogólnego kontrastu. Na dolnym obrazie
tekstura chmur jest jednak znacznie lepiej dopracowana
ze względu na mniejszy kontrast ten wariant obrazu
wygląda mniej naturalnie
Podobna funkcja o nazwie Dynamic Range Enlargement jest zaimplementowana w wielu kompaktowych aparatach Pentax i lustrzankach (Optio S12, K200D itp.). Jak podaje producent, zastosowanie funkcji Dynamic Range Enlargement pozwala zwiększyć szerokość fotograficzną zdjęć o 1 EV bez utraty szczegółów w światłach i cieniach.
Podobna funkcja o nazwie Priorytet tonu podświetlenia (HTP) jest zaimplementowana w wielu modelach lustrzanek jednoobiektywowych firmy Canon (EOS 40D, EOS 450D itp.). Zgodnie z informacjami zawartymi w instrukcji, aktywacja HTP pozwala uzyskać lepszą szczegółowość podświetleń (dokładniej w zakresie poziomów od 0 do 18% szarości).
Wniosek
Podsumujmy. Wbudowana kompresja zakresu dynamiki pozwala na konwersję oryginalnego obrazu z dużym zakresem dynamiki do 8-bitowego przy minimalnych uszkodzeniach plik jpeg. W przypadku braku zapisywania klatek w formacie RAW, tryb kompresji zakresu dynamicznego pozwala fotografowi wykorzystać pełny potencjał swojego aparatu podczas fotografowania scen o wysokim kontraście.
Pamiętajmy oczywiście, że kompresja dynamiki to nie cudowne lekarstwo, a raczej kompromis. Zachowanie szczegółów w światłach i/lub cieniach odbywa się kosztem zwiększonego szumu w ciemnych obszarach obrazu, zmniejszonego kontrastu i pewnego zgrubienia płynnych przejść tonalnych.
Jak każdy funkcja automatyczna, algorytm kompresji zakresu dynamiki nie jest w pełni uniwersalnym rozwiązaniem, które pozwala poprawić absolutnie każdy obraz. Dlatego warto aktywować go tylko w tych przypadkach, gdy jest to naprawdę potrzebne. Na przykład, aby sfotografować sylwetkę z dobrze rozwiniętym tłem, należy wyłączyć funkcję kompresji zakresu dynamicznego – w przeciwnym razie efektowna fabuła zostanie beznadziejnie zepsuta.
Kończąc rozważanie tego tematu, należy zauważyć, że zastosowanie funkcji kompresji zakresu dynamicznego nie pozwala na „wyciągnięcie” szczegółów z wynikowego obrazu, które nie zostały przechwycone przez czujnik aparatu. Aby uzyskać satysfakcjonujący efekt podczas fotografowania scen o wysokim kontraście, konieczne jest użycie dodatkowych urządzeń (np. filtrów gradientowych do fotografowania krajobrazów) lub specjalnych technik (takich jak wykonanie kilku ujęć z bracketingiem ekspozycji, a następnie połączenie ich w jeden obraz za pomocą Tone Mapping technologia).
Następny artykuł skupi się na funkcji zdjęć seryjnych.
Ciąg dalszy nastąpi