Zakres dynamiczny jest skompresowany lub standardowy. Synteza i rozpoznawanie mowy. Nowoczesne rozwiązania. Komputerowy sprzęt dźwiękowy. Konwersja dźwięku na strumień liczb. Zawężenie zakresu dynamicznego

Technologia kodowania stosowana w odtwarzaczach DVD z własnymi

dekodery i odbiorniki audio. Kompresja (lub redukcja) zakres dynamiczny służy do ograniczania szczytów dźwięku podczas oglądania filmów. Jeśli widz chce obejrzeć film, w którym możliwe są gwałtowne zmiany poziomu głośności (film o wojnie,

na przykład), ale nie chce przeszkadzać członkom rodziny, należy włączyć DRC. Subiektywnie, ze słuchu, po włączeniu DRC proporcja niskich częstotliwości w dźwięku maleje, a wysokie dźwięki tracą przezroczystość, więc nie należy włączać trybu DRC, chyba że jest to konieczne.

DreamWeaver (zobacz — pierwsza strona)

edytor wizualny dokumenty hipertekstowe, opracowany przez firmę programistyczną Macromedia Inc. Potężny profesjonalny program DreamWeaver zawiera możliwość generowania Strony HTML o dowolnej złożoności i skali, a także posiada wbudowane narzędzia do obsługi dużych projektów sieciowych. jest narzędziem projekt wizualny, który wspiera zaawansowane narzędzia koncepcji WYSIWYG.

Kierowca (patrz Kierowca)

Komponent oprogramowania, który umożliwia interakcję z urządzeniami

komputer, taki jak Karta sieciowa(NIC), klawiatura, drukarka lub monitor. sprzęt sieciowy(np. koncentrator) podłączony do komputera wymaga sterowników, aby komputer mógł komunikować się z tym sprzętem.

DRM (Digital Rights Management - Zarządzanie dostępem i kopiowaniem informacji chronionych prawem autorskim, Digital Rights Management)

u Koncepcja polegająca na wykorzystaniu specjalnych technologii i metod ochrony materiałów cyfrowych w celu zapewnienia, że są one udostępniane tylko uprawnionym użytkownikom.

v Program kliencki do interakcji z pakietem Digital Rights Management Services, który służy do kontrolowania dostępu do informacji chronionych prawem autorskim i kopiowania ich. Usługi DRM działają w środowisku Serwer Windows 2003. Oprogramowanie klienckie będzie działać w systemach Windows 98, Me, 2000 i XP, umożliwiając aplikacjom takim jak Office 2003 dostęp do odpowiednich usług. W przyszłości Microsoft powinien wydać moduł zarządzania prawami cyfrowymi dla przeglądarki Internet Explorer. W przyszłości planowane jest posiadanie takiego programu na komputerze do pracy z dowolną treścią wykorzystującą technologie DRM w celu ochrony przed nielegalnym kopiowaniem.

Droid (Robot) (Patrz Agent)

DSA(Algorytm podpisu cyfrowego — algorytm podpis cyfrowy)

Algorytm podpisu cyfrowego klucza publicznego. Opracowany przez NIST (USA) w 1991 r.

DSL (cyfrowa linia abonencka)

Nowoczesna technologia obsługiwana przez publiczne centrale telefoniczne do wymiany sygnałów na wyższych częstotliwościach niż te stosowane w konwencjonalnych modemach analogowych. Modem DSL może pracować jednocześnie z telefonem (sygnał analogowy) i linią cyfrową. Ponieważ widma sygnału głosowego z telefonu i cyfrowego sygnału DSL nie „przecinają się”, tj. nie wpływają na siebie nawzajem, DSL pozwala surfować po Internecie i rozmawiać przez telefon na tej samej linii fizycznej. Co więcej, technologia DSL zazwyczaj wykorzystuje wiele częstotliwości, a modemy DSL po obu stronach linii próbują wybrać te najlepsze do transmisji danych. Modem DSL nie tylko przesyła dane, ale również działa jako router. Wyposażony w port Ethernet modem DSL umożliwia podłączenie do niego kilku komputerów.

DSOM(System rozproszony Model obiektowy, rozproszony SOM — rozproszony model obiektowy systemu)

Technologia IBM z odpowiednim wsparciem oprogramowania.

DSR? (Gotowy zestaw danych - sygnał gotowości danych, sygnał DSR)

Sygnał interfejsu szeregowego wskazujący, że urządzenie (na przykład

modem) jest gotowy do wysłania bitu danych do komputera.

DSR? (Raport o stanie urządzenia)

DSR? (Rejestr stanu urządzenia)

DSS? (System wspomagania decyzji) (Patrz

Lub szerokość geograficzna materiał fotograficzny to stosunek między maksymalną a minimalną wartością ekspozycji, którą można poprawnie uchwycić na zdjęciu. W przypadku fotografii cyfrowej zakres dynamiczny jest w rzeczywistości równoważny stosunkowi maksymalnych i minimalnych możliwych wartości użytecznego sygnału elektrycznego generowanego przez fotoczujnik podczas ekspozycji.

Zakres dynamiczny jest mierzony w krokach ekspozycji (). Każdy krok odpowiada podwojeniu ilości światła. Czyli np. jeśli dany aparat ma zakres dynamiczny 8 EV, to oznacza to, że maksymalna możliwa wartość sygnału użytecznego jego matrycy jest powiązana z minimum 2 8:1, co oznacza, że aparat jest w stanie uchwycić obiekty różniące się jasnością w ramach jednej klatki nie więcej niż 256 razy. Dokładniej, może uchwycić obiekty o dowolnej jasności, jednak obiekty, których jasność przekroczy maksymalną dopuszczalną wartość, wyjdą na obrazie olśniewającą bielą, a obiekty, których jasność będzie poniżej wartości minimalnej, będą kruczoczarne. Detale i faktury będą widoczne tylko na tych obiektach, których jasność pasuje do zakresu dynamicznego aparatu.

Aby opisać związek między jasnością najjaśniejszego i najciemniejszego z fotografowanych obiektów, często używa się nie do końca poprawnego terminu „zakres dynamiczny sceny”. Bardziej słusznie byłoby mówić o zakresie jasności lub poziomie kontrastu, ponieważ zakres dynamiczny jest zwykle cechą urządzenia pomiarowego (w tym przypadku matrycy aparatu cyfrowego).

Niestety, zakres jasności wielu pięknych scen, które napotykamy w prawdziwe życie może znacznie przekroczyć zakres dynamiczny aparatu cyfrowego. W takich przypadkach fotograf zmuszony jest decydować, które obiekty powinny być dopracowane bardzo szczegółowo, a które można pozostawić poza zakresem dynamicznym bez narażania twórczej intencji. Aby w pełni wykorzystać zakres dynamiczny aparatu, czasami może być potrzebne nie tyle dokładne zrozumienie działania fotosensora, co rozwinięty talent artystyczny.

Czynniki ograniczające zakres dynamiczny

Dolna granica zakresu dynamicznego jest ustalana przez wewnętrzny poziom szumu fotoczujnika. Nawet nieoświetlona matryca generuje w tle sygnał elektryczny zwany ciemnym szumem. Zakłócenia pojawiają się również, gdy ładunek jest przesyłany do przetwornika analogowo-cyfrowego, a sam ADC wprowadza pewien błąd do zdigitalizowanego sygnału - tzw. szum próbkowania.

Jeśli zrobisz zdjęcie w całkowitej ciemności lub z założoną pokrywką obiektywu, aparat zarejestruje tylko ten bezsensowny szum. Jeśli do czujnika dotrze minimalna ilość światła, fotodiody zaczną się akumulować ładunek elektryczny. Wielkość ładunku, a tym samym natężenie sygnału użytecznego, będzie proporcjonalna do liczby przechwyconych fotonów. Aby na obrazie pojawiły się jakiekolwiek znaczące szczegóły, konieczne jest, aby poziom sygnału użytecznego przekraczał poziom szumu tła.

Zatem dolna granica zakresu dynamicznego lub innymi słowy próg czułości czujnika może być formalnie zdefiniowany jako poziom sygnału wyjściowego, przy którym stosunek sygnału do szumu jest większy niż jeden.

Górna granica zakresu dynamicznego jest określona przez pojemność pojedynczej fotodiody. Jeżeli podczas naświetlania jakaś fotodioda akumuluje dla siebie ładunek elektryczny o maksymalnej wartości, wówczas piksel obrazu odpowiadający przeciążonej fotodiodzie okaże się całkowicie biały, a dalsze naświetlanie nie wpłynie w żaden sposób na jego jasność. Zjawisko to nazywa się obcinaniem. Im wyższa przeciążalność fotodiody, tym więcej sygnału jest ona w stanie oddać na wyjściu zanim osiągnie nasycenie.

Dla większej przejrzystości przejdźmy do krzywej charakterystycznej, która jest wykresem zależności sygnału wyjściowego od ekspozycji. Oś pozioma to logarytm binarny promieniowania odbieranego przez czujnik, a oś pionowa to logarytm binarny wielkości sygnału elektrycznego generowanego przez czujnik w odpowiedzi na to napromieniowanie. Mój rysunek jest w dużej mierze arbitralny i służy wyłącznie celom ilustracyjnym. Krzywa charakterystyczna prawdziwego fotosensora ma nieco bardziej złożony kształt, a poziom szumów rzadko jest tak wysoki.

Na wykresie wyraźnie widoczne są dwa krytyczne punkty zwrotne: w pierwszym poziom sygnału użytecznego przekracza próg szumów, a w drugim fotodiody osiągają nasycenie. Wartości ekspozycji pomiędzy tymi dwoma punktami stanowią zakres dynamiczny. W tym abstrakcyjnym przykładzie jest to, jak łatwo zauważyć, 5 EV, czyli aparat jest w stanie przetrawić pięć podwojeń ekspozycji, co odpowiada 32-krotnej (2 5 = 32) różnicy jasności.

Strefy ekspozycji składające się na zakres dynamiczny nie są równoważne. Górne strefy mają wyższy stosunek sygnału do szumu, dzięki czemu wyglądają czyściej i bardziej szczegółowo niż dolne. W efekcie górna granica zakresu dynamiki jest bardzo realna i zauważalna – przy najmniejszym prześwietleniu przycinanie odcina światło, podczas gdy dolna granica jest niepozornie zatopiona w szumie, a przejście do czerni nie jest tak ostre jak do bieli.

Liniowa zależność sygnału od naświetlenia, a także ostre plateau to unikalne cechy procesu fotografii cyfrowej. Dla porównania spójrz na warunkową krzywą charakterystyczną tradycyjnego filmu fotograficznego.

Kształt krzywej, a zwłaszcza kąt nachylenia, silnie zależy od rodzaju kliszy i sposobu jej wywoływania, ale główna, rzucająca się w oczy różnica między kliszą filmową a cyfrową pozostaje niezmieniona – nieliniowy charakter zależności gęstości optycznej filmu od wartości ekspozycji.

Dolna granica szerokości fotograficznej negatywu jest określona przez gęstość welonu, a górna granica jest określona przez maksymalną osiągalną gęstość optyczną fotowarstwy; w przypadku filmów odwracalnych jest odwrotnie. Zarówno w cieniach, jak i światłach obserwuje się gładkie krzywe krzywej charakterystycznej, co wskazuje na spadek kontrastu przy zbliżaniu się do granic zakresu dynamicznego, ponieważ nachylenie krzywej jest proporcjonalne do kontrastu obrazu. W ten sposób obszary ekspozycji leżące pośrodku wykresu mają maksymalny kontrast, podczas gdy kontrast jest zmniejszony w światłach i cieniach. W praktyce różnica między kliszą a matrycą cyfrową jest szczególnie widoczna w prześwietleniach: gdzie na obrazie cyfrowym światła są wypalane przez obcinanie, na kliszy nadal widoczne są detale, choć z niskim kontrastem, a przejście do czysty biały kolor wygląda gładko i naturalnie.

W sensytometrii używa się nawet dwóch niezależnych terminów: faktycznie szerokość geograficzna, ograniczony przez względnie liniowy odcinek krzywej charakterystycznej, oraz użyteczna szerokość geograficzna, który oprócz sekcji liniowej zawiera również podstawę i ramię wykresu.

Warto zauważyć, że podczas przetwarzania zdjęć cyfrowych z reguły stosuje się do nich mniej lub bardziej wyraźną krzywą w kształcie litery S, zwiększając kontrast w półcieniach kosztem zmniejszenia go w cieniach i światłach, co nadaje obrazowi cyfrowemu bardziej naturalny i przyjemny dla oka wygląd.

Głębokość bitowa

W przeciwieństwie do matrycy aparatu cyfrowego, ludzkie widzenie charakteryzuje, powiedzmy, logarytmiczny obraz świata. Kolejne podwojenia ilości światła odbieramy jako równe zmiany jasności. Liczby świetlne można nawet porównać z oktawami muzycznymi, ponieważ dwukrotne zmiany częstotliwości dźwięku są odbierane przez ucho jako pojedynczy interwał muzyczny. Inne narządy zmysłów działają na tej samej zasadzie. Nieliniowość percepcji znacznie poszerza zakres ludzkiej wrażliwości na bodźce o różnym natężeniu.

Przy konwersji pliku RAW (nie ma to znaczenia – za pomocą aparatu lub w konwerterze RAW) zawierającego dane liniowe, tzw. krzywa gamma, która ma na celu nieliniowe zwiększenie jasności obrazu cyfrowego, dostosowując go do cech ludzkiego wzroku.

W przypadku konwersji liniowej obraz jest zbyt ciemny.

Po korekcji gamma jasność powraca do normy.

Krzywa gamma niejako rozciąga ciemne tony i kompresuje jasne tony, dzięki czemu rozkład gradacji jest bardziej jednolity. Rezultatem jest naturalnie wyglądający obraz, ale szumy i artefakty próbkowania w cieniach nieuchronnie stają się bardziej zauważalne, co jest tylko pogarszane przez niewielką liczbę poziomów jasności w niższych strefach.

Rozkład liniowy gradacji jasności.

Rozkład równomierny po zastosowaniu krzywej gamma.

ISO i zakres dynamiczny

Pomimo tego, że fotografia cyfrowa posługuje się tym samym pojęciem światłoczułości materiału fotograficznego, co w fotografii filmowej, należy rozumieć, że dzieje się to wyłącznie z powodu tradycji, ponieważ podejścia do zmiany światłoczułości w fotografii cyfrowej i filmowej różnią się zasadniczo.

Zwiększenie czułości ISO w tradycyjnej fotografii oznacza przejście z jednego filmu na inny z grubszym ziarnem, tj. następuje obiektywna zmiana właściwości samego materiału fotograficznego. W aparacie cyfrowym światłoczułość czujnika jest ściśle określona przez jego fizyczne właściwości i nie można jej dosłownie zmienić. Przy zwiększaniu ISO aparat nie zmienia rzeczywistej czułości czujnika, a jedynie wzmacnia sygnał elektryczny generowany przez czujnik w odpowiedzi na napromieniowanie i odpowiednio dostosowuje algorytm digitalizacji tego sygnału.

Istotną konsekwencją tego jest zmniejszenie efektywnego zakresu dynamicznego proporcjonalnie do wzrostu ISO, ponieważ wraz z sygnałem użytecznym wzrastają również szumy. Jeżeli przy ISO 100 zdigitalizowany jest cały zakres wartości sygnału – od zera do punktu nasycenia, to przy ISO 200 przyjmuje się maksymalnie połowę pojemności fotodiod. Z każdym podwojeniem czułości ISO górny przystanek zakresu dynamicznego wydaje się odcinany, a pozostałe stopnie są podciągane na swoje miejsce. Dlatego stosowanie ultrawysokich wartości ISO jest pozbawione praktycznego znaczenia. Z takim samym sukcesem można rozjaśnić zdjęcie w konwerterze RAW i uzyskać porównywalny poziom szumów. Różnica między zwiększeniem ISO a sztucznym rozjaśnieniem obrazu polega na tym, że przy zwiększeniu ISO sygnał jest wzmacniany przed wejściem do ADC, co oznacza, że szum kwantyzacji nie jest wzmacniany, w przeciwieństwie do szumu własnego matrycy, podczas gdy w przetworniku RAW podlegają one wzmocnieniu, w tym błędom ADC. Dodatkowo zmniejszenie zakresu próbkowania oznacza dokładniejsze próbkowanie pozostałych wartości sygnału wejściowego.

Nawiasem mówiąc, obniżenie ISO poniżej wartości bazowej (np. do ISO 50) dostępne na niektórych urządzeniach wcale nie rozszerza zakresu dynamicznego, a jedynie osłabia sygnał o połowę, co jest równoznaczne z przyciemnieniem obrazu w RAW-ie przetwornik. Funkcję tę można nawet uznać za szkodliwą, ponieważ użycie poniżej minimalnej wartości ISO prowokuje aparat do zwiększania ekspozycji, co przy niezmienionym progu nasycenia matrycy zwiększa ryzyko przycięcia jasnych obszarów.

Prawdziwa wartość zakresu dynamicznego

Istnieje wiele programów, takich jak (DxO Analyzer, Imatest, RawDigger itp.), które pozwalają zmierzyć zakres dynamiczny aparatu cyfrowego w domu. W zasadzie nie jest to bardzo potrzebne, ponieważ dane dla większości aparatów można swobodnie znaleźć w Internecie, na przykład na DxOMark.com.

Czy powinniśmy wierzyć wynikom takich testów? Całkiem. Z jedynym zastrzeżeniem, że wszystkie te testy określają skuteczny lub, że tak powiem, techniczny zakres dynamiki, tj. związek między poziomem nasycenia a poziomem szumu matrycy. Dla fotografa pierwszorzędne znaczenie ma użyteczny zakres dynamiczny, tj. liczba stref ekspozycji, które naprawdę pozwalają na uchwycenie niektórych przydatna informacja.

Jak pamiętasz, próg zakresu dynamicznego jest ustalany przez poziom szumu fotosensora. Problem polega na tym, że w praktyce dolne strefy, które technicznie są już zawarte w zakresie dynamicznym, nadal zawierają zbyt dużo szumu, aby mogły być użytecznie wykorzystane. Tutaj wiele zależy od indywidualnego wstrętu – każdy sam ustala akceptowalny poziom hałasu.

Moja subiektywna opinia jest taka, że szczegóły w cieniach zaczynają wyglądać mniej lub bardziej przyzwoicie przy stosunku sygnału do szumu wynoszącym co najmniej osiem. Na tej podstawie określam dla siebie użyteczny zakres dynamiki jako techniczny zakres dynamiki minus około trzech przystanków.

Na przykład, jeśli lustrzanka ma dynamikę 13 EV, co jak na dzisiejsze standardy jest bardzo dobre, według wiarygodnych testów, to jej użyteczny zakres dynamiki wyniesie około 10 EV, co w sumie też jest całkiem niezłe. Mowa oczywiście o fotografowaniu w RAW, z minimalnym ISO i maksymalną głębią bitową. Podczas robienia zdjęć w formacie JPEG zakres dynamiczny jest w dużym stopniu zależny od ustawień kontrastu, ale średnio należy odrzucić kolejne dwa do trzech przystanków.

Dla porównania: kolorowe filmy odwracalne mają użyteczną szerokość geograficzną 5-6 kroków; czarno-białe filmy negatywowe dają 9-10 przystanków przy standardowych procedurach wywoływania i drukowania, a przy pewnych manipulacjach - do 16-18 przystanków.

Podsumowując powyższe, spróbujmy sformułować kilka prostych zasad, których przestrzeganie pomoże Ci wycisnąć maksymalną wydajność z sensora aparatu:

Zakres dynamiczny aparatu cyfrowego jest w pełni dostępny tylko podczas fotografowania w formacie RAW.
Zakres dynamiczny zmniejsza się wraz ze wzrostem czułości ISO, więc unikaj wysokich czułości ISO, chyba że jest to absolutnie konieczne.
Używanie wyższych głębi bitowych dla plików RAW nie zwiększa prawdziwego zakresu dynamicznego, ale poprawia separację tonalną w cieniach kosztem jeszcze poziomy jasności.
Ekspozycja w prawo. Górne strefy ekspozycji zawsze zawierają maksimum przydatnych informacji przy minimalnym hałasie i powinny być wykorzystywane jak najefektywniej. Jednocześnie nie zapominaj o niebezpieczeństwie przycinania - piksele, które osiągnęły nasycenie, są absolutnie bezużyteczne.

A co najważniejsze, nie przejmuj się zbytnio zakresem dynamicznym aparatu. Z zakresem dynamicznym wszystko w porządku. Dużo ważniejsza jest umiejętność widzenia światła i odpowiedniego zarządzania ekspozycją. Dobry fotograf nie będzie narzekał na brak swobody fotograficznej, ale będzie starał się poczekać na wygodniejsze oświetlenie, albo zmienić kąt, czy użyć lampy błyskowej, jednym słowem będzie działać zgodnie z okolicznościami. Powiem więcej: niektóre sceny zyskują tylko na tym, że nie mieszczą się w zakresie dynamicznym aparatu. Często niepotrzebne bogactwo szczegółów wystarczy ukryć w pół-abstrakcyjnej czarnej sylwetce, co sprawia, że zdjęcie jest jednocześnie zwięzłe i bogatsze.

Wysoki kontrast nie zawsze jest zły – wystarczy umieć z nim pracować. Naucz się wykorzystywać słabości i mocne strony sprzętu, a zdziwisz się, jak bardzo rozwinie się Twoja kreatywność.

Dziękuję za uwagę!

Wasilij A.

Post Scriptum

Jeśli artykuł okazał się dla Ciebie przydatny i pouczający, możesz uprzejmie wesprzeć projekt, przyczyniając się do jego rozwoju. Jeśli nie podobał Ci się artykuł, ale masz przemyślenia, jak go ulepszyć, Twoja krytyka zostanie przyjęta z nie mniejszą wdzięcznością.

Nie zapominaj, że ten artykuł jest objęty prawami autorskimi. Przedruk i cytowanie są dozwolone pod warunkiem istnienia prawidłowego linku do oryginalnego źródła, a użytego tekstu nie wolno w żaden sposób zniekształcać ani modyfikować.

Kompresja dynamiczna(Kompresja dynamiki, DRC) - zawężenie (lub rozszerzenie w przypadku ekspandera) zakresu dynamiki fonogramu. Zakres dynamiczny, to różnica między najcichszym a najgłośniejszym dźwiękiem. Czasami najcichszy dźwięk na fonogramie będzie nieco głośniejszy niż poziom hałasu, a czasami nieco cichszy niż najgłośniejszy. Urządzenia sprzętowe i programy wykonujące kompresję dynamiczną nazywane są kompresorami, wyróżniając wśród nich cztery główne grupy: same kompresory, limitery, ekspandery i bramki.

Kompresor lampowy analogowy DBX 566

Kompresja w dół i w górę

dolna kompresja(Kompresja w dół) zmniejsza głośność dźwięku, gdy przekracza określony próg, pozostawiając cichsze dźwięki bez zmian. Ekstremalna wersja kompresji to ogranicznik. Kompresja w górę(Kompresja w górę), przeciwnie, zwiększa głośność dźwięku, jeśli jest on poniżej wartości progowej, bez wpływu na głośniejsze dźwięki. Jednocześnie oba rodzaje kompresji zawężają zakres dynamiczny sygnału audio.

dolna kompresja

Kompresja w górę

Ekspander i bramka

Jeśli kompresor zmniejsza zakres dynamiki, ekspander go zwiększa. Gdy poziom sygnału przekroczy poziom progowy, ekspander zwiększa go jeszcze bardziej, zwiększając w ten sposób różnicę między dźwiękami głośnymi i cichymi. Podobne urządzenia często używany podczas nagrywania zestawu perkusyjnego, aby oddzielić dźwięki jednego bębna od drugiego.

Rodzaj ekspandera, który nie służy do wzmacniania głośnych dźwięków, ale do tłumienia ciche dźwięki, nazywa się nieprzekraczanie poziomu progowego (na przykład szum tła) bramka szumów. W takim urządzeniu, gdy tylko poziom dźwięku spadnie poniżej progu, sygnał przestaje mijać. Zazwyczaj bramka służy do tłumienia szumów w przerwach. W niektórych modelach możesz upewnić się, że dźwięk nie zatrzymuje się nagle po osiągnięciu poziomu progowego, ale stopniowo zanika. W takim przypadku szybkość zaniku jest ustawiana przez kontrolkę Decay.

Brama, podobnie jak inne typy sprężarek, może być zależny od częstotliwości(tj. traktować określone pasma częstotliwości inaczej) i może działać w łańcuch boczny(patrz poniżej).

Zasada działania sprężarki

Sygnał wchodzący do kompresora jest dzielony na dwie kopie. Jedna kopia jest wysyłana do wzmacniacza, w którym wzmocnienie jest kontrolowane przez sygnał zewnętrzny, druga kopia tworzy ten sygnał. Wchodzi do urządzenia zwanego łańcuchem bocznym, gdzie mierzony jest sygnał i na podstawie tych danych tworzona jest obwiednia, która opisuje zmianę jego objętości.
Tak układa się większość nowoczesnych sprężarek, jest to tzw. typ feed-forward. W starszych urządzeniach (typu sprzężenia zwrotnego) poziom sygnału mierzony jest za wzmacniaczem.

Istnieją różne analogowe technologie kontrolowanego wzmocnienia (wzmocnienie o zmiennym wzmocnieniu), każda z własnymi zaletami i wadami: lampowa, optyczna z wykorzystaniem fotorezystorów i tranzystorów. Podczas pracy z dźwiękiem cyfrowym (w edytorze dźwięku lub DAW) można stosować zastrzeżone algorytmy matematyczne lub emulować technologie analogowe.

Główne parametry sprężarek

Próg

Kompresor zmniejsza poziom sygnału audio, jeśli jego amplituda przekracza określoną wartość progową (próg). Zazwyczaj określa się go w decybelach, przy niższym progu (np. -60 dB), co oznacza, że zostanie przetworzonych więcej dźwięku niż wyższy próg (np. -5 dB).

Stosunek

Wielkość redukcji poziomu jest określona przez parametr ratio: stosunek 4:1 oznacza, że jeśli poziom wejściowy jest o 4 dB powyżej progu, poziom wyjściowy będzie o 1 dB powyżej progu.
Na przykład:
Próg = -10dB
Sygnał wejściowy = -6 dB (4 dB powyżej progu)
Sygnał wyjściowy = -9 dB (1 dB powyżej progu)

Należy pamiętać, że tłumienie poziomu sygnału trwa jeszcze przez pewien czas po jego spadku poniżej wartości progowej, a ten czas jest określany przez wartość parametru wydanie.

Kompresja o maksymalnym stosunku ∞:1 nazywana jest ograniczaniem. Oznacza to, że każdy sygnał powyżej poziomu progowego jest tłumiony do poziomu progowego (z wyjątkiem krótkiego okresu po nagłym wzroście głośności wejściowej). Zobacz „Limiter” poniżej, aby uzyskać szczegółowe informacje.

Przykłady różnych wartości współczynnika

Atak i uwolnienie

Kompresor zapewnia pewną kontrolę nad tym, jak szybko reaguje na zmianę dynamiki sygnału. Parametr Attack określa czas potrzebny kompresorowi na zmniejszenie wzmocnienia do poziomu określonego przez parametr Ratio. Zwolnienie określa czas potrzebny sprężarce na zwiększenie wzmocnienia lub powrót do stanu normalnego, jeśli poziom wejściowy spadnie poniżej progu.

Fazy ataku i uwolnienia

Parametry te wskazują czas (zwykle w milisekundach) potrzebny na zmianę wzmocnienia o określoną liczbę decybeli, zwykle 10 dB. Na przykład, w tym przypadku, jeśli Attack jest ustawiony na 1ms, zajmie 1ms, aby zmniejszyć wzmocnienie o 10dB, a 2ms o 20dB.

W wielu kompresorach parametry Attack i Release można regulować, ale w niektórych są one wstępnie ustawione i nie można ich regulować. Czasami określa się je jako „automatyczne” lub „zależne od programu”, tj. zmienić w zależności od sygnału wejściowego.

Kolano

Inna opcja kompresora: twarde/miękkie kolano. Określa, czy rozpoczęcie stosowania kompresji będzie gwałtowne (twarde) czy stopniowe (miękkie). Miękkie kolano zmniejsza widoczność przejścia sygnału od suchego do skompresowanego, szczególnie przy wysokich współczynnikach i nagłym wzroście głośności.

Kompresja twardego kolana i miękkiego kolana

Szczyt i RMS

Kompresor może reagować na wartości szczytowe (krótkotrwałe maksymalne) lub na średni poziom sygnału wejściowego. Stosowanie wartości szczytowych może prowadzić do dużych wahań stopnia kompresji, a nawet zniekształceń. Dlatego sprężarki stosują funkcję uśredniania (zwykle RMS) sygnału wejściowego przy porównywaniu go z wartością progową. Daje to bardziej komfortową kompresję, która jest bliższa ludzkiej percepcji głośności.

RMS to parametr, który odzwierciedla średnią głośność fonogramu. Z matematycznego punktu widzenia RMS (Root Mean Square) jest średnią kwadratową wartością amplitudy pewnej liczby próbek:

łączenie stereo

Kompresor w trybie łączenia stereo stosuje to samo wzmocnienie do obu kanałów stereo. Pozwala to uniknąć przesunięcia panoramy stereo, które może wynikać z indywidualnego przetwarzania lewego i prawego kanału. Takie przesunięcie występuje, gdy na przykład jakiś głośny element jest przesuwany poza środek.

przyrost makijażu

Ponieważ kompresor zmniejsza ogólny poziom sygnału, często dodaje się do wyjścia opcję stałego wzmocnienia, aby uzyskać optymalny poziom.

Patrz przed siebie

Funkcja wyprzedzenia ma na celu rozwiązanie problemów związanych zarówno ze zbyt dużymi, jak i zbyt małymi wartościami Attack i Release. Zbyt wiele wielki czas ataki nie pozwalają na skuteczne przechwytywanie transjentów, a ich zbyt mała ilość może być nieprzyjemna dla słuchacza. Podczas korzystania z funkcji wyprzedzenia główny sygnał jest opóźniony w stosunku do sygnału kontrolnego, co pozwala na rozpoczęcie kompresji z wyprzedzeniem, nawet zanim sygnał osiągnie wartość progową.
Jedyną wadą tej metody jest opóźnienie czasowe sygnału, co w niektórych przypadkach jest niepożądane.

Korzystanie z kompresji dynamicznej

Kompresja jest stosowana wszędzie, nie tylko w fonogramach muzycznych, ale także wszędzie tam, gdzie konieczne jest zwiększenie ogólnej głośności bez zwiększania poziomów szczytowych, gdzie używany jest niedrogi sprzęt do odtwarzania dźwięku lub ograniczony kanał transmisji (systemy nagłośnienia i łączności, radio amatorskie itp. .) .

Kompresja jest stosowana podczas odtwarzania muzyki w tle (w sklepach, restauracjach itp.), gdzie niepożądane są zauważalne zmiany głośności.

Ale najważniejszym zastosowaniem kompresji dynamicznej jest produkcja i nadawanie muzyki. Kompresja służy do nadania dźwiękowi „grubości” i „drive”, aby lepiej dopasować instrumenty do siebie, a zwłaszcza podczas przetwarzania wokali.

Wokal w muzyce rockowej i popowej jest zwykle kompresowany, aby wyróżnić się z akompaniamentu i dodać wyrazistości. Do tłumienia syczących fonemów służy specjalny rodzaj kompresora, dostrojony tylko do określonych częstotliwości - de-esser.

W partiach instrumentalnych kompresja jest również stosowana dla efektów, które nie są bezpośrednio związane z głośnością, na przykład szybko zanikające dźwięki perkusji mogą stać się dłuższe.

Elektroniczna muzyka taneczna (EDM) często wykorzystuje side-chaining (patrz poniżej) - na przykład linia basu może być napędzana przez kopnięcie lub podobne, aby zapobiec konfliktowi bas/bęben i stworzyć dynamiczną pulsację.

Kompresja jest szeroko stosowana w transmisji (radio, telewizja, Internet) w celu zwiększenia postrzeganej głośności przy jednoczesnym zmniejszeniu zakresu dynamicznego oryginalnego dźwięku (zwykle płyty CD). W większości krajów obowiązują ograniczenia prawne dotyczące chwilowej maksymalnej głośności, jaką można nadawać. Zwykle ograniczenia te są realizowane przez stałe sprężarki sprzętowe w obwodzie napowietrznym. Dodatkowo zwiększenie odczuwanej głośności poprawia „jakość” dźwięku z punktu widzenia większości słuchaczy.

Zobacz też Wojna na głośność.

Sekwencyjne zwiększanie głośności tego samego utworu, zremasterowanego na CD od 1983 do 2000 roku.

łańcuch boczny

Innym powszechnym przełącznikiem sprężarki jest „łańcuch boczny”. W tym trybie dźwięk jest kompresowany nie w zależności od własnego poziomu, ale w zależności od poziomu sygnału dochodzącego do złącza, które zwykle nazywane jest łańcuchem bocznym.

Jest kilka zastosowań tego. Na przykład wokalista sepleni, a wszystkie litery „s” wyróżniają się z ogólnego obrazu. Przepuszczasz jego głos przez kompresor, a ten sam dźwięk jest podawany do gniazda łańcucha bocznego, ale przechodzi przez korektor. Na korektorze usuwasz wszystkie częstotliwości z wyjątkiem tych używanych przez wokalistę podczas wymawiania litery „c”. Zwykle około 5 kHz, ale może wynosić od 3 kHz do 8 kHz. Jeśli następnie przełączysz kompresor w tryb łańcucha bocznego, głos zostanie skompresowany w tych momentach, w których wymawiana jest litera „s”. W ten sposób uzyskano urządzenie znane jako „de-esser” (de-esser). Ten sposób pracy nazywa się zależnym od częstotliwości.

Innym zastosowaniem tej funkcji jest „kaczka”. Na przykład w stacji radiowej muzyka przechodzi przez kompresor, a słowa DJ-a przechodzą przez łańcuch boczny. Gdy DJ zacznie rozmawiać, głośność muzyki zostanie automatycznie zmniejszona. Efekt ten można z powodzeniem zastosować również w nagraniach, np. w celu zmniejszenia głośności partii klawiszy podczas śpiewania.

ograniczenie muru ceglanego

Kompresor i limiter działają w bardzo podobny sposób, można powiedzieć, że limiter to kompresor o wysokim Ratio (od 10:1) i zazwyczaj krótkim czasie ataku.

Istnieje koncepcja ograniczania muru ceglanego - ograniczania z bardzo wysokim współczynnikiem (od 20:1 wzwyż) i bardzo szybkim atakiem. W idealnej sytuacji nie pozwala w ogóle na przekroczenie progu sygnału. Efekt będzie nieprzyjemny dla ucha, ale zapobiegnie uszkodzeniu lub przekroczeniu sprzętu odtwarzającego dźwięk pasmo kanał. Wielu producentów integruje w swoich urządzeniach limitery właśnie w tym celu.

Maszynka do strzyżenia kontra Limiter, miękkie i twarde strzyżenie

W czasach, gdy badacze dopiero zaczynali rozwiązywać problem tworzenia interfejsu głosowego dla komputerów, często musieli tworzyć własny sprzęt, który pozwala wprowadzać informacje dźwiękowe do komputera, a także wyprowadzać je z komputera. Dzisiaj takie urządzenia mogą mieć niewiele więcej niż zainteresowanie historyczne, ponieważ współczesne komputery można łatwo wyposażyć w urządzenia wejścia i wyjścia dźwięku, takie jak adaptery dźwięku, mikrofony, słuchawki i głośniki.

Nie będziemy wchodzić w szczegóły urządzenie wewnętrzne tych urządzeń, ale porozmawiamy o tym, jak działają i przedstawimy kilka zaleceń dotyczących wyboru dźwiękowych urządzeń komputerowych do pracy z systemami rozpoznawania i syntezy mowy.

Jak powiedzieliśmy w poprzednim rozdziale, dźwięk to nic innego jak wibracje powietrza, których częstotliwość mieści się w zakresie częstotliwości odbieranych przez człowieka. U różnych osób dokładne granice zakresu słyszalnych częstotliwości mogą się różnić, ale uważa się, że drgania dźwięku leżą w zakresie 16-20 000 Hz.

Zadaniem mikrofonu jest przekształcanie drgań dźwiękowych w drgania elektryczne, które można następnie wzmocnić, przefiltrować w celu usunięcia zakłóceń i zdigitalizować w celu wprowadzenia. informacja dźwiękowa do komputera.

Zgodnie z zasadą działania najpopularniejsze mikrofony dzielą się na węglowe, elektrodynamiczne, pojemnościowe i elektretowe. Niektóre z tych mikrofonów wymagają do działania zewnętrznego źródła prądu (np. mikrofon węglowy i pojemnościowy), inne natomiast pod wpływem drgań dźwięku są w stanie samodzielnie generować przemienne napięcie elektryczne (są to mikrofony elektrodynamiczne i elektretowe).

Możesz także rozdzielać mikrofony według celu. Są mikrofony studyjne, które można trzymać w dłoni lub zamontować na statywie, są mikrofony radiowe, które można przypiąć do ubrania i tak dalej.

Istnieją również mikrofony zaprojektowane specjalnie dla komputerów. Mikrofony te są zwykle montowane na statywie umieszczonym na powierzchni stołu. Mikrofony komputerowe można łączyć ze słuchawkami, jak pokazano na ryc. 2-1.

Ryż. 2-1. Słuchawki nagłowne z mikrofonem

Jak wybrać z całej gamy mikrofonów ten, który najlepiej nadaje się do systemów rozpoznawania mowy?

Zasadniczo możesz poeksperymentować z dowolnym posiadanym mikrofonem, o ile można go podłączyć do adaptera dźwiękowego komputera. Jednak twórcy systemów rozpoznawania mowy zalecają zakup mikrofonu, który podczas pracy będzie znajdował się w stałej odległości od ust mówiącego.

Jeśli odległość między mikrofonem a ustami się nie zmieni, to średni poziom sygnału elektrycznego pochodzącego z mikrofonu również nie zmieni się zbytnio. Wpłynie to pozytywnie na jakość nowoczesnych systemów rozpoznawania mowy.

Jaki jest tutaj problem?

Osoba jest w stanie z powodzeniem rozpoznawać mowę, której głośność zmienia się w bardzo szerokim zakresie. Ludzki mózg jest w stanie odfiltrować cichą mowę z zakłóceń, takich jak hałas samochodów jadących ulicą, obce rozmowy i muzyka.

Jeśli chodzi o nowoczesne systemy rozpoznawania mowy, ich możliwości w tym zakresie pozostawiają wiele do życzenia. Jeśli mikrofon stoi na stole, to gdy odwrócisz głowę lub zmienisz pozycję ciała, zmieni się odległość między ustami a mikrofonem. Spowoduje to zmianę poziomu wyjściowego mikrofonu, co z kolei obniży niezawodność rozpoznawania mowy.

Dlatego podczas pracy z systemami rozpoznawania mowy najlepsze rezultaty osiągniemy, jeśli użyjemy mikrofonu dołączonego do słuchawek, jak pokazano na ryc. 2-1. Podczas korzystania z takiego mikrofonu odległość między ustami a mikrofonem będzie stała.

Zwracamy również uwagę na fakt, że wszelkie eksperymenty z systemami rozpoznawania mowy najlepiej przeprowadzać w odosobnieniu, w cichym pokoju. W takim przypadku wpływ zakłóceń będzie minimalny. Oczywiście, jeśli trzeba wybrać system rozpoznawania mowy, który może działać w warunkach silnych zakłóceń, to testy trzeba wykonać inaczej. Jednak, o ile wiedzą autorzy książki, odporność na zakłócenia systemów rozpoznawania mowy jest nadal bardzo, bardzo niska.

Mikrofon dokonuje dla nas transformacji drgań dźwiękowych na wibracje. prąd elektryczny. Te wahania można zobaczyć na ekranie oscyloskopu, ale nie spiesz się do sklepu, aby kupić to drogie urządzenie. Wszystkie badania oscylograficzne możemy przeprowadzić przy użyciu konwencjonalnego komputera wyposażonego w adapter dźwięku, np. adapter Sound Blaster. Później powiemy Ci, jak to zrobić.

Na ryc. 2-2 pokazaliśmy oscylogram sygnału dźwiękowego uzyskanego podczas wymawiania długiego dźwięku a. Ten przebieg został uzyskany przy użyciu programu GoldWave, który omówimy w dalszej części książki, a także przy użyciu adaptera audio Sound Blaster i mikrofonu podobnego do pokazanego na ryc. 2-1.

Ryż. 2-2. Oscylogram sygnału audio

Program GoldWave pozwala na rozciągnięcie przebiegu wzdłuż osi czasu, co pozwala zobaczyć najdrobniejsze szczegóły. Na ryc. 2-3 pokazaliśmy rozciągnięty fragment oscylogramu dźwięku, o którym mowa powyżej.

Ryż. 2-3. Fragment oscylogramu sygnału audio

Zauważ, że wielkość sygnału wejściowego z mikrofonu zmienia się okresowo i przyjmuje zarówno wartości dodatnie, jak i ujemne.

Gdyby w sygnale wejściowym występowała tylko jedna częstotliwość (czyli gdyby dźwięk był „czysty”), przebieg odbierany z mikrofonu byłby sinusoidalny. Jednak, jak już powiedzieliśmy, widmo dźwięków mowy ludzkiej składa się z zestawu częstotliwości, w wyniku czego kształt oscylogramu sygnału mowy jest daleki od sinusoidalnego.

Sygnał, którego wielkość zmienia się nieustannie w czasie, nazwiemy sygnał analogowy. To jest sygnał pochodzący z mikrofonu. W przeciwieństwie do analogu, sygnał cyfrowy to zestaw wartości liczbowych, które zmieniają się dyskretnie w czasie.

Aby komputer mógł przetworzyć sygnał audio, musi on zostać przekonwertowany z postaci analogowej na cyfrową, czyli przedstawiony jako zbiór wartości liczbowych. Proces ten nazywa się cyfryzacją analogową.

Digitalizacja sygnału audio (i dowolnego analogowego) odbywa się za pomocą specjalnego urządzenia o nazwie Analogowy do cyfrowego konwertera ADC (przetwornik analogowo-cyfrowy, ADC). To urządzenie znajduje się na płytce adaptera dźwięku i jest zwyczajnie wyglądającym mikroukładem.

Jak działa konwerter analogowo-cyfrowy?

Okresowo mierzy poziom sygnału wejściowego i wyprowadza na wyjście wartość liczbową wyniku pomiaru. Proces ten zilustrowano na ryc. 2-4. Tutaj szare prostokąty oznaczają wartości sygnału wejściowego, mierzone w pewnym stałym przedziale czasu. Zbiór takich wartości jest cyfrową reprezentacją wejściowego sygnału analogowego.

Ryż. 2-4. Pomiary zależności amplitudy sygnału od czasu

Na ryc. Na rysunku 2-5 pokazaliśmy podłączenie przetwornika analogowo-cyfrowego do mikrofonu. W takim przypadku sygnał analogowy jest podawany na wejście x 1, a sygnał cyfrowy jest usuwany z wyjść u 1 -u n.

Ryż. 2-5. Analogowy do cyfrowego konwertera

Przetworniki analogowo-cyfrowe charakteryzują się dwoma ważnymi parametrami - częstotliwością konwersji oraz liczbą poziomów kwantyzacji sygnału wejściowego. Właściwy dobór tych parametrów ma kluczowe znaczenie dla uzyskania odpowiedniej cyfryzacji sygnału analogowego.

Jak często trzeba mierzyć wartość amplitudy wejściowego sygnału analogowego, aby informacja o zmianach wejściowego sygnału analogowego nie została utracona w wyniku cyfryzacji?

Wydawałoby się, że odpowiedź jest prosta – sygnał wejściowy powinien być mierzony jak najczęściej. Rzeczywiście, im częściej przetwornik analogowo-cyfrowy dokonuje takich pomiarów, tym lepiej będzie śledzić najmniejsze zmiany amplitudy analogowego sygnału wejściowego.

Jednak zbyt częste pomiary mogą prowadzić do nieuzasadnionego wzrostu przepływu danych cyfrowych i marnowania zasobów komputerowych w przetwarzaniu sygnałów.

Na szczęście, właściwy wybór częstotliwość konwersji (częstotliwość próbkowania) jest dość prosta. Aby to zrobić, wystarczy odwołać się do twierdzenia Kotelnikowa, znanego specjalistom w dziedzinie cyfrowego przetwarzania sygnałów. Twierdzenie to mówi, że częstotliwość konwersji musi być dwukrotnością maksymalnej częstotliwości widma konwertowanego sygnału. Dlatego, aby zdigitalizować bez utraty jakości sygnału audio, którego częstotliwość mieści się w zakresie 16-20 000 Hz, należy wybrać częstotliwość konwersji nie mniejszą niż 40 000 Hz.

Należy jednak pamiętać, że w profesjonalnym sprzęcie audio częstotliwość konwersji jest wybierana kilkakrotnie większa niż podana wartość. Ma to na celu osiągnięcie bardzo Wysoka jakość dźwięk cyfrowy. W przypadku systemów rozpoznawania mowy ta jakość nie ma znaczenia, więc nie będziemy zwracać Twojej uwagi na ten wybór.

A jaka częstotliwość konwersji jest potrzebna do digitalizacji dźwięku ludzkiej mowy?

Ponieważ dźwięki mowy ludzkiej leżą w zakresie częstotliwości 300-4000 Hz, minimalna wymagana częstotliwość konwersji wynosi 8000 Hz. Jednakże wiele programy komputerowe Rozpoznawanie mowy wykorzystuje standardową częstotliwość konwersji 44 000 Hz dla konwencjonalnych adapterów audio. Taki współczynnik konwersji z jednej strony nie prowadzi do nadmiernego wzrostu strumienia danych cyfrowych, a z drugiej zapewnia odpowiednią jakość digitalizacji mowy.

W szkole uczono nas, że przy każdym pomiarze pojawiają się błędy, których nie można całkowicie wyeliminować. Błędy takie wynikają z ograniczonej rozdzielczości przyrządów pomiarowych, a także z tego, że sam proces pomiarowy może wprowadzać pewne zmiany wartości mierzonej.

Przetwornik analogowo-cyfrowy przedstawia wejściowy sygnał analogowy jako strumień liczb o ograniczonej pojemności. Konwencjonalne adaptery audio zawierają 16-bitowe bloki ADC zdolne do reprezentowania amplitudy sygnału wejściowego jako 216 = 65536 różnych wartości. Urządzenia ADC w wysokiej klasy sprzęcie audio mogą być 20-bitowe, co zapewnia większą dokładność odwzorowania amplitudy sygnału audio.

Nowoczesne systemy i programy rozpoznawania mowy zostały stworzone dla zwykłych komputerów wyposażonych w zwykłe adaptery dźwiękowe. Dlatego, aby przeprowadzać eksperymenty z rozpoznawaniem mowy, nie musisz kupować profesjonalnego adaptera audio. Adapter taki jak Sound Blaster doskonale nadaje się do digitalizacji mowy w celu dalszego rozpoznawania.

Wraz z użytecznym sygnałem do mikrofonu zwykle wchodzą różne odgłosy - hałas z ulicy, szum wiatru, obce rozmowy itp. Hałas ma negatywny wpływ na jakość systemów rozpoznawania mowy, dlatego należy się nim zająć. Jednym ze sposobów, o których już wspomnieliśmy, jest to, że dzisiejsze systemy rozpoznawania mowy najlepiej sprawdzają się w cichym pomieszczeniu, pozostając sam na sam z komputerem.

Jednak nie zawsze da się stworzyć idealne warunki, dlatego trzeba użyć specjalnych metod, aby pozbyć się zakłóceń. Aby zmniejszyć poziom szumów, przy projektowaniu mikrofonów stosuje się specjalne sztuczki i specjalne filtry, które usuwają z widma sygnału analogowego częstotliwości, które nie niosą użytecznych informacji. Ponadto stosowana jest taka technika, jak kompresja zakresu dynamicznego poziomów sygnału wejściowego.

Porozmawiajmy o tym wszystkim w kolejności.

filtr częstotliwości Nazywa się urządzenie, które przekształca widmo częstotliwości sygnału analogowego. W tym przypadku w procesie transformacji następuje selekcja (lub pochłanianie) oscylacji określonych częstotliwości.

Możesz myśleć o tym urządzeniu jako o czymś w rodzaju czarnej skrzynki z jednym wejściem i jednym wyjściem. W stosunku do naszej sytuacji do wejścia filtra częstotliwości zostanie podłączony mikrofon, a do wyjścia przetwornik analogowo-cyfrowy.

Filtry częstotliwości są różne:

filtry dolnoprzepustowe;

Filtry górnoprzepustowe

Przepuszczanie filtrów pasmowych

blokowanie filtrów pasmowych.

Filtry dolnoprzepustowe(filtr dolnoprzepustowy) usuwa z widma sygnału wejściowego wszystkie częstotliwości, których wartości są poniżej określonej częstotliwości progowej, w zależności od ustawienia filtra.

Ponieważ sygnały audio mieszczą się w zakresie 16-20 000 Hz, wszystkie częstotliwości poniżej 16 Hz można odciąć bez pogorszenia jakości dźwięku. W przypadku rozpoznawania mowy ważny jest zakres częstotliwości 300-4000 Hz, więc częstotliwości poniżej 300 Hz można wyciąć. W takim przypadku wszelkie szumy, których widmo częstotliwości leży poniżej 300 Hz, zostaną odcięte od sygnału wejściowego i nie będą zakłócać procesu rozpoznawania mowy.

Podobnie, filtry górnoprzepustowe(filtr górnoprzepustowy) wycina z widma sygnału wejściowego wszystkie częstotliwości powyżej określonej częstotliwości progowej.

Ludzie nie słyszą dźwięków o częstotliwości 20 000 Hz lub wyższej, więc można je wyciąć z widma bez zauważalnego pogorszenia jakości dźwięku. W przypadku rozpoznawania mowy można wyciąć wszystkie częstotliwości powyżej 4000 Hz, co doprowadzi do znacznego obniżenia poziomu zakłóceń wysokoczęstotliwościowych.

Filtr pasmowy(filtr pasmowy) można traktować jako połączenie filtra dolnoprzepustowego i filtra górnoprzepustowego. Taki filtr zatrzymuje wszystkie częstotliwości poniżej tzw częstotliwość dolnego przejścia, jak również powyżej górna częstotliwość przenoszenie.

Tak więc dla systemu rozpoznawania mowy wygodny jest filtr pasmowoprzepustowy, który opóźnia wszystkie częstotliwości, z wyjątkiem częstotliwości z zakresu 300-4000 Hz.

Jeśli chodzi o filtry pasmowe (filtr pasmowy), pozwalają one wyciąć z widma sygnału wejściowego wszystkie częstotliwości, które leżą w danym zakresie. Taki filtr jest wygodny na przykład do tłumienia szumu, który zajmuje pewną ciągłą część widma sygnału.

Na ryc. 2-6 pokazaliśmy podłączenie filtra przelotowego.

Ryż. 2-6. Filtrowanie sygnału audio przed digitalizacją

Muszę powiedzieć, że zwykłe adaptery dźwiękowe zainstalowane w komputerze mają filtr pasmowy, przez który przechodzi sygnał analogowy przed cyfryzacją. Szerokość pasma takiego filtra odpowiada zwykle zakresowi sygnałów audio, czyli 16-20 000 Hz (w różnych adapterach audio wartości górnych i dolnych częstotliwości mogą się nieznacznie różnić).

Ale jak osiągnąć węższe pasmo 300-4000 Hz, odpowiadające najbardziej informacyjnej części spektrum mowy ludzkiej?

Oczywiście, jeśli masz upodobanie do projektowania sprzętu elektronicznego, możesz zrobić swój własny filtr z układu wzmacniacza operacyjnego, rezystorów i kondensatorów. Tak właśnie zrobili pierwsi twórcy systemów rozpoznawania mowy.

Jednakże systemy przemysłowe rozpoznawanie mowy powinno działać w standardzie wyposażenie komputera, więc sposób wykonania specjalnego filtra pasmowoprzepustowego nie jest tutaj odpowiedni.

Zamiast tego w nowoczesne systemy przetwarzanie mowy wykorzystuje tzw cyfrowe filtry częstotliwości zaimplementowane w oprogramowaniu. Stało się to możliwe po procesor komputer stał się wystarczająco potężny.

Zaimplementowany w oprogramowaniu cyfrowy filtr częstotliwości przekształca wejściowy sygnał cyfrowy na wyjściowy sygnał cyfrowy. Podczas procesu konwersji program w szczególny sposób przetwarza strumień wartości liczbowych amplitudy sygnału pochodzącego z przetwornika analogowo-cyfrowego. Wynikiem konwersji będzie również strumień liczb, ale ten strumień będzie odpowiadał już przefiltrowanemu sygnałowi.

Mówiąc o przetworniku analogowo-cyfrowym, zauważyliśmy takie ważna cecha, jako liczba poziomów kwantyzacji. Jeśli w adapterze audio jest zainstalowany 16-bitowy konwerter analogowo-cyfrowy, to po digitalizacji poziomy sygnału audio mogą być reprezentowane jako 216 = 65536 różnych wartości.

Jeśli jest kilka poziomów kwantyzacji, to tzw szum kwantyzacji. Aby zredukować ten szum, wysokiej jakości systemy cyfryzacji dźwięku powinny używać przetworników analogowo-cyfrowych z maksymalną dostępną liczbą poziomów kwantyzacji.

Istnieje jednak inny sposób na zmniejszenie wpływu szumu kwantyzacji na jakość sygnału audio, który jest wykorzystywany w systemach cyfrowego nagrywania dźwięku. Stosując tę technikę, sygnał jest przepuszczany przez nieliniowy wzmacniacz przed digitalizacją, która uwydatnia sygnały o małej amplitudzie sygnału. To urządzenie wzmacnia słabe sygnały silniejszy niż silny.

Ilustruje to wykres amplitudy sygnału wyjściowego w funkcji amplitudy sygnału wejściowego pokazany na ryc. 2-7.

Ryż. 2-7. Wzmocnienie nieliniowe przed digitalizacją

Na etapie konwersji zdigitalizowanego dźwięku z powrotem na analogowy (który omówimy w dalszej części tego rozdziału), sygnał analogowy jest ponownie przepuszczany przez nieliniowy wzmacniacz, zanim zostanie wyprowadzony do głośników. Tym razem zastosowano inny wzmacniacz, który uwydatnia sygnały o dużej amplitudzie i ma odwrotną charakterystykę przenoszenia (zależność amplitudy sygnału wyjściowego od amplitudy sygnału wejściowego) niż przy digitalizacji.

Jak to wszystko może pomóc twórcom systemów rozpoznawania mowy?

Jak wiesz, osoba całkiem dobrze rozpoznaje mowę wypowiadaną cichym szeptem lub dość głośnym głosem. Można powiedzieć, że dynamiczny zakres poziomów głośności pomyślnie rozpoznanej mowy dla osoby jest dość szeroki.

Niestety dzisiejsze systemy komputerowego rozpoznawania mowy nie mogą się jeszcze tym pochwalić. Aby jednak nieco rozszerzyć określony zakres dynamiki przed cyfryzacją, możliwe jest przepuszczenie sygnału z mikrofonu przez wzmacniacz nieliniowy, którego charakterystykę przenoszenia pokazano na ryc. 2-7. Zmniejszy to poziom szumu kwantyzacji podczas digitalizacji słabych sygnałów.

Twórcy systemów rozpoznawania mowy ponownie zmuszeni są skupić się przede wszystkim na dostępnych na rynku adapterach dźwięku. Nie zapewniają one opisanej powyżej nieliniowej konwersji sygnału.

Możliwe jest jednak stworzenie programowego odpowiednika nieliniowego wzmacniacza, który konwertuje zdigitalizowany sygnał przed przekazaniem go do modułu rozpoznawania mowy. I chociaż taki wzmacniacz programowy nie będzie w stanie zredukować szumu kwantyzacji, można go wykorzystać do podkreślenia tych poziomów sygnału, które przenoszą najwięcej informacji mowy. Na przykład możesz zmniejszyć amplitudę słabych sygnałów, pozbywając się w ten sposób sygnału szumu.

Zastanówmy się nad pytaniem – dlaczego musimy zwiększać głośność? Aby słyszeć ciche dźwięki, które nie są słyszalne w naszych warunkach (na przykład, jeśli nie możesz słuchać głośno, jeśli obcy hałas w pokoju itp.). Czy można wzmocnić ciche dźwięki, ale nie głośne? Okazuje się, że możesz. Ta technika nazywa się kompresją zakresu dynamicznego (DRC). Aby to zrobić, musisz stale zmieniać aktualną głośność - ciche dźwięki są wzmacniane, głośne nie. Najprostsze prawo zmiany objętości jest liniowe, tj. głośność zmienia się zgodnie z prawem output_loudness = k * input_loudness, gdzie k jest współczynnikiem kompresji zakresu dynamiki:

Rysunek 18. Kompresja zakresu dynamiki.

Dla k = 1 nie dokonuje się żadnej zmiany (głośność wyjściowa jest równa głośności wejściowej). Widelec< 1 громкость будет увеличиваться, а динамический диапазон - сужаться. Посмотрим на график (k=1/2) - тихий звук, имевший громкость -50дБ станет громче на 25дБ, что значительно громче, но при этом громкость диалогов (-27дБ) повысится всего лишь на 13.5дБ, а громкость самых громких звуков (0дБ) вообще не изменится. При k >1 - głośność zmniejszy się, a zakres dynamiczny wzrośnie.

Spójrzmy na wykresy głośności (k = 1/2: kompresja DD o połowę):

Rysunek 19. Wykresy głośności.

Jak widać w oryginale były zarówno bardzo ciche dźwięki, 30dB poniżej poziomu dialogów, jak i bardzo głośne dźwięki - 30dB powyżej poziomu dialogów. To. zakres dynamiki wynosił 60dB. Po kompresji głośne dźwięki są tylko 15dB wyższe, a ciche o 15dB niższe niż dialogi (zakres dynamiki wynosi teraz 30dB). W ten sposób głośne dźwięki stają się znacznie cichsze, a ciche dźwięki stają się znacznie głośniejsze. W takim przypadku nie występuje przepełnienie!

Przejdźmy teraz do histogramów:

Rysunek 20. Przykład kompresji.

Jak wyraźnie widać, przy wzmocnieniu +30 dB kształt histogramu jest dobrze zachowany, co oznacza, że głośne dźwięki pozostają dobrze zdefiniowane (nie przechodzą do maksimum i nie są odcinane, jak to bywa przy prostym wzmocnieniu). Powoduje to ciche dźwięki. Histogram pokazuje to słabo, ale różnica jest bardzo zauważalna ze słuchu. Wadą metody są same skoki głośności. Mechanizm ich powstawania różni się jednak od skoków głośności występujących podczas przesterowania, a ich charakter jest inny – pojawiają się one głównie przy bardzo silnym wzmocnieniu dźwięków cichych (a nie przy ucinaniu głośnych, jak przy normalnym wzmocnieniu). Nadmierna kompresja prowadzi do spłaszczenia obrazu dźwiękowego – wszystkie dźwięki mają tę samą głośność i brak wyrazistości.

Silnie wzmacniające ciche dźwięki mogą powodować, że dźwięk nagrywania stanie się słyszalny. Dlatego w filtrze zastosowano nieco zmodyfikowany algorytm, aby poziom szumu wzrastał mniej:

Rysunek 21. Zwiększanie głośności bez zwiększania hałasu.

Tych. przy poziomie głośności -50 dB następuje przegięcie funkcji przenoszenia, a szum zostanie wzmocniony w mniejszym stopniu (linia żółta). W przypadku braku takiego przegięcia hałas będzie znacznie głośniejszy (szara linia). Tak prosta modyfikacja znacząco redukuje poziom hałasu nawet przy bardzo wysokich poziomach kompresji (kompresja 1:5 na rysunku). Poziom „DRC” w filtrze określa poziom wzmocnienia dla cichszych dźwięków (przy -50 dB), więc Poziom kompresji 1/5 pokazany na rysunku odpowiada poziomowi +40dB w ustawieniach filtra.