Audio

Podejście X-Fi do obróbki wymiksowywania

przeczytasz w 2 min.

Firma Creative opracowała nową kategorie własnych (patent zgłoszony) algorytmów, aby wyjść naprzeciw wyzwaniom opisanym w poprzednim paragrafie. To nowe podejście odznacza się dwiema charakterystycznymi cechami, uzasadnionymi względami własności układów słuchowych oraz technik nagrywania wielokanałowego.

Przetwarzanie częstotliwości. Technologie CMSS-3D wykorzystują przetwarzanie częstotliwości, aby umożliwić rozróżnianie i umiejscawianie kilku jednoczesnych i odrębnych przestrzennie zdarzeń dźwiękowych w sposób analogiczny do układów słuchowych ludzi i innych ssaków. Ta właściwość naszego słuchu jest często określana jako "zjawisko koktajl-party" (zdolność koncentracji na jednej rozmowie pomiędzy kilkoma równoczesnymi rozmowami w danym pomieszczeniu). Podstawowym mechanizmem odpowiedzialnym za tę zdolność jest sygnałów z prawego i lewego ucha na dużej liczbie pasm częstotliwości. Ów proces słuchowy wykorzystuje dwa fakty: (a) mamy dwoje uszu i (b) zdarzenia dźwiękowe, których doznajemy są w dużym stopniu rozłączne (niepokrywające się) w obszarze częstotliwości. Bez analizy częstotliwości procesor wymiksowujący nie jest w stanie rozróżnić kilku zdarzeń dźwiękowych występujących jednocześnie, ponieważ wydaje się, że układają się one w jedno zdarzenie dźwiękowe.

oddzielanie dźwięków promieniowanych przez głośniki na pomieszczenie od dźwięków głównych. Istnieją dowody na to, że oprócz oddzielania kilku umiejscowionych zdarzeń dźwiękowych układ słuchowy potrafi oddzielać rozproszone przestrzennie (lub otaczające) elementy dźwiękowe, jak np. pogłos pomieszczenia, od elementów dźwiękowych toru bezpośredniego (czy też głównych). Zdolność tę obsługuje model przetwarzania słuchowego opisany w skrócie powyżej (w przypadku pól akustycznych rozproszonych przestrzennie, sygnał z prawego i sygnał z lewego ucha mają określone właściwości korelacyjne). Oddzielanie dźwięków otaczających od dźwięków głównych stanowi również podstawową zasadę technik nagrywania stereofonicznego i wielokanałowego. Na przykład w procesie miksowania nagrania wielościeżkowego dźwięki główne są umiejscawiane (lub panoramowane) oddzielnie w określonych kierunkach, natomiast dźwięki otaczające są zazwyczaj rozdzielane na kilka kanałów.

Proces CMSS-3DSurround

W odróżnieniu od poprzednich technologii wymiksowywania, CMSS-3DSurround rozkłada przetwarzany sygnał na elementy otaczające oraz główne i techniki wykorzystując częstotliwościowego przetwarzania sygnału uzyskuje dwie wyjątkowe funkcje (ilustracja 5):

Zasada algorytmu wymiksowującego CMSS-3DSurround

  • wydzielanie otoczenia.
    Algorytm CMSS-3DSurround rozpoznaje elementy dźwiękowe otoczenia w nagraniu pierwotnym (np. pogłos pomieszczenia lub oklaski), wyprowadzając sygnały dźwięku dookólnego. Przywraca to naturalne odczucie zanurzenia oraz głębię na osi przód-tył, jednocześnie zachowując integralność czołowego obrazu stereofonicznego i pomijając drażniące artefakty powodowane przez "pompowanie" lub niepożądane "przesłuchy" umiejscowionych dźwięków w kanałach dookólnych. Kolejną ważną zaletą CMSS-3DSurround jest to, że nie wprowadza on zniekształceń do kanałów dookólnych w przypadku źródeł dźwięku kodowanych percepcyjnie, jak np. MP3 lub WMA.
     
  • wydzielanie kanału centralnego.
    W odróżnieniu od tradycyjnych dekoderów stereofonicznych CMSS-3DSurround przeadresowuje dźwięki spanoramizowane centralnie do przedniego głośnika centralnego nie zmieniając pozostałych elementów obrazu stereofonicznego. Daje to rezultat w postaci zakotwiczenia umiejscowienia scentralizowanych głosów i instrumentów w nagraniach muzycznych lub też scentralizowanych dialogów w ścieżkach dźwiękowych filmów, przy zachowaniu szerokości, równowagi i barwy dźwięku pierwotnego obrazu stereofonicznego.

Poprzez połączenie tych dwu metod, CMSS3D-Surround obdarza nagrania dwukanałowe zaletami dźwięku dookólnego zachowując audofilskie doznania odsłuchowe:

  • przywraca naturalne uczucie zanurzenia i głębię na osi przód-tył, nie wprowadzając przytłaczającej lub nienaturalnej przestrzeni (ponieważ algorytm wykorzystuje wyłącznie informacje przestrzenne obecne w pierwotnym nagraniu),
     
  • powiększa tzw. "sweet spot" (optymalny punkt odsłuchu) w pokoju odsłuchowym (zakotwiczając dźwięki spanoramowane centralnie w kanale przednim centralnym i ograniczając przesłuchy dźwięków umiejscowionych w kanałach dookólnych),
     
  • zachowuje równowagę, szerokość i barwę dźwięku pierwotnego obrazu stereofonicznego,
     
  • nie wprowadza niestabilności do czołowego obrazu stereofonicznego w przestrzeni otaczającej,
     
  • nie wprowadza zniekształceń do kanałów dookólnych nawet w przypadku źródeł dźwięku kodowanych percepcyjnie, jak np. MP3 lub WMA.