오디오가이 :: 디지털처럼 정확하고 아날로그처럼 따뜻한 사람들
플러그인

서라운드 오디오 칼럼 [2-3 : Ambisonic] - 2008년 2월 update

페이지 정보

본문

[2008년 2월 22일 update: 이전의 글에서는 주로 "앰비소닉 마이크 - 녹음"을 위주로 한 내용이 대부분을 차지 했습니다. 이번 update에서는 그 녹음 뒤에 있는 "기반 기술 및 이론"에 대해서 적어보려고 했습니다]

상욱님의 질문에 대한 대답으로 먼저 앰비소닉에 관한 내용을 정리해보았습니다.

[서라운드 오디오 시대에 다시금 각광받는 Ambisonics]

  Ambisonics 시스템은 처음 고안되고 만들어질 당시부터 정확한 공간의 구현 및 재생을 그 목표로 삼았습니다.

  Gerzon에 의해 고안된 이론적 바탕은 Cooper와 Shiga 그리고 BBC 연구실을 통해 발전되어왔습니다. 좀 더 정확하게 말하자면 이 시스템은 마치 디지털 오디오가 시간 축의 정보를 샘플링해서 처리하는 것 처럼, 공간의 정보 (Spatial Information)를 재 합성하는 방법이라고 할 수 있겠습니다. 이와 비슷한 방법으로 Wave Field Synthesis (WFS)라는 시스템이 있습니다. Ambisonics은 이 WFS의 특별한 케이스라고 말 할 수 있습니다.

  서라운드 혹은 멀티채널 오디오의 수요가 오늘날과 같이 많지 않았던 90년대까지는 이 Ambisonics 시스템은 스피커를 통해 공간의 입체적 사운드를 재생하는데 사용되기보다는 마이크를 움직이지 않고 가상적으로 음원에 초점을 맞추는 기능이 더욱 부각되었습니다.

  즉 마이크가 음원에서 약간 벗어나 있거나 혹은 녹음 이후에 엔지니어의 창의적인 아이디어로 새로운 이미지를 만들어내고 싶을 때 녹음 후의 보정 을 통해새로운 이미지를 만들어내는 것이 가능하였던 것입니다.

  MS 마이크 기법을 사용하면 녹음 이후에 S신호를 통해서 스테레오 이미지를 확장하거나 좁힐 수 있는 점이 비슷한 예로 들수 있습니다.

  비록 Ambisonics 시스템이 서라운드로 공간을 재생을 능력을 갖추고 있었다고 해도 그 기능을 유용하게 발휘할 시장성이 없었습니다. 마치 PCM이론이 1900년대 초반에 이미 완성되었지만 그 이론을 활용할 수 있는 기술적 기반을 기다려야 했던 것처럼 말이죠. 하지만 2000년대가 되면서 서라운드에 관한 연구에 진보가 있으면서 그리고 기술적으로도 다차원 앰비소닉을 구현하는 것이 가능해짐으로 여러분야, 특별히 Virtual Reallity, 3D Audio 분야등에서 새롭게 각광받고 있습니다. 한국에서도 서울대를 중심으로 연구결과가 AES등에 보고되고 있습니다.

  Ambisonics 시스템은 대부분의 경우에 있어서 Calrec이라는 회사가 만든 ‘Soundfield'마이크로폰을 통해 노음된 신호를 규격에 따라 디코딩해주고 그 디코딩된 신호를 다시 우리가 흔히 접하는 개념으로 바꿔주어서 저장, 전송 및 재생하는 것으로 구성됩니다.

  쓰다보니 너무 큰 개념을 한 문장으로 너무 쉽게 요약해버린 것 같군요.

  다시 이 얘기를 풀어서 쓰자면 Ambisonics의 기본 이론은 다음과 같습니다.

  흔히 우리가 녹음할 때 사용하는 Omni마이크를 가지고 어떤 공간에서 녹음을 하였다고 가정해보겠습니다.

  이 Omni마이크는 공간안에서 마이크가 놓여있었던 장소 (point)에 대한 음압 (sound Pressure) 정보를 저장하게 됩니다. 이 마이크로 재생할 수 없는 정보는 음속(??? - 어떻게 이름붙여야 좋을까요... Sound Velocity) 혹은 음원의 방향성으로 인해 생기는 음압의 "차이" (Pressure Gradient)입니다.  이 Omni마이크는 녹음 지점의 사운드에 대한 가장 기본적인 정보를 포함하고 있기 때문에 0차 (0-th order) 공간 하모닉 (Spatial Harmonics)라고 불립니다.

  하지만 앞서 말했듯이 이 정보만으로는 음원의 위치등의 정보를 알 수 없기 때문에 추가적인 정보가 필요하게 되는데요. 추가 정보가 바로 공간의 x축상을 가로 지르는 velocity정보, y축상의 velocity정보, 그리고 z축상의 velocity정보 입니다. 이 세가지의 추가 정보가 있으면 그 정보들의 합을 통해, 원래의 음원이 재생해내는 사운드 field를 재합성해낼 수 있는 것입니다. 물론 이러한 재합성을 위해서는 스피커의 위치 및 배열에 대한 몇가지 제약조건이 있습니다. 이러한 제약조건을 만족하는 스피커 위치에서 이제것 말한 정보들을 재생하면 원래의 사운드가 재생했던 사운드 field와 동일한 음장(Sound Field)가 되는 것이죠.

이러한 기본 velocity들의 정보와 처음의 pressure 성분을 합쳐서 1차 공간 하모닉 (1st-order Spatial Harmonics)라고 부릅니다.

우리가 흔히 앰비소닉이라고 부르는 시스템은 음원을 이러한 1차 공간 하모닉으로 나누어 녹음하고 또 스피커 시스템을 통해서 재합성하는 것을 통칭하는 것이죠. 그래서 이러한 시스템을 통칭 1차 앰비소닉 (1st order Ambisonics) 이라고 부릅니다. 이 일차 앰비소닉의 녹음과정을 흔히 Encoding이라고 하고 재생하는 과정을 흔희 Decoding이라고 부르기도 합니다.


1. Encoding

  대개의 경우 일차 앰비소닉의 녹음, 혹은 인코딩은 4개의 특별히 제작된 마이크를 통해서 이루어집니다.
 
  먼저, 전후(front-rear) 성분을 하나의 Bi-directional마이크로 녹음합니다.
  이것을 X신호라고 하구요 [x축상의 velocity를 capture했다는 의미이죠 -여기서 x축은 수학에서의 x축과 다르다는 것을 명심하기를 바랍니다]. 좌우(sides)성분을 또 하나의 Bi-directional마이크로 녹음합니다.  이것을 Y신호라고 하죠.

  그리고 위아래-상하(up-down or heights)성분을 또 하나의 Bi-directional마이크로 녹음합니다. 이것을 Z신호라고 합니다.

  이 세가지의 성분외에 하나의 omni-diretional마이크로 녹음한 신호를 W라고 합니다.

  즉 X,Y,Z의 Bi-directional로 녹음된 성분과 W라는 omni 성분이 Ambisonics를 가능하게 하는 신호입니다. 이론적으로는 네 개의 마이크로폰이 모두 동일지점에 위치하는 일종의 coincident microphone array를 통해 이 신호들을 만들어낼 수 있습니다. 하지만 실제적으로는 그런 마이크로폰 array를 만든다는 것은 불가능한 일입니다.


  Calrec의 Soundfield마이크로폰은 얼핏 보아서는 위의 X,Y,Z,W와는 전혀 다른 신호를 제공해주는 것 같습니다.

  왜냐하면 이 마이크는 네 개의 Sub-cardioid로 구성된 마이크이기 때문입니다.
하지만 (놀랍게도) 간단한 수학(? 산수?)을 통해 이 네 개의 Sub-cardioid 성분으로부터 위에서 우리가 얘기한 X,Y,Z,W성분을 계산해 낼 수 있습니다. MS에서 LR로 변환이 가능한 것 처럼 말이죠.


        LF - Left Forward Sub-cardioid 마이크
        RF - Right Forward Sub-cardioid 마이크
        LB - Left Backward Sub-cardioid 마이크
        RB - Right Backward Sub-cardioid 마이크


위와 같이 Soundfield에 있는 네 개의 마이크에서 집음되는 성분을 소위 A-format이라고 합니다. 이러한 A-format이 있다고 했을 때 다음과 같은 공식을 사용하여 B-format을 구해냅니다.


        X = 0.5((LF-LB)+(RF-RB))
        Y = 0.5((LF-RB)-(RF-LB))
        Z = 0.5((LF-LB)+(RB-RF))
        W = 0.5(LF+LB+RF+RB)


        이 연산이 대부분의 경우에 Soundfield마이크와 함께 있는 Control-Box를 통해 이루어지기 때문에 우리가 받는 출력은 X,Y,Z,W가 됩니다. 이 과정을 위에서 말한 ‘인코딩’이라고 할 수 있습니다.
       


2. Decoding

  디코딩은 앞에서 얘기한 앰비소닉으로 인코딩 된 신호를 일정하게 배열된 스피커를 통해 재생시켜서 원래의 사운드필드(음장)를 재구성해 내는 과정을 얘기합니다.

 이 때 각각의 스피커는 스피커의 위치에 따라서 가중치가 계산된 W, X, Y, Z 성분을 가지게 됩니다.
 다시 말하자면
 
 SP1 (첫번째 스피커 시그날) = tau*W + alpha*X + beta*Y + gamma*Z 와 같이 나타나지게 됩니다.

 스피커의 수가 정해지고 나면 전체의 선형방정식이 구성되고 그 선형방정식을 풀면 원하는 tau, alpha, beta, gamma값들을 구할 수 있습니다. 이 가중치(weights)를 구하는 것은 우리의 관심사가 아닐 뿐 아니라, 저로서도 풀지 못하기 때문에 수학을 좋아하시는 분들에게 맡겨놓죠.  중요한 것은 이와 같이 X, Y, Z, W 성분이 각 스피커로 분해 decomposite 될 수 있다는 점입니다. 그리고 이 분해된 성분이 스피커를 통해 재생되었을 때 X', Y', Z', W'으로 사운드 필드를 재생하게 된다는 것이죠. 이 재구성된 사운드 필드는 이론적으로 처음 녹음된, 인코딩된 사운드 필드와 동일하기 때문에 (제한된 영역내에서) 처음의 음원이 동일하게 느껴질 수 있습니다.

  이러한 사운드 필드 재구성을 위해서는 몇가지 재한이 있습니다. Diametric Decoder Theorem이라고 불리는 Michael Gerzon에 의해 밝혀진 이론에 의하면

1) 모든 스피커들은 중심으로 부터 같은 거리에 있어야 한다
2) 스피커들은 서로 마주 보고, 반대 방향으로, 즉 한 지름상에 놓여 있어야 한다
3) 하나의 지름상에 있는 스피커 신호의 합과 다른 지름상에 있는 스피커 신호의 합은 항상 동일해야 한다.

위의 조건을 만족 시키려면 대부분의 스피커가 동축상의 원 위에 놓여야 하며 전후 혹은 좌우로 대칭형으로 놓여야 합니다.


최근에는 이러한 제약을 넘어서 더 복잡한 수학(? 산수?)를 통해 현재 서라운드의 표준인 ITU 777.5의 5.1멀티채널 스테레오[서라운드] 재생에까지 응용하는 연구가 많이 진행되어 왔습니다.

현재 5.1 채널이 가지는 많은 문제점을 보완할 수 있는 대안으로서의 새롭게 앰비소닉이 각광받고 있습니다. 특히 영화나 게임등 사운드 소스의 이미지가 비교적 정확하게 재생되어야 하는 분야에서는 이 시스템을 활용하여 좋은 결과를 얻을 수 있을 수도 있습니다.

하지만

현재 많이 사용되는 이 1차 앰비소닉이 재생될 수 있는 영역은 크게 제한 되어있습니다. 일반적으로는 이렇게 얘기할 수 있을 것 같습니다. "만약 재생하는 주파수를 제한하면 재생 영역을 늘릴 수 있고, 주파수를 늘리며 재생 영역(SweetSpot이라고도 하는)이 줄어든다." 그렇기 때문에 재생 영역을 넓힐 수 있으면서 주파수 반응도 늘리기 위해서 애초에 인코딩 자체을 더 높은 해상도로 구현하는 고차원 앰비소닉 (High Ordered Ambisonics)에 대한 연구가 활발히 진행되고 있습니다.

개인적으로 실험해보았을 때 특히 옆면이나 뒷면의 사운드 재생에서 확실히 정확한 이미지 구현이 가능한 방법입니다만 머리를 조금만 움직여도 이미지와 timbre가 많이 달라지는 것을 경험했습니다.


더 자세한 내용은 ambisonic.com에서 확인하실 수 있습니다.

다음에는 "Quadraphonic"에 대해서 살펴보죠

Copyright Sungyoung Kim 2008
sungyoung_kim@gmx.yamaha.com

관련자료

하이에나님의 댓글

  앗 성영님~인사드린적은 없지만...무척 깊게 읽어보고 있습니다.
저도 학부에서 무지하게 관심을 가졌던 분야라~
한수 가르침을 받잡습니다
  • RSS
전체 72건 / 2페이지

+ 뉴스


+ 최근글


+ 새댓글


통계


  • 현재 접속자 240 명
  • 오늘 방문자 1,898 명
  • 어제 방문자 4,597 명
  • 최대 방문자 15,631 명
  • 전체 방문자 12,679,402 명
  • 오늘 가입자 0 명
  • 어제 가입자 0 명
  • 전체 회원수 37,533 명
  • 전체 게시물 249,801 개
  • 전체 댓글수 193,365 개