[연재 기획]   이머시브 오디오와 건축음향의 조우

제1회: 이머시브 오디오란 무엇인가?

청취의 기원과 공간의 정의: ‘어디서’가 아닌 ‘어떻게’ 듣는가

1. 음향 기술 진화의 역설  — 100년의 도약, 1미터의 고립

음향 기술의 역사는 소리를 물리적 제약으로부터 해방하려는 투쟁의 역사였습니다. 하지만 그 화려한 진화의 이면에는 뼈아픈 역설이 숨어 있습니다. “소리는 자유롭게 이동해왔지만, 청취자는 여전히 특정 지점에 고정되어 있다”는 사실입니다.

0차원 (Point): 시간의 박제와 공간적 좌표의 소멸 (Mono)

에디슨의 포노그래프는 음향적으로 ‘0차원의 점(Point Source)’에서 출발했습니다. 소리를 듣는 인간은 두 귀(Binaural)를 가졌으나, 단일 채널로 압축된 신호에는 장소의 너비나 깊이 같은 공간적 좌표 정보가 ‘0’이었습니다. 이때의 청취는 거대한 풍경을 아주 작은 ‘열쇠구멍’을 통해 들여다보는 것과 같았습니다. 시간의 흐름은 보존되었으나, 소리가 호흡하던 입체적 생태계는 사라진 ‘공간적 영점’ 상태였습니다. 물론 모노 역시 음량의 크기와 잔향의 농도를 통해 음원과의 ‘거리감’을 암시합니다. 하지만 그것은 공간의 물리적 좌표를 재현하는 것이 아니라, 단 하나의 바늘구멍(스피커) 위에서 소리를 앞뒤로 밀고 당기는 ‘심리적 원근법’에 의존했습니다. 소리가 어느 각도에서 오는지, 얼마나 넓은 면적으로 나를 감싸는지에 대한 좌표 정보는 상실된 채, 오직 단일 지점의 에너지 변화에만 의존하는 ‘공간적 영점’의 상태였던 것입니다.

모노에서도 우리는 소리가 가깝거나 멀다는 것을 느낄 수 있습니다. 하지만 이는 물리적 위치 데이터가 아니라, 우리 뇌가 경험적으로 터득한 ‘심리음향적 추론’에 가깝습니다.

모노에서 느끼는 거리감이 ‘심리적 추론’이라는 점은 블라우어트(Jens Blauert)의 저서 Spatial Hearing에서 설명하는 ‘청각적 사건(Auditory Event)’의 개념으로 설명됩니다. 이 관점에서 볼 때, 모노 환경에서 지각되는 거리감은 물리적 위치의 재현이 아니라 역제곱 법칙(1/r2)에 따른 에너지 감쇠와 같은 단서를 기반으로 한 인지적 추론의 결과이며, 이에 따른 음압 수준(SPL)의 변화는 이 추론 과정에서 가장 지배적 단서로 작용합니다.

공기의 흡음 특성: 베라넥(Leo Beranek)은 고주파 에너지가 거리와 습도에 따라 감쇄하는 특성을 연구했습니다. 이는 ‘거리감’뿐만 아니라 공간의 ‘친밀감(Intimacy)’을 결정짓는 핵심 요소입니다.

직접음 대 잔향 비율 (D/R Ratio): 음향학자 가드너(Mark B. Gardner)에 따르면, 인간은 직접음보다 잔향의 에너지가 커질수록 음원이 청취자로부터 멀어지는 ‘깊이(Depth)’의 확장을 경험합니다.

주파수와 고도감(피나 스펙트럼, Pinna Spectrum)은 주파수에 따른 높낮이 인지는 귓바퀴(Pinna)에 의한 주파수 변조 패턴인 HRTF(머리 전달 함수)와 관련이 깊습니다. 특히 8kHz 주변의 노치(Notch) 현상은 뇌가 고도를 판단하는 결정적 단서가 됩니다.

결국 모노 시대의 소리는 귓바퀴의 회절과 뇌의 해석력을 빌려 입체적인 착시를 유도했을 뿐, 실제로는 공간적 좌표가 상실된 ‘박제된 소리의 그림자’였습니다. 이머시브 오디오는 바로 이 0차원의 함몰된 좌표를 복원하여 소리에 다시 ‘부피’와 ‘좌표’라는 생명력을 불어넣는 작업입니다.

1차원(Line)에서 2차원(Plane)으로: 무대의 확장과 고착

1930년대 스테레오의 발명으로 소리는 좌우를 잇는 ‘1차원의 선(Line)’을 얻었고, 90년대 서라운드 시스템은 이를 청취자를 둘러싼 ‘2차원의 면(Plane)’으로 확장했습니다. 스피커는 전면에서 사방팔방으로 흩어졌고, 공연장의 좌석은 무대 전후로 배치되었습니다. 하지만 이 단계까지도 소리는 여전히 ‘고정된 환경(Fixed environment)’에 머물렀습니다. 청취자는 ‘스위트 스폿(Sweet Spot)’이라는 단 1미터 내외의 좁은 구역에 고립되어야만 제작자가 의도한 공간감을 겨우 맛볼 수 있었습니다.

그림 1. 채널 기반(좌)과 객체 기반(우) 음향 재생의 신호 분포 비교

채널 기반은 여러 스피커가 하나의 신호를 공유하여 구역을 채우는 방식인 반면,  객체 기반은 개별 소스에 좌표를 부여하여 특정 위치의 스피커를 정밀 제어한다.
[출처]Dolby Laboratories (돌비 래버러토리스)

3차원 (Volume): ‘무대’를 바라보는 관객에서 ‘무대 속’ 주인공으로 (Immersive)

이제 이머시브 오디오는 객체 기반(Object-based) 기술을 통해 소리에 ‘3차원 볼륨(Volume)’을 부여하며, 기존의 ‘무대’ 개념을 완전히 뒤바꿉니다. 과거에 소리가 시각적·소리적으로 전면 혹은 특정 위치에서 ‘출발’하여 관객에게 도달하는 대상이었다면, 이제 소리는 더 이상 전면에만 머물지 않습니다.

이머시브 환경에서 청취자는 무대 밖의 관찰자가 아니라 ‘무대 속(Inside the Sound-field)’으로 완전히 진입합니다. 이는 단순히 스피커 숫자의 증가를 의미하지 않습니다. 시스템은 이제 ‘역동적이고 상호작용적인(Dynamic & Interactive)’ 방식으로 진화하여, 단 한 명의 청취자를 위한 바늘구멍 같은 스위트 스폿을 넘어, 다수의 사용자가 공간 전체에서 입체감을 경험하는 ‘스위트 에어리어(Sweet Area)’의 구축을 지향합니다.

결국 이머시브 오디오의 혁명은 소리를 ‘어디에’ 두느냐의 문제를 넘어, 고정되어 있던 청취자에게 물리적 자유도와 공간적 주도권을 되찾아주는 철학적 전환입니다. “공간을 시각적 요소로 보던” 관성을 깨고, 소리가 곧 공간이 되는 새로운 지각의 시대로 진입하고 있는 것입니다.

단계차원핵심 키워드청취자의 지위주요 특징
Mono0차원(Point)심리적 원근법열쇠구멍 관찰자좌표 상실, 거리감은 뇌의 추론에 의존
Stereo1차원(Line)무대의 확장고립된 관객좌우 선형 배치, 좁은 스위트 스폿
Surround2차원(Plane)면적의 포위고립된 관객사방 배치, 여전히 특정 지점에 고정
Immersive3차원(Volume)객체 기반 (Object)무대 속 주인공스위트 에어리어, 물리적 자유도 확보
표 1. 음향 기술의 진화 단계와 청취 패러다임의 변천
그림 2. 음향 재현 기술의 단계적 발전과 청취 환경의 변천
[출처] IRCAM, “A Quick Introduction to Wave Field Synthesis” (Technical Evolution of Sound), Page 2.

2. 건축적 공간의 재정의  — 사운드스케이프와 인지적 프레임

건축가들에게 공간은 벽과 기둥으로 이루어진 물리적 실체이지만, 음향학자들에게 공간은 소리의 에너지가 부딪히고, 굴절되며, 소멸하는 능동적인 매질(Active Medium)입니다. 베리 블레서(Barry Blesser)는 그의 기념비적 저서 *Spaces Speak, Are You Listening?에서 공간을 ‘사무실’이나 ‘강당’ 같은 용도가 아닌, 청취자의 뇌가 소리를 해석하는 방식인 ‘인지적 프레임(Perceptual Frame)’으로 정의했습니다.

여기에 머레이 셰이퍼(R. Murray Schafer)의 사운드스케이프(Soundscape) 이론을 결합하면, 공간은 더 이상 배경이 아니라 소리의 생태계로 거듭납니다. 소리는 전달해야 할 건조한 ‘신호(Signal)’가 아니라, 우리가 호흡하고 교감하는 ‘환경(Environment)’ 그 자체가 됩니다.

담양 소쇄원 내의 제월당과 같은 한국 전통 건축의 ‘차경(借景)’은 시각적 풍경만을 빌려오는 것이 아닙니다. 사방의 들문을 들어 올리는 행위는 건축물의 음향적 임피던스(Impedance)를 극도로 낮추어, 외부 사운드스케이프의 핵심인 바람, 계곡물, 새소리라는 키노트 사운드(Keynote Sound)를 실내로 무조건 수용합니다. 이는 소리를 가두는 것이 아니라 공간을 환경과 동기화하는 ‘확장적 청취’의 전형입니다. 

현대 콘서트홀의 단절과 집중: 반면 웨일즈 왕립 음악연극대학교(RWCMD) 콘서트홀 같은 현대적 공간은 고도의 ‘음향적 고립(Isolation)’을 추구합니다. 외부의 사운드스케이프를 철저히 차단하고 내부의 반사음을 0.01초 단위로 정제합니다. 이곳에서 청취자는 환경과 연결되는 것이 아니라, 정밀하게 조각된 예술적 ‘대상’으로서의 소리에 침전합니다.

그림3. 담양 소쇄원 내의 제월당
[출처] “소쇄원”, 위키백과, 2026년 1월 25일 접속.
그림4. 웨일즈 왕립 음악연극대학교 콘서트홀
[출처] 루스 슬라비드. (2023.04.17). “예술을 꽃피운 자작나무 공연장…웨일즈 왕립 음악…”. (2026.01.25 접속).

건축은 우리에게 “어디에 있는가”를 묻지 않습니다. 대신 “당신은 이 소리를 자연의 일부로 받아들일 것인가, 아니면 고립된 예술적 대상으로 관조할 것인가”라는 청취의 태도를 결정합니다. 이머시브 오디오는 바로 이 건축적 ‘명령’을 알고리즘으로 재설계하는 작업입니다.

3. 소리 공간의 두 기원 — 베게날의 원형과 심리음향적 포위

건축음향학의 선구자 호프 에드워드 베게날(Hope Edward Bagenal)은 1930년대에 이미 인류의 청취 경험을 결정짓는 두 가지 거대한 원형(Archetype)을 제시했습니다. 이는 단순한 건축 양식의 분류가 아니라 인류가 진화하며 축적해온 심리음향적 DNA의 기록입니다.

베게날이 제시한 동굴형 원형의 핵심은 LEV(Listener Envelopment, 청취자 포위감)에 있습니다. 이는 단순히 소리가 사방에서 들리는 물리적 상태를 의미하는 것이 아니라, 청취자가 음향 공간의 경계 내부에 완전히 ‘포함’되어 있다는 인지적 상태를 뜻합니다. 즉, 포위감은 소리가 나를 향해 오는 것이 아니라, 내가 소리 안에 거하고 있다는 감각을 형성하는 첫 번째 단계입니다.

그림 5. 그리스 아테네의 아크로폴리스 남쪽 사면에 위치한
디오니소스 극장(Theatre of Dionysus)
[출처] Wikimedia Commons (Public Domain), Theatre of Dionysus, Athens.
그림 6. 단양 금굴 유적
[출처] 국가유산청 국가유산포털

동굴형 (Cave, Envelopment): 구석기시대의 동굴, 중세의 거대한 고딕 성당은 사방이 단단하고 차가운 암석이나 석조 벽면으로 이루어져 있습니다. 직접음 도달 후 수많은 반사음이 사방에서 쏟아지는 이 환경은 ‘청취자 포위감(LEV)’을 극대화합니다. 베게날은 이러한 포위감이 인간에게 초월적 존재에 대한 경외감이나 태초의 안도감을 준다고 분석했습니다. 소리가 나를 보호하는 ‘내부 지향적 보호막’이 되는 셈입니다.

개방형 (Open-Air, Exposure): 고대 그리스의 에피다우로스(Epidaurus) 야외 극장은 하늘이 완전히 열린 구조입니다. 반사음은 대지로 소멸하고 오직 명료한 직접음만이 청취자를 관통합니다. 이곳에서 소리는 나를 감싸는 것이 아니라 나를 스쳐 지나 무한한 공간으로 뻗어 나갑니다. 청취자는 소리 정보 앞에 예리하게 ‘노출(Exposure)’되며, 음원의 위치와 거리감을 지극히 이성적으로 인지하게 됩니다.

현대의 이머시브 사운드 디자인은 이 동굴과 광장, 포위와 노출 사이의 끊임없는 줄타기입니다. 앰비언트(Ambience) 채널로 동굴의 신비로운 LEV를 재현할 것인가, 아니면 객체(Object)의 예리한 정위감으로 개방형의 명료도를 확보할 것인가? 베게날의 원형론은 이머시브 오디오가 단순한 기술적 과시가 아니라, 인류가 잃어버린 원형적 사운드스케이프를 복원하는 작업임을 시사합니다.

4. 패러다임의 혁명 — ‘반사’의 기하학에서 ‘파면’의 물리학으로

전통적인 건축음향 설계의 역사는 벽면의 반사(Reflection)를 어떻게 다스릴 것인가에 대한 역사였습니다. 리오 베라넥(Leo Beranek)으로 대표되는 기하음향학(Geometrical Acoustics)은 소리를 당구공처럼 직진하는 선(Ray)으로 가정하고, 벽에 부딪혀 튕겨 나가는 각도와 잔향 시간(RT)을 계산하는 데 집중했습니다. 설계의 주인공은 언제나 ‘벽’이었고 소리는 그 벽이 만든 결과물이었습니다.

그림 7. 기하 음향학(Geometrical Acoustics)과
파동 기반 FEM 시뮬레이션 비교
[출처] https://www.treble.tech/
그림 8. L-ISA 프로세서의 Step 모듈을 이용한 몰입형 음향 디자인
[출처] https://www.l-acoustics.com/products/l-isa-studio/

그러나 파면 합성(WFS, Wave Field Synthesis) 기술의 등장은 이 패러다임을 뿌리째 뒤흔듭니다. WFS는 17세기 물리학자 크리스티안 호이겐스의 ‘호이겐스 원리’에 기반합니다. “파면(Wavefront) 상의 모든 점은 새로운 2차 구형파의 점 소스가 된다”는 이 마법 같은 원리는, 수많은 라우드스피커를 조밀하게 배치함으로써 원래의 파동을 공간상에 물리적으로 완벽하게 재구성할 수 있게 합니다.

특히 WFS는 거리에 따른 음압 감소가 거의 없는 평면파(Plane Wave)를 재생하는 독보적인 능력을 갖췄습니다. 이는 음향 설계의 목표가 ‘벽’이라는 하드웨어에서 ‘공간 내 에너지 분포’라는 소프트웨어로 이동했음을 의미합니다. 이제 공간은 고정된 배경이 아니라, 실시간으로 조각되는 입체적인 ‘필드(Field)’입니다. 물론 스피커 간격에 따른 ‘공간 에일리어싱(Spatial Aliasing)’이나 고주파 회절(Diffraction) 같은 물리적 한계가 존재하지만, WFS는 소리를 ‘벽에 의한 결과’가 아닌 ‘공간 내 에너지의 상태’로 정의하게 했습니다. 기술은 이제 벽이 하던 일을 대신하여 가상의 음원을 청취 공간 내부나 스피커 뒤편 등 어디에나 위치시킬 수 있게 되었습니다.

 1) 호이겐스의 원리와 WFS(Wave Field Synthesis): 모든 파면의 점들을 개별 소스로 보고 이를 수많은 스피커로 재현함으로써, 공간 내에 가상의 음장을 물리적으로 재구성하는 기술입니다. 이는 소리를 ‘벽의 반사 결과’가 아닌 ‘공간 내 에너지 상태’로 정의하게 합니다.

그림 9. 호이겐스 원리(좌)와 이를 응용한 파면 합성(WFS)
기술의 원리(우)
[출처] Baalman, Marije. (2005). Updates of the WONDER software interface for using Wave Field Synthesis. 

5.  결론 — ‘지각’이 ‘위치’를 대체하는 청취의 건축

결국 이머시브 오디오와 건축음향의 조우가 지향하는 종착역은 기술적 사양이 아닙니다. 그 본질은 “소리가 어느 스피커에서 나오는가”라는 물리적 좌표를 지우고, 그 자리를 “청취자가 공간을 어떻게 지각하는가”라는 주관적 실재감으로 채우는 것입니다.

작곡가이자 음향학자인 쥘 레제(Jules Léger)는 “이머전(Immersion)은 시스템이 아니라 경험이다”라고 단언했습니다. 1회에서 우리가 살펴본 건축적 원형, 사운드스케이프의 생태학, 그리고 파면 재구성의 물리학은 모두 하나의 지점으로 수렴합니다. 그것은 바로 ‘기술의 투명성’입니다. 가장 훌륭한 이머시브 시스템은 스피커의 존재를 잊게 만들고, 청취자가 마치 소쇄원 제월당의 마루에 앉아 있거나 거대한 동굴의 한복판에 서 있는 것 같은 착각을 일으키게 합니다.

결국 이머시브 오디오가 지향하는 지점은 단순히 ‘더 많은 채널’이 아니라, LEV가 선사하는 고도의 ‘심리적 실재감’입니다. 청취자가 스피커의 물리적 위치를 잊고 가상의 공간을 실제 존재하는 환경으로 받아들이는 순간, 소리는 더 이상 정보가 아닌 경험이 됩니다.

기술이 투명해질수록 ‘지각이 위치를 대체한다’는 선언은 구체화됩니다. 우리가 설계하는 것은 스피커의 각도가 아니라 청취자의 뇌가 느끼는 실재의 깊이이며, 이 심리적 실재감이야말로 현대 음향 건축이 도달해야 할 새로운 좌표인 것입니다.

이제 공간은 단순한 배경이 아니라 우리와 상호작용하는 하나의 거대한 악기이자 생태계가 되었습니다. “지각이 위치를 대체한다”는 선언은 현대 음향학이 도달한 최고의 철학적 경지입니다. 다음 회차에서는 우리의 ‘음향적 몰입’에 영향을 주는 요인들을 과학의 시선으로 들여다 보겠습니다. 특히 소리가 공간을 가득 채우는 폭(ASW)과 우리를 감싸 안는 포위감(LEV)이 어떻게 우리의 감각과 연결되는지 탐구해 보겠습니다.

핵심 키워드 및 개념
● 공간적 영점(Mono): 물리적 좌표가 상실된 '박제된 소리'와 뇌의 '심리적 추론'.
● 건축적 재정의: 공간을 물리적 실체가 아닌 '인지적 프레임'이자 '능동적 매질'로 파악.
● 두 가지 원형: 베게날의 '동굴형(포위)'과 '개방형(노출)' 모델.
● 패러다임 시프트: 기하음향학(반사)에서 파면 합성(에너지 필드)으로의 이동.

국외 문헌 (Alphabetical Order)
Baalman, M. A. J. (2007).What is Wave Field Synthesis?. TU Berlin.
Bagenal, H. (1930).Planning for Good Acoustics. Methuen & Co.
Beranek, L. L. (2004).Concert Halls and Opera Houses: Music, Acoustics, and Architecture. Springer.
Blauert, J. (1997).Spatial Hearing: The Psychophysics of Human Sound Localization. MIT Press.
Blesser, B., & Salter, L. R. (2007).Spaces Speak, Are You Listening?. MIT Press.
Gardner, M. B. (1973). "Some Monaurally Prevalent Aspects of Source Localization". Journal of the Audio Engineering Society (JAES).
Gerzon, M. A. (1992). "General Metatheory of Auditory Localization". Audio Engineering Society Convention.
Schafer, R. M. (1977).The Tuning of the World (The Soundscape). Knopf.

국내 문헌 (Alphabetical Order)
김영선 (2014). 가상 음장 시스템(WFS 시스템을 중심으로). 한국소음진동공학회지.

김 영 선

서울대학교 음악대학 음악학과 부교수
레코딩 아티스트
건축음향 디자이너
MBI(Media Bridge International) 기술자문


답글 남기기