Часто задаваемые вопросы о пространственном звуке

Что такое пространственный звук (Spatial Audio), зачем он вообще нужен?

В большинстве случаев, под пространственным звуком мы подразумеваем звуковое сопровождение в формате Ambisonics к 360 видео. Такой формат записи звука подразумевает запись всей сферы: не только то, что звучит слева и справа, но и источники звука впереди, сзади, сверху и снизу достаточно хорошо локализуются!
Допустим, 360 камера расположена между смеющимся (слева) ребенком и звенящим (справа) колокольчиком. Зритель может “развернуться” на 180 градусов, чтобы ребенок оказался справа. Если используется статичный стерео звук, смех продолжит звучать слева, со стороны колокольчика. Согласитесь, в такой ситуации сложно говорить о каком-то погружении в виртуальную реальность!
Звуковая сфера, кодированная в амбисоникс повернется соответственно видео: ребенок будет смеяться там же, где окажется относительно зрителя — справа, слева, сзади, перед зрителем, или даже над, если зритель “опустит голову”!
Это обеспечит более полное вовлечение в VR. Кроме того, позволит манипулировать вниманием зрителя: если требуется, чтобы зритель “обернулся”, его внимание можно привлечь звуком сзади!

Это как в компьютерных играх?

Для зрителя — примерно также. Монстр, нападающий сзади, будет слышен сзади.
Для звукорежиссера — технология иная. В игровых движках звук можно привязать к объекту (например, рычание — к монстру), игровой движок (Unity, Unreal), будет обрабатывать и позиционировать звук соответственно движению монстра в игре. При работе с 360 видео, “монстра” не существует. Есть “сфера, на которой изображен монстр”. Поэтому каждый звук рычания приходится позиционировать относительно зрителя вручную.
Стоит отметить, что игровые движки также позволяют использовать звуки в ambisonic форматах.  Это означает, что можно, например, привязать к сцене, где действие происходит в вагоне поезда, реально записанную в вагоне поезда звуковую атмосферу. И тогда для зрителя звук будет соответственно меняться при поворотах и наклонах головы.

В чем отличия от бинаурального звука?

Вот статья Андрея Смирнова о пространственном восприятии и бинауральном звуке:
http://asmir.info/lib/acoustics6.htm

Бинауральная запись — двухканальная фонограмма, созданная с учетом особенностей восприятия для эмуляции звучания сверху, сзади и т.д. Предназначена для прослушивания в наушниках.
Мы делали такие записи с in-ear микрофонами в 2004 году. В наушниках — очень интересная передача пространства. При этом, на восприятие влияют анатомические особенности слушателя (например, размер головы). В профессиональной работе такие записи почти не использовали, в том числе, из-за проблем с моносовместимостью.
Пространственный звук — ambisonic — четыре и более канала звука (зависит от «порядка амбисоника»), содержащие информацию о всей звуковой сфере. И уже эта информация декодируется в бинауральный звук для эффекта присутствия в наушниках. В теории, даже размер головы слушателя при этом можно учитывать!
Примечательно, что амбисоник запись можно декодировать не только в бинауральный звук: можно делать моно, стерео, 5.1 и т.д.

Для 360 видео нужен именно пространственный звук, а не статичный бинауральный.

Насколько это сложная технология?

Технология не столько сложная, сколько малопонятная.
Например, в производстве звука для телевидения из технических параметров следует учитывать громкость, пиковый уровень (чтобы не было искажений), моносовместимость и небольшой динамический диапазон телевизоров. Все это указано в технических требованиях телеканалов.
В большом кино технические вопросы иные, ограничений меньше. Но гораздо шире творческие возможности. Главное, чтобы в референсном зале все звучало, как надо, тогда в залах, построенных правильно, все будет примерно также.
В пространственном звуке — ничего не понятно и все постоянно меняется. Например, в августе рекомендовалось делать мастер с частотой дискретизации 44.1кГц, а в ноябре — уже 48кГц. Громкость измерять практически невозможно, да и к какой стремиться — нигде не сказано. Требуемый пиковый уровень для защиты от искажений может сильно отличаться для каждого проекта.
Нет никаких нормативов, но получить брак очень легко! Рекомендации постоянно меняются!
Кроме того, четкого панорамирования требуют все звуки! Причем, панорамирования не в одном измерении (как в стерео — L/R), не в одной плоскости (как в кино — L/R/Ls/Rs и центр, как главный заэкранный канал), а в 3D! Не только появляются верх (как в Dolby Atmos) и низ, еще и исчезает экран, зритель может смотреть и слушать куда угодно!.
Объем работ сильно зависит от финальной платформы для показа: для ютуба следует сделать один мастер, для facebook — немного иной, для gear VR третий, для создания приложения на Unity — четвертый. И так далее.
Все это заставляет работать очень кропотливо, многократно переслушивать материал, выгонять и перепроверять итоговый мастер несколько раз. При этом большая часть работы проходит в наушниках (мы же работаем для зрителя), что вредно и утомительно.
Стоит заметить еще одну сложность — ресурсоемкость. Для работы с пространственным звуком и видео требуются достаточно мощные компьютеры.

Сколько это стоит?

Любой проект следует рассматривать индивидуально. В каждом — новые задачи и новые возможности. Иногда сложная на первый взгляд задача решается очень легко. Часто бывает и наоборот. Например, в одном ролике на две минуты надо записать синхронные шумы, актерское озвучание, сделать сложный саунд дизайн, записать атмосферу на натуре и т.д. А в другом, тоже двухминутном — добавить готовую музыку и дикторский закадр к существующей чистой записи. Конечно, первый будет сделать сложнее и дороже.
Соответственно, от трудозатрат и, например, аренды оборудования, студии, привлечения специалистов, зависит окончательная цена.
Поэтому до понимания задачи, корректно ответить на вопрос невозможно.

Мы можем использовать Zoom? Нескольких петличных микрофонов? Dummy head? Бинауральные микрофоны? Опыт звукорежиссеров кино?

Конечно, можете! Но зачастую безрезультатно.
Гарантировать что-то может только звукорежиссер сведения вашего ролика, который еще на подготовительном периоде расскажет, что и как надо записывать для получения результата. Опытные звукооператоры кино часто не понимают, и не должны понимать, что именно требуется для Ambisonic микса. Поэтому вся их работа часто оказывается напрасной. Часто именно профессионалы кино предлагают Dummy Head и бинауральные микрофоны. И это вполне логично! Но такая запись абсолютно не поможет звукорежиссеру монтажа.
Мы несколько раз использовали рекордеры Zoom h2 и h2n для записи. Несмотря на простоту устройства, для многих задач они оказывались разумным и недорогим решением. В то же время, например, смысла от записи на такое устройство “пролетающего над головой вертолета” нет никакого: высотных составляющих в записи не будет.
Несколько раз проходили слухи об использовании массива из петличных микрофонов. Никакой конкретики по расположению и примеров записей мы не нашли. Петличные микрофоны обычно “omni”, то есть, ненаправленные, и при близком расположении, пишут одно и то же, с незначительными искажениями. Смысла в такой записи нет. Безусловно, мы используем петличные микрофоны для съемок, но не в качестве “амбисоникс-микрофона”. Так что надо смотреть по обстоятельствам, избегая напрасных усилий.

Нам нужно идеальное студийное качество. Получится?

Мы используем профессиональное студийное оборудование, работаем в студиях с акустической обработкой. Все делаем “как для кино”.
Как и в случае с 360 видео, наши желания зачастую сталкиваются с ограниченными возможностями технологий. Программно-аппаратные решения на данный момент позволяют ориентироваться скорее на качественный аттракцион, нежели на действительно великолепный звук. Как и с 360 видео, значительные огрехи технологии имеются и не стоит ждать высочайшего качества, к которому мы, безусловно, стремимся в каждом проекте!
В то же время, технологии быстро развиваются, надеемся, что к моменту, когда вы читаете этот текст, он уже утратил актуальность!

Вы — кто? Студия? Компания? Друзья?

На данный момент, мы скорее команда единомышленников, заинтересованных в развитии данных технологий. Каждый из нас самостоятельно разобрался в новых решениях, каждый имеет некий уникальный опыт и возможности.
Мы были первыми в стране, кто имел подобный опыт. Одни из первых в мире: основной инструмент для работы появился в июне 2016, и к июлю как минимум у троих из нас уже было, что показать.
В поиске информации мы познакомились, объединились и продолжаем развивать направление пространственного звука для 360 видео и VR. Нам важно качественно, быстро и недорого выполнять заказы в пространственном звуке. В такой ситуации иметь возможность обратиться к коллегам за помощью, поддержкой или, например, подменой в случае форс-мажорных обстоятельств — очень важно!

Я смотрю ролик и не слышу пространственного звука. В чем дело?

Пространственный звук на Youtube работает в браузерах Google Chrome, Firefox, Opera и Edge. В приложении Youtube на Android 4.2+ и iOS. Пользователи Safari услышат статичное стерео.
Убедитесь в том, что ролик просматривается именно в приложении Youtube, а не в мобильном браузере, например!
Есть множество других платформ для публикации, у всех есть какие-то особенности.  Важно понимать их до начала работ.
Наверняка, все эти проблемы будут устраняться с развитием технологии. На данный момент, мы стараемся их учитывать в нашей работе!

Как получить пространственный звук дёшево?!

Самое простое решение — использовать существующие бюджетные устройства. Например, Zoom h2n с новой прошивкой, позволяет записывать сразу в амбисоник формат. По идее, подставить этот звук в видео совершенно несложно. Нужно помнить, что такая запись не будет содержать информации о высотах источников звуков.
Компания Røde, купившая недавно одного из главных производителей амбисоник микрофонов, компанию Soundfield, недавно анонсировала компактный накамерный микрофон VideoMic Soundfield. По идее, с ним высотные составляющие будут записываться. Но примеров записей мы пока не наблюдали. Неизвестна цена и дата выхода.
По идее, с этих устройств вы получите четырехканальную запись в формате А (в случае с zoom это будет формат B и один из каналов будет «пустым»), которую сможете просто подставить в видео, например, с помощью актуальных версий программ Adobe.
Подводные камни состоят в том, что пост продакшн таких записей осуществить непросто: почистить шумы и дефекты, внести частотную и динамическую коррекцию, понять, что сказал в кадре человек, отвернувшийся от устройства, будет очень сложно. Это как съемка видео без последующего монтажа, графики, цветокоррекции — результат быстрый, дешевый, невысокого качества.
Поэтому, при экономии, лучше заранее понимать, какими проблемами она может обернуться. Напишите нам, мы постараемся проконсультировать!
А. Соколов