Цифровой аудиоформат 24/192, и почему в нем нет смысла. Часть 1 [Перевод]

К сожалению, нет никакого смысла записывать музыку в формате 24/192. Его точность воспроизведения немного уступает форматам 16/44 или 16/48, но при этом он занимает в 6 раз больше места.


В прошлом месяце [оригинальная статья написана в марте 2012] заголовки в прессе сообщали о том, что музыкант Нил Янг и основатель компании Apple Стив Джобс обсуждали возможный запуск сервиса для скачивания музыкальных форматов «бескомпромиссного студийного качества». Большинство газет, журналов и пользователей были настроены достаточно оптимистично касательно перспектив цифрового музыкального формата c квантованием сигнала в разрядность 24 бита, при частоте дискретизации 192 кГц.

К сожалению, нет никакого смысла записывать музыку в формате 24/192. Его точность воспроизведения немного уступает форматам 16/44 или 16/48, но при этом он занимает в 6 раз больше места.

На сегодняшний день существует несколько проблем, связанных с качеством аудио и «применением» распространяемой цифровой музыки. Формат 24/192 не решает ни одну из них. Пока все считают этот формат панацеей, мы не увидим никаких улучшений в музыкальной сфере.

Начнем с плохих новостей

В течение прошедших нескольких недель я общался с разумными, не обделенными научными знаниями людьми, которые верят в музыкальный формат 24/192 и не понимают, как кто-то может не соглашаться с этим. Они задавали хорошие вопросы, которые стоят того, чтобы на них ответили подробно.

Я также задался вопросом, что могло вызвать такую активную поддержку высокочастотного цифрового аудио. Ответы показали, что немногие из людей понимают основы теории сигналов или теорему отсчетов (теорему Котельникова или Найквиста — Шеннона), что неудивительно. Недопонимание математики, технологий и физиологии проявлялись в речах многих профессионалов, которые обладают большим опытом сфере аудиотехнологий. Некоторые даже утверждали, что теорема Котельникова не объясняет, как работает цифровое аудио[1].

Дезинформация и предрассудки на руку только шарлатанам. Давайте разберем основы того, почему же распространение формата 24/192 не имеет смысла, перед тем как выдвигать другие, более обоснованные идеи.

Господа, встречайте! Ваши уши!

Ухо слышит с помощью волосковых клеток, которые расположены на резонансной базилярной мембране в улитке внутреннего уха. Каждая волосковая клетка точно настроена на определенный узкий частотный диапазон, который определяется положением клетки на мембране. Пик чувствительности находится в середине частотного диапазона, который постепенно спадает в обоих направлениях и принимает ассиметричную конусовидную форму, перекрывающую частотные диапазоны соседних клеток. Мы не слышим звук, если нет волосковых клеток, настроенных на эту частоту.

С левой стороны рисунка изображена человеческая улитка с базилярной мембраной (она окрашена бежевым цветом) в разрезе. Мембрана устроена так, что она резонирует в различных местах на протяжении своей длины, в зависимости от входящей частоты: высокие частоты резонируют ближе к основанию, а низкие у противоположного конца. На рисунке отмечены приблизительные расположения нескольких частот.

На правой стороне схематически изображена диаграмма реакции волосковых клеток вдоль базилярной мембраны, в виде группы перекрывающихся сигналов.

Процесс схож с аналоговым радиоприемником, принимающим частотный сигнал, на который он настроен, с близлежащей радиостанции. Чем сильнее не совпадают частоты приемника и станции, тем более неустойчивым и искаженным будет сигнал, вне зависимости от его силы. Существуют верхний (и нижний) уровни частотного диапазона, за пределами которого волосковые клетки не способны принимать сигналы, и мы ничего не слышим.

Частота дискретизации и спектр слышимых частот

Я уверен, вы слышали множество раз, что частоты от 20 Гц до 20 кГц являются диапазоном слышимости человеческого уха. Очень важно понять, как ученые пришли именно к таким цифрам.

Сначала мы измеряем «порог слышимости» по всему звуковому диапазону у группы слушателей. Это дает нам возможность построить кривую, представляющую самый тихий звук, который может услышать человеческое ухо при любой заданной частоте, измеренной в идеальных условиях на здоровых ушах. Безэховое окружение, точность калибровки оборудования воспроизведения и строгость статистического анализа – это легкая часть эксперимента. Слуховая концентрация теряется очень быстро, поэтому тестирование нужно проводить, пока испытуемый не утомлен. Как следствие, возникает множество перерывов и пауз, и тестирование может занимать от нескольких часов до многих дней, в зависимости от методологии.

Затем мы собираем информацию в другой крайности – о «болевом пороге». В этой точке на графике амплитуда настолько высока, что перепонки и нервный аппарат уха перегружаются входным сигналом, и испытуемый начинает испытывать боль. Нужно следить, чтобы в ходе эксперимента не повредить никому слух, поэтому собрать эти данные гораздо сложнее.

На рисунке выше изображены аппроксимированные кривые равной громкости, которые получили Флетчер и Мансон (Fletcher and Munson) в 1933 году, а также показания для частот более 16 кГц, полученные из современных источников. Порог слышимости и болевой порог обозначены красными линиями. Ученые, занимающиеся этим вопросом в последующем, уточняли эти показания. Результатом стала единица измерения «фон» и стандарт ISO 226 для кривых равной громкости. Последние собранные данные показывают, что ухо значительно хуже воспринимает низкие частоты, чем считали Флетчер и Мансон.

Верхний предел диапазона слышимости человеческого уха находится в том месте, где кривая болевого порога пересекает кривую слышимости. В этой точке, или за её пределами, звук резко становится невыносимо громким.

На низких частотах улитка уха работает как рефлексный низкочастотный динамик. Геликотрема представляет собой отверстие на конце базилярной мембраны, которое выступает в роли канала, принимающего частоту от 40 Гц до 65 Гц, у разных людей по-разному. Ниже этой частоты характеристика реакции резко скатывается вниз.

Диапазон от 20 Гц до 20 кГц – это стандартный диапазон слышимости. Он полностью перекрывает слышимый звуковой спектр, что подтверждено практически столетним сбором экспериментальных данных.

Идеальный слух или наследственный дар

Получая множество писем, я вижу, что множество людей верит в существование уникумов с исключительным слухом. Действительно ли существуют такие люди с «золотыми ушами»?

Зависит от того, что называть исключительным слухом.

Здоровые уши молодых людей слышат лучше, чем уши пожилых людей или поврежденные уши. Некоторые люди исключительно хорошо натренированы слышать все нюансы звука и музыки, о существовании которых большинство людей даже не догадывается. Когда-то в 90х я мог распознать каждый mp3-кодировщик (в то время все они были довольно плохими) и мог продемонстрировать это в двойном слепом тесте[2].

Если человек обладает здоровыми ушами и хорошо натренирован на распознавание звуков, я бы назвал его слух исключительным. Тем не менее, люди со слухом ниже среднего могут быть обучены замечать детали, которые ускользают от неподготовленных слушателей. Исключительный слух, по большей части, вопрос тренировки, а не способности слышать за пределами слухового диапазона обычных смертных.

Исследователи слуха очень бы хотели найти кого-либо как с исключительным слухом, так и со способностью слышать за пределами слухового диапазона, чтобы протестировать и записать результаты исследования. Ничего не имею против обычных людей, но каждый ученый хочет найти человека с генетическими причудами, чтобы написать первоклассную статью. Мы не нашли таких людей за 100 лет проведения испытаний, так что, вероятно, их не существует. Так что извините. Но мы продолжим искать дальше.

Любовь к цветовому спектру

Возможно, вы отнеслись скептично ко всему, что я только что написал, потому что это идет вразрез со всеми маркетинговыми ходами. Вместо этого, давайте предположим, что у людей возникла мания на расширение цветового диапазона, и отвлечёмся от звуковой тематики.

На рисунке выше изображена приблизительная шкала чувствительности палочек и колбочек человеческого глаза, сопоставленная с видимым спектром. Эти органы чувств реагируют на свет в перекрывающихся спектральных полосах, также как волосковые ячейки в ушах настроены на восприятие перекрывающихся полос звуковых частот.

Человеческий глаз видит ограниченный диапазон световых волн, называемый видимым излучением. Здесь прослеживается прямая аналогия с диапазоном слышимости звуковых волн. Также как и ухо, глаз имеет чувствительные клетки (палочки и колбочки) которые улавливают свет в различных, но перекрывающихся полосах частот.

Видимое излучение начинается с частоты около 400 ТГц (темно-красный) и простирается до 850 ТГц (темно-фиолетовый) [3], но острота зрения падает с течением жизни. За пределами этого приблизительного диапазона сила света, попадающая в глаза, может выжечь вам сетчатку. Таким образом, получается, что диапазон довольно приличный даже для молодых, здоровых, генетически одаренных личностей – диапазон, который аналогичен широкому диапазону звукового спектра.

Давайте предположим, что в нашем гипотетическом мире, где происходит повальное увлечение расширением видимого спектра видеозаписей, существует группа людей, которые считают, что эти ограничения недостаточно щедры. Они полагают, что видеозапись представляет собой не только зрительный спектр, но еще и инфракрасное и ультрафиолетовое излучения. Продолжив сравнение, предположим, что наиболее активная часть группы (которая гордится этим!) утверждает также, что и этого расширенного спектра недостаточно, и видео будет казаться наиболее естественным, если туда будут попадать микроволны и рентгеновское излучение. Для тех у кого «глаз – алмаз» разница будет огромная, просто день и ночь!

Разумеется, это просто смешно.

Никто не может увидеть рентгеновское излучение (или инфракрасное, или ультрафиолетовое, или микроволны). Неважно, насколько сильно человек верит в то, что он может, сетчатка просто не имеет необходимых инструментов для того, чтобы их воспринимать.

Вот эксперимент, который каждый может провести: сходите и возьмите ИК пульт от Apple [TV]. Светодиод излучает волны длиной 980 нм, примерно равные частоте в 306 ТГц, что близко к инфракрасному спектру. Волны такой длины находятся не так уж и далеко за пределами видимого диапазона. Возьмите пульт в подвал или в самую темную комнату с выключенным светом в своем доме посреди ночи и дайте своим глазам привыкнуть к темноте.

На картинке выше изображен инфракрасный пульт Apple [TV], сфотографированный с помощью цифровой камеры. Хотя излучатель достаточно яркий и частота излучения подходит довольно близко к частоте красной части видимого спектра, инфракрасное излучение абсолютно невидимо для человеческого глаза.

Можете ли вы увидеть, как загорается светодиод пульта, когда вы нажимаете на кнопку[4]? Нет? Даже небольшой проблеск? Попробуйте несколько других пультов, во многих из них используется инфракрасное излучение диапазона 310-350 ТГц, подходящее немного ближе к видимой полосе частот, но вы не сможете разглядеть и его тоже. Остальные пульты излучают свет на частотах 350-380 ТГц, находящихся прямо на краю видимого диапазона, и он едва различим в абсолютной темноте, когда глаза к ней привыкнут [5]. Если бы их частоты совпадали с частотами видимого диапазона, то они были бы ослепительно и болезненно яркими.

Спектр инфракрасных светодиодов составляет максимум 20% от видимого диапазона и находится за его пределами. Частота 193 КГц выходит за рамки диапазона слышимости на 400%. Чтобы меня не обвиняли в сравнении яблок с апельсинами, напомню, что звуковое и зрительное восприятие одинаково ухудшается на границах своих спектров.

Примечания к Части 1

1. Как написал один разочарованный блогер: «Теорема Котельникова не объясняет, как работает цифровое аудио, наоборот, цифровое аудио было изобретено как следствие теоремы, если вы не верите теореме, то вы не можете верить и в существование цифрового звука».

2. Если это и не был самый скучный трюк, чтобы хвастаться им на вечеринках, то он был достаточно близок к этому.

3. Более характерно говорить о видимом излучении как о длинах волн, измеренных в нанометрах или ангстремах. Я использую частоту, чтобы как-то сопоставить ее со звуком. Эти величины эквиваленты, потому что частота обратно пропорциональна длине волны.

4. Эксперимент с индикатором пульта не сработает с ультрафиолетовыми диодами, в основном потому, что они на самом деле не ультрафиолетовые. Они достаточно фиолетовые, чтобы немного флюоресцировать, но все еще в пределах видимого диапазона. Реальные ультрафиолетовые светодиоды стоят около $100 – $1000 за штуку и нанесут ущерб глазам, если проводить такой тест. Потребительские недо-ультрафиолетовые светодиоды дополнительно излучают бледный белый свет, чтобы казаться ярче, так что вы можете их увидеть, даже если пик излучения находится в ультрафиолетовом диапазоне.

5. В оригинальной версии статьи говорится, что ИК-светодиоды работают на частотах 300-325 ТГц (около 920-980 нм) длин волн, которые невидимы. Довольно много читателей написали мне, что они могут видеть слабое свечение в некоторых (или всех) их пультах. Некоторые из этих людей были достаточно любезны, и сообщили мне модели пультов. Кое-какие из них я проверил на спектрометре. И смотрите-ка! Эти пульты используют высокочастотные светодиоды, работающие на частотах 350-380 ТГц (800-850 нм), а они как раз перекрывают границы видимого диапазона.

[Часть 2]


Обсуждение данного материала
Комментариев пока нет. Станьте первым!
Написать свой комментарий