Все Тут Online - Почему лучше слушать только Hi-Res и как его мучают для CD-тиража

Зачем нужны хайрезы? Что в них такого особенного? Зачем они, если наше ухо слышит до 20 кГц? Ответы в картинках на эти и другие вопросы будут разобраны в этом маленьком расследовании.

https://www.upload.ee/image/12244235...580037416a.png

Не будем рассусоливать и сразу перейдем к делу. Hi-Res и 24 бит в частности предназначены прежде всего звукоинженерам. Самый младший отчет этого значения (т.е. 24 х 6 = -144 дБ) лежит далеко за границами слуха, а значит, позволяет минимизировать ошибки квантования при редактировании и пересохранении материала. Отсюда переходим к следующему вопросу — нужен ли хайрез слушателю?

Короткий ответ — не нужен. Но это слушателю «vulgaris», т.е. обычному гражданину, который смотрит телевизор и кино на гаджетах, слушает радио. Такой потребитель может чаять каких-то басов на сабвуфере, но в принципе не задумывается, что у фонограммы бывают оттенки, а сам контейнер аудиофайла обеспечивает различные уровни искажений оригинала. Но мы же сейчас будем говорить не обо всех, а в рамках Hi-Fi-субкультуры, правда?

И если в виниловой сфере по понятным причинам ценятся LP-первопрессы, то очевидно, что и с цифровыми релизами должно все обстоять аналогичным образом. Для музыкального коллекционера важна аутентичность слепка, оказаться как можно ближе к роднику контента. И поскольку сегодня подавляющее большинство альбомов монтируется в цифровой среде, финальный микс в Hi-Res и есть та самая точка, к которой стремится собиратель аудиожемчужин. И не беда, что ее легко скопировать. Беда приходит, когда возникает необходимость портить Hi-Res оригинал в угоду форматам нижнего уровня.

Допустим, вы издатель и в препродакшене находится фонограмма с параметрами PCM-потока 24 бит/96 кГц. Выше параметры ставят только для трансферов архивных мастер-лент, да и то не очень часто. Самый типичный случай в музыкальной индустрии — это вообще финальный микс 24 бит/44,1 кГц. Но мы все-таки сейчас рассмотрим более высокую материю.

Предположим, что вы как издатель хотите порадовать Hi-Fi-комьюнити и не зажали этот хайрез в студийном архиве, а передали его далее на реализацию в Qobuz, HD Tracks, Bandcamp, еще куда-то. А может наоборот, зажали. В любом случае у вас стоит задача подготовить мастер для тиража компакт-дисков, к которым все привыкли, ну и сделать MP3.

Разумеется, что специально для CD никто не будет делать заново эквализацию и прочий мастеринг. Все, что надо было скомпрессировать и эквализовать, уже сделано в Hi-Res мастере. Вам только нужно конвертировать его в стандарт 16 бит/44,1 кГц. И теперь поговорим о значениях термина lossless.

В принципе, исторически повелось, что содержимое компакт-диска в любом виде — AIFF/WAV или FLAC называется lossless-форматами. Но так ли это, если оригинальная фонограмма была 24 бит/96 кГц или даже 24 бит/44,1 кГц? Если говорить о побитовой точности, то здесь уже вряд ли компакт-диск можно отнести к lossless-оригиналу, пусть даже и официально выпущенному. Предлагаю изучить, что происходит при децимации Hi-Res до форматных рамок CD-стандарта с 40-летней историей.

Напрасно думают некоторые деятели, что понижение дискретности с 96 кГц на 44,1 кГц – это что-то типа выбрасывания дурацкой пустоты ультразвука, которую все равно никто не услышит. Запомните, пересчитывается заново в новую сетку весь сигнал, в том числе и в слышимом спектре. Причем с 96 кГц на 44,1 кГц – это еще и некратный пересчет, лучше было бы на 48 кГц.

Любая фильтрация, пусть даже и цифровая влечет за собой нарушения фазовых характеристик. И чем жестче режут фильтры, тем больше будет паразитного звона на фронтах импульсов. Не будете фильтровать, тогда к вам полезут зеркальные спектры продуктов квантования. Сейчас покажем что и как.

Для эксперимента я синтезировал сигнал квадратной волны 1 кГц в дискретности 24 бит/96 кГц. Да, в музыке квадратной волны не бывает, а сама запись имеет более сложную форму, но на этом образце будет нагляднее демонстрировать артефакты конвертации. Попробуем привести этот сигнал к стандарту компакт-диска.

Битностью займемся потом, а сейчас давайте-ка сначала снизим дискретность до 44 100 Гц. Откинем ту самую дурацкую пустоту ультразвука, тем более, что и сигнал-то всего один и на 1000 герц, ага-ага.

https://www.upload.ee/image/12244246...b1aae60b6e.png

Различный аудиософт предлагает свои варианты Sample Rate Convertor (SRC). В интерфейсе Izotope RX это выглядит вот так (см. меню ниже). Кто-то из технарей использует готовый пресет не глядя. Кто-то более ответственный (что случается гораздо реже) будет каждый раз подбирать настройки вручную и слушать результат. Лично меня эта процедура всегда сводит с ума, потому что результат никогда не нравится на 100%.

Настройка SRC напоминает параметры цифрового фильтра в ЦАПах, только разумеется, что самого цифро-аналогового преобразования не происходит. Задается крутизна спада виртуальной АЧХ, распределение паразитных колебаний «звона» — до или после импульса и т.п. Я покажу несколько настроек и результат, к которому они приводят.

https://www.upload.ee/image/12244247...642be3a017.png

Фильтр всегда что-то лечит, а что-то калечит. Жесткая отсечка спектра продуктов квантования приводит к росту колебаний на фронтах импульса, так называемого «звона». Причем располагается «звон» как после импульса, так и до. Это, как мы знаем случай фазолинейного фильтра типа Sharp. Характеристика спада может немного отклоняться от вертикальной оси, но в идеале представляет собой «прямой угол» (см. на картинке), который еще называется Brickwall (кирпичная стена). ЦАПы Chord любят так фильтровать, но далеко не все от этого в восторге.

Если вы хотите избавиться от пред-звона, то смещаете эту энергию на «потом», в хвост импульса, суммируя в этой области колебания. Узнаете минимально-фазовый фильтр?

https://www.upload.ee/image/12244248...79abb9acd4.png

Оба случая выше относятся к классификации спада амплитудно-частотной характеристики по типу Sharp. Желаете уменьшить «звон» — ослабляйте крутизну спада фильтра, делайте его мягче, т.е., Slow. Но при этом будет страдать чистота спектра в верхнем диапазоне. Поставите крайнюю точку минимума на границу диапазона — фильтр начнет влиять и частично гасить полезный сигнал в рабочем диапазоне. Ниже можно посмотреть итоги работы фильтра Slow в фазолинейном и минимально-фазовом изводе. Как видите, форма волны уже чуть ближе к оригиналу.

https://www.upload.ee/image/12244250...b773adb28a.png

https://www.upload.ee/image/12244252...f07dcd06d0.png

Чем меньше фильтрации, тем скорее перестают звенеть фронты импульсов. Но и не ждите никакой защиты от зеркального спектра. Смещаете точку отсечки вперед за пределы диапазона вплоть до самого свободного развития событий, как в NOS-ЦАПах — в полезный сигнал будут проникать все больше паразитных продуктов квантования.

https://www.upload.ee/image/12244254...204c24acda.png

Ну что, выбрали своего бойца? Как будем фильтровать-то? Или лучше все-таки не мучить сигнал обработками и слушать Hi-Res в первозданном виде?

Второй этап после ресемплинга дискретности в 44 100 Гц — понижение битности аудио до 16 разрядов. Ведь аудиопоток все еще 24-битный, а для CD это не годится. Чтобы показать следующую деградацию, для второго эксперимента я сгенерировал сигнал 24 бит/44,1 кГц по уровню минус 90 дБ. Это тот же самый 1 кГц, но уже синусоидальной формы, чтобы оценивать его ступенчатость при конвертации. Почему такой тихий по громкости?

Потому что минус 90 дБ отстоит от предела динамического диапазона CD на 6 дБ, то есть на величину младшего разряда. Не забываем расклад 6 дБ на 1 бит, т.е., 16 х 6 = 96 дБ теоретического разрешения Red Book.

https://www.upload.ee/image/12244257...33abd234ba.png

При разрешении 24 бит синус такого уровня имеет прекрасную гладкую форму. Вы сами можете увидеть точки, из которых строится кривая синуса.

https://www.upload.ee/image/12244258...496e700817.png

Если мы попробуем изложить этот же сигнал в 16 бит, то он будет выглядеть «ступеньками», потому что один бит уже не разрежешь надвое. Вы можете отбрасывать младшие разряды из 24 бит или сразу попытаться записывать синус такого уровня громкости в 16-битной среде. Тоже самое будет, если вы будете отправлять 24-битный сигнал на винтажный 16-битный ЦАП. К этой убогой форме вы будете возвращаться в любом случае. Как же нам сохранить (хотя бы частично) гладкость тихих переходов 24 бит на более низких форматах?

На выручку приходит абсурдный, на первый взгляд, способ. При конвертации с 24 на 16 бит следует вбросить малую (на уровне того самого младшего бита) порцию шума с акцентом на ВЧ-область — свыше 15 кГц, где он будет не так заметен. Что мы увидим после такой процедуры?

https://www.upload.ee/image/12244260...2b146a9d5b.png

Внешне сигнал стал «мохнатым», увеличилась его амплитуда. Обратите внимание на отсчеты, теперь они занимают уровни выше, отдельные пики добираются аж до -78 дБ. Смотрится такой результат вроде неприглядно, но общий его силуэт имеет уже плавные, а не ступенчатые очертания. И если профилировать «волосатика» ВЧ-фильтром (а такая процедура будет непременно в любом ЦАПе), то мы вновь разглядим наш синус, считавшийся утерянным. Покалеченный и кривенький, но ведь уже и не «ступеньки», правда, чудо?

Благодаря этому фокусу, тихие динамические оттенки 24-битной записи подтягиваются в слышимую область 16-битного разрешения. При этом максимальные уровни сигнала остаются без изменений из-за ничтожно малой величины сглаживающего шума в районе младшего бита. Так работает процедура нойз-шейпинга (noise shaping, формирование шума), как частного случая дизеринга.

https://www.upload.ee/image/12244262...e6330fd9a8.png

Уловка эта не нова. В 80-х ее впервые применил Philips, чтобы не терять разрешение компакт-диска на 14-битном ЦАПе TDA1540. В самом конце 80-х Technics и JVC представили 1-битные конвертеры MASH (MultistAge noise SHaping) и PEMDD (Pulse Edge Modulation Differential-linearity-error-less D/A conversion), использующие ШИМ-модуляцию. На протяжении 90-х годов нойз-шейпинг использовался для увеличения динамического диапазона до 20 бит в HDCD и фирменной технологии Sony Super Bit Mapping (SBM), помните компакт-диски с такими пометками? Ну и разумеется, нойз-шейпинг — это фундаментальная основа DSD-технологии, нашей обожаемой.

Дизеринг годится не только для звукозаписи, но и обработки изображения. При перегоне картинки с высокой битностью в стандартные 8 бит во избежание постеризации (т.е. рваной градации цветов) в нее подмешивается сглаживающий шум. А что получилось у нас?

В данном случае амплитуда восстановленного синуса увеличилась с -90 дБ до уровня -82 дБ. Просьба не относится к этой цифре как к законченной формуле. Величина нойзшейпинга/дизеринга ведь тоже настраивается отдельно в аудиоредакторе. Чем она больше, тем громче (т.е., заметнее) вытянутся сигналы малого уровня из 24-битного оригинала. Но использовать этот алгоритм можно до определенного предела, чтобы не ухудшить общий сигнал/шум фонограммы. И уж точно не стоит повторять эту процедуру дважды.

Итак, мы получили аудио в стандарте, пригодном для размещения на компакт-диске. Но называть ли это по-прежнему лосслесом, т.е. форматом без потерь оригинальной таблицы данных? Это зависит от того, что мы считаем оригиналом. Так можно утверждать разве что по отношению к более грубым и разрушительным способам уменьшения размеров аудиопотока вроде МР3 и других lossy-кодеков.

Кстати, иногда приходится слышать презрительное отношение в адрес MQA. Мол, это же поганый lossy-кодек со сжатием и потерей данных. Да, MQA получается путем усечения оригинального Hi-Res, но в гораздо меньшей степени, чем CD! Даже в нераспакованном виде MQA все равно стоит на ступеньку выше компакт-диска, поскольку содержит аудио с разрешением более 16 бит, в отличие от пределов возможностей Red Book. То есть, оснований называться лосслессом у MQA как раз будет побольше.

Можно, конечно, еще посравнивать это всё между собой на слух, если делать нечего. Hi-Res оригиналы vs. оструганные 16-битные заготовки для CD . Добавить туда еще MQA. В одних случаях образцы будут малоотличимы между собой. В других разница проявится более явно. Но к таким результатам можно прийти, даже играясь на нижних уровнях с CD и MP3 320 кбит/с. Тогда зачем каждый раз гадать? Ведь влияющих факторов здесь масса — репертуар, динамические и частотные характеристики фонограммы и прочие вещи. Да и нет единого протокола SRC-алгоритмов для понижения разрядности Hi-Res. Как уже говорилось, это студийное решение, которое принимается и исполняется неочевидным для нас способом.

Так что если речь идет о новом издании (а сравнение ремастеров с предыдущими релизами — это отдельная тема и мы сейчас не об этом), желательно приобретать альбом в максимально высоком битрейте аудио, какой бы пустой спектр над ним не болтался. Это поможет избежать и не рефлексировать на тему всех этих способов обезжиривания оригинала, рассмотренных выше.

Hi-Res дает возможность обладать цифровым первопрессом, т.е. находиться на предельно близкой дистанции к музыканту. Причем, что немаловажно, не нарушая правил дистанции на карантине!