Звук: немного теории часть 2 - Все о компьютере - Компьютер - Новости

Воскресенье, 19.05.2024, 22:14

Меню сайта

Помощь сайту

Личный кабинет

Категории раздела

Все о компьютере [31]

Поиск

Наши посетители

QR-код сайта

Главная » Статьи » Компьютер » Все о компьютере

Звук: немного теории часть 2

Звук: немного теории часть 2

2.5. Пространственное звучание.

Человек слышит двумя ушами и за счет этого способен различать направление прихода звуковых сигналов. Эту способность слуховой системы человека называют бинауральным эффектом. Механизм распознавания направления прихода звуков сложен и, надо сказать, что в его изучении и способах применения еще не поставлена точка.

Уши человека расставлены на некотором расстоянии по ширине головы. Скорость распространения звуковой волны относительно невелика. Сигнал, приходящий от источника звука, находящегося напротив слушателя, приходит в оба уха одновременно, и мозг интерпретирует это как расположение источника сигнала либо позади, либо спереди, но не сбоку. Если же сигнал приходит от источника, смещенного относительно центра головы, то звук приходит в одно ухо быстрее, чем во второе, что позволяет мозгу соответствующим образом интерпретировать это как приход сигнала слева или справа и даже приблизительно определить угол прихода. Численно, разница во времени прихода сигнала в левое и правое ухо, составляющая от 0 до 1 мс, смещает мнимый источник звука в сторону того уха, которое воспринимает сигнал раньше. Такой способ определения направления прихода звука используется мозгом в полосе частот от 300 Гц до 1 кГц. Направление прихода звука для частот расположенных выше 1 кГц определяется мозгом человека путем анализа громкости звука. Дело в том, что звуковые волны с частотой выше 1 кГц быстро затухают в воздушном пространстве. Поэтому интенсивность звуковых волн, доходящих до левого и правого ушей слушателя, отличаются на столько, что позволяет мозгу определять направление прихода сигнала по разнице амплитуд. Если звук в одном ухе слышен лучше, чем в другом, следовательно источник звука находится со стороны того уха, в котором он слышен лучше. Немаловажным подспорьем в определении направления прихода звука является способность человека повернуть голову в сторону кажущегося источника звука, чтобы проверить верность определения. Способность мозга определять направление прихода звука по разнице во времени прихода сигнала в левое и правое ухо, а также путем анализа громкости сигнала используется в стереофонии.

Имея всего два источника звука можно создать у слушателя ощущение наличия мнимого источника звука между двумя физическими. Причем этот мнимый источник звука можно «расположить» в любой точке на линии, соединяющей два физических источника. Для этого нужно воспроизвести одну аудио запись (например, со звуком рояля) через оба физических источника, но сделать это с некоторой временной задержкой в одном из них и соответствующей разницей в громкости. Грамотно используя описанный эффект можно при помощи двухканальной аудио записи донести до слушателя почти такую картину звучания, какую он ощутил бы сам, если бы лично присутствовал, например, на каком-нибудь концерте. Такую двухканальную запись называют стереофонической. Одноканальная же запись называется монофонической.

На самом деле, для качественного донесения до слушателя реалистичного пространственного звучания обычной стереофонической записи оказывается не всегда достаточно. Основная причина этого кроется в том, что стерео сигнал, приходящий к слушателю от двух физических источников звука, определяет расположение мнимых источников лишь в той плоскости, в которой расположены реальные физические источники звука. Естественно, «окружить слушателя звуком» при этом не удается. По большому счету по той же причине заблуждением является и мысль о том, что объемное звучание обеспечивается квадрофонической (четырехканальной) системой (два источника перед слушателем и два позади него). В целом, путем выполнения многоканальной записи нам удается лишь донести до слушателя тот звук, каким он был «услышан» расставленной нами звукопринимающей аппаратурой (микрофонами), и не более того. Для воссоздания же более или менее реалистичного, действительно объемного звучания прибегают к применению принципиально других подходов, в основе которых лежат более сложные приемы, моделирующие особенности слуховой системы человека, а также физические особенности и эффекты передачи звуковых сигналов в пространстве.

Одним из таких инструментов является использование функций HRTF (Head Related Transfer Function). Посредством этого метода (по сути – библиотеки функций) звуковой сигнал можно преобразовать специальным образом и обеспечить достаточно реалистичное объемное звучание, рассчитанное на прослушивание даже в наушниках.

Суть HRTF – накопление библиотеки функций, описывающих психофизическую модель восприятия объемности звучания слуховой системой человека. Для создания библиотек HRTF используется искусственный манекен KEMAR (Knowles Electronics Manikin for Auditory Research) или специальное «цифровое ухо». В случае использования манекена суть проводимых измерений состоит в следующем. В уши манекена встраиваются микрофоны, с помощью которых осуществляется запись. Звук воспроизводится источниками, расположенными вокруг манекена. В результате, запись от каждого микрофона представляет собой звук, «прослушанный» соответствующим ухом манекена с учетом всех изменений, которые звук претерпел на пути к уху ( затухания и искажения как следствия огибания головы и отражения от разных ее частей). Расчет функций HRTF производится с учетом исходного звука и звука, «услышанного» манекеном. Собственно, сами опыты заключаются в воспроизведении разных тестовых и реальных звуковых сигналов, их записи с помощью манекена и дальнейшего анализа. Накопленная таким образом база функций позволяет затем обрабатывать любой звук так, что при его воспроизведении через наушники у слушателя создается впечатление, будто звук исходит не из наушников, а откуда-то из окружающего его пространства.

Таким образом, HRTF представляет собой набор трансформаций, которые претерпевает звуковой сигнал на пути от источника звука к слуховой системе человека. Рассчитанные однажды опытным путем, HRTF могут быть применены для обработки звуковых сигналов с целью имитации реальных изменений звука на его пути от источника к слушателю. Не смотря на удачность идеи, HRTF имеет, конечно, и свои отрицательные стороны, однако в целом идея использования HRTF является вполне удачной. Использование HRTF в том или ином виде лежит в основе множества современных технологий пространственного звучания, таких как технологии QSound 3 D ( Q3 D), EAX, Aureal3 D ( A3 D) и другие.

3. Цифровые аудио сигналы

Компьютер – это цифровое устройство, то есть электронное устройство, в котором рабочим сигналом является дискретный сигнал. Сегодняшние компьютеры оперируют дискретными сигналами, несущими двоичные значения, условно обозначаемые как «да» и «нет» (на электрическом уровне: 0 вольт и V вольт, для некоторого ненулевого значения V). С помощью одного двоичного сигнала за один шаг можно передать информацию об одном из всего двух положений: 0 («да») или 1 («нет»). С помощью N двоичных сигналов за один шаг можно передать информацию об одном из 2 N положений (2 N – это число комбинаций нулей и единиц для N сигналов). Взаимодействие всех составляющих компьютер блоков происходит путем обмена и обработки одним или одновременно несколькими двоичными сигналами. Все – коды управления, а также сама обрабатываемая информация – все представляется в компьютере в виде чисел. По этой причине и аудио сигналы в цифровой аппаратуре представляют в виде чисел.

Итак, каким же образом можно описать аналоговый аудио сигнал в цифровой форме? Реальный аудио сигнал – это сложное по форме колебание, некая сложная зависимость амплитуды звуковой волны от времени. Преобразование аналогового звукового сигнала в цифровой вид называется аналогово-цифровым преобразованием или оцифровкой. Процесс такого преобразования заключается в:

осуществлении замеров величины амплитуды аналогового сигнала с некоторым временным шагом - дискретизация;
последующей записи полученных значений амплитуды в численном виде – квантование.

3.1. Дискретизация

Процесс дискретизации по времени - это процесс получения мгновенных значений преобразуемого аналогового сигнала с определенным временным шагом, называемым шагом дискретизации (см. рис. 7).

Количество осуществляемых в одну секунду замеров величины сигнала называют частотой дискретизации или частотой выборки, или частотой сэмплирования (от англ. « sampling» – «выборка»). Очевидно, что чем меньше шаг дискретизации, тем выше частота дискретизации (то есть, тем чаще регистрируются значения амплитуды), и, значит, тем более точное представление о сигнале мы получаем. Это рассуждение подтверждается доказанной теоремой, теоремой Котельникова (в зарубежной литературе встречается как теорема Шеннона, Shannon). Согласно этой теореме, аналоговый сигнал с ограниченным спектром может быть точно описан дискретной последовательностью значений его амплитуды, если эти значения следуют с частотой, как минимум вдвое превышающей наивысшую частоту спектра. Иначе говоря, аналоговый сигнал, в котором частота наивысшей составляющей спектра равна F m, может быть точно описан последовательностью дискретных значений амплитуды, если для частоты дискретизации F d выполняется:

. На практике это означает следующее: для того, чтобы оцифрованный сигнал содержал информацию о всем диапазоне слышимых человеком частот исходного аналогового сигнала (0 – 20 кГц) необходимо, чтобы выбранное значение частоты дискретизации при оцифровке сигнала составляло не менее 40 кГц.

Казалось бы, для завершения процесса оцифровки теперь осталось лишь записать измеренные мгновенные значения амплитуды сигнала в численной форме. Полученная последовательность чисел (по одному результату замера амплитуды сигнала на каждый шаг) и образует цифровую форму исходного аналогового сигнала – так называемый импульсный сигнал . Здесь, однако, обнаруживается основная трудность оцифровки, заключающаяся в невозможности записать измеренные значения сигнала с идеальной точностью.

3.2. Линейное (однородное) квантование

Допустим, что для записи одного значения амплитуды сигнала в памяти компьютера мы отводим N бит. Соответственно, с помощью одного N -битного слова (слово – последовательность N бит) можно описать 2 N разных положений. Допустим теперь, что амплитуда оцифровываемого сигнала колеблется в пределах от -1 до 1 некоторых условных единиц. Заметим, что измеренным значениям амплитуды ничто не мешает быть дробными (например, -0.126 или 0.997). Представим этот диапазон изменения амплитуды - динамический диапазон сигнала - в виде 2 N -1 равных промежутков, разделив его на 2 N уровней - квантов (произведя таким образом однородное, линейное разбиение амплитудной шкалы). Теперь, для записи каждого отдельного значения амплитуды, его необходимо округлить до ближайшего уровня квантования. Этот процесс называется квантованием по амплитуде. Говоря более формальным языком, квантование по амплитуде – это процесс замены реальных (измеренных) значений амплитуды сигнала значениями, приближенными с некоторой точностью. Каждый из 2 N возможных уровней называется уровнем квантования,а расстояние между двумя ближайшими уровнями квантования называется шагом квантования. В случае линейного разбиения амплитудной шкалы на уровни, квантование называют линейным (однородным) . На рис. 8 представлен пример такого квантования.

Как видно, результатом такой оцифровки стал ступенчатый сигнал, составленный из прямоугольников, каждый из которых имеет ширину равную величине шага дискретизации, и высоту равную измеренному значению амплитуды сигнала.

Очевидно, что точность округления зависит от выбранного количества (2 N) уровней квантования, которое, в свою очередь, зависит от количества бит ( N), отведенных для записи значения амплитуды. Чем больше уровней квантования и чем ближе они друг к другу (а, для некоторого фиксированного диапазона изменения амплитуды расстояние между уровнями квантования обратно пропорционально их количеству), тем на меньшую величину приходится округлять измеренные значения амплитуды, и, таким образом, тем меньше получаемая погрешность квантования. Число N называют разрядностью квантования (подразумевая количество разрядов, то есть бит, в каждом слове), а полученные в результате округления значений амплитуды числа – отсчетами или сэмплами (от англ. " sample” – "замер”).Считается, что погрешность квантования, являющаяся результатом квантования с разрядностью 16 бит, остаются для слушателя почти незаметными.

Описанный способ оцифровки сигнала - дискретизация сигнала во времени в совокупности с методом однородного квантования - называется импульсно-кодовой модуляцией, ИКМ (англ. Pulse Code Modulation – PCM). Стандартный аудио компакт-диск ( CD- DA), применяющийся с начала 80-х годов 20-го столетия, хранит информацию в формате PCM, с частотой дискретизации 44.1 кГц и разрядностью квантования 16 бит.

3.3. Сложности, связанные с оцифровкой

Не смотря на кажущуюся простоту и интуитивность процесса оцифровки, эта процедура сопряжена со многими трудностями и проблемами.

Во-первых, частота дискретизации, устанавливаемая теоремой Котельникова, является минимально необходимой, но не достаточной. Дискретизация вносит дополнительные помехи в спектр исходного сигнала, добавляя в него его же зеркальную копию. Поэтому значение частоты дискретизации должно выбираться несколько большим, чем частота, устанавливаемая теоремой Котельникова, чтобы сделать возможной успешную фильтрацию лишних спектральных составляющих.

Во-вторых, квантование значений сигнала привносит в спектр сигнала дополнительную помеху, называемую шумом квантования или шумом дробления . Шумом (ошибкой) квантования называют сигнал, составляющий разницу между восстановленным цифровым и исходным аудио сигналами. Эта разница образуется в результате округления измеренных значений сигнала. При этом выполняется следующая закономерность: чем выше разрядность квантования, тем ниже уровень шума квантования (поскольку тем на меньшее значение требуется округлять каждое измеренное значение сигнала). Природа шума квантования такова, что ширина спектральной области, в которой он простирается, пропорциональна значению частоты дискретизации. При этом при фиксированной разрядности квантования, общая энергия шума квантования остается постоянной. А это значит, что чем выше частота дискретизации, тем в более широкой спектральной области простирается шум квантования и, соответственно, тем ниже его мощность в некоторой фиксированной интересующей нас полосе спектра, например, в полосе слышимых частот. Этот факт имеет большое практическое значение.

Надо сказать, что уровень шума квантования также зависит и от формы самого сигнала. В идеальном случае, ошибка при округлении значений сигнала является случайной и, значит, спектр шума квантования оказывается равномерным. В реальности, однако, этого не происходит. Форма реальных звуковых сигналов является в определенной степени не случайной, а, значит, и ошибка квантования тоже является не случайной. В этом случае спектр шума квантования оказывается не равномерным и концентрируется в какой-то определенной области, что отрицательно сказывается на звучании цифрового сигнала. Существует несколько способов борьбы с этим явлением. Так, нежелательную концентрацию шума квантования в некоторой частотной области можно нейтрализовать путем подмешивания к исходному аналоговому сигналу некоторого слабого по мощности псевдослучайного шума. Этот шум минимизирует степень зависимости ошибок округления от формы преобразуемого сигнала, что хорошо рассеивает спектр шума квантования и делает его равномерным. Таким образом, описанный прием (называемый дизерингом, от англ. « dithering» – «дрожание») как бы подменяет нежелательный шум квантования искусственно подмешанным псевдослучайным шумом. При этом подмешанный псевдослучайный шум оказывается менее заметным на слух, чем тот шум квантования, какой получился бы без применения дизеринга. Еще один прием борьбы с уровнем шума квантования называется формовкой шума (от англ. " noise shaping”). Идея приема заключается в преднамеренном изменении формы исходного аналогового сигнала специальным образом, чтобы последующее квантование привело к появлению шума квантования, основная энергия которого расположилась бы в наименее заметных на слух частотных областях. Формирование шума с таким спектром достигают путем использования фильтра, моделирующего кривую равной громкости (об этой кривой мы говорили выше).

Импульсный сигнал, получаемый в результате аналогово-цифрового преобразования, из-за несовершенности преобразующих устройств имеет некоторые изъяны. Эти изъяны выражаются в случайных отклонениях длительностей прямоугольных импульсов от номинальной величины шага дискретизации, а также в неабсолютной крутизне фронтов импульсов. Говоря иначе, осуществление выборки сигнала при оцифровке происходит не через абсолютно равные промежутки времени, а с некоторыми случайными отклонениями от номинала, при этом результирующий импульсный сигнал вдобавок имеет неидеальную прямоугольную форму. Если, скажем, дискретизация проводится с частотой 44.1 кГц, то отсчеты берутся не точно каждые

секунды, а то чуть раньше, то чуть позднее. А так как входной сигнал постоянно меняется, то такая погрешность приводит к регистрации не совсем верного уровня сигнала. Описанный неприятный эффект называется джиттером (от англ. « jitter» – «дрожание») и по сути является исключительно результатом неабсолютной стабильности аппаратуры (АЦП). На слух джиттер воспринимается как некоторое дрожание сигнала на высоких частотах, при этом на низких частотах джиттер выражается в некотором «размазывании» спектра сигнала. Для борьбы с джиттером применяют высокостабильные тактовые генераторы. Следует заметить, что причиной появления джиттера может быть не только аналогово-цифровое преобразование, но и передача импульсного сигнала по цифровому каналу от одного устройства к другому. В этом случае появление джиттера является результатом неидеальной коммутации/синхронизации устройств и может быть устранено только путем использования аппаратуры, регенерирующей цифровой сигнал.

Рассмотрим, наконец, еще один неприятный эффект оцифровки, называемый гранулярным шумом. Гранулярным шумом(от англ. « granular noise») называют эффект нестабильности округления в процессе квантования. Если величина сигнала незначительно меняется около некоторой величины, являющейся границей между двумя соседними уровнями квантования, даже самые маленькие колебания величины сигнала вокруг этой границы могут вызывать заметные изменения результатов округления при квантовании значений амплитуды. Это связано с тем, что квантователь в этом случае округляет измеренное значение сигнала то до величины одного, то до величины второго из соседствующих уровней квантования.

3.4. Другие способы оцифровки.

Рассматривать все существующие способы оцифровки мы не будем, поскольку это потребовало бы от нас серьезного углубления в тему. Тем не менее, некоторые способы все же стоят пусть и беглого упоминания.

Так, рассмотренное выше однородное квантование является, конечно же, не единственным способом квантования. Как мы уже говорили, восприятие громкости звука человеком носит нелинейный характер – нарастание интенсивности звука как степенной функции воспринимается на слух как линейное нарастание громкости. Следовательно, изменения амплитуды слабого по интенсивности сигнала различаются слухом намного лучше, чем изменения амплитуды в областях высокой интенсивности. Это в свою очередь означает, что погрешность квантования сигнала в областях со слабой амплитудой оказывается намного более заметной, чем погрешность квантования в областях, где сигнал характеризуется высокими значениями интенсивности. Иными словами, в областях, где амплитуда сигнала является значительной, мы можем позволить себе допускать более высокую погрешность квантования, чем в областях со слабой амплитудой. Этот факт используется при неоднородном квантовании. С целью уменьшения влияния погрешности квантования на воспринимаемое качество оцифровки, способ неоднородного квантования предусматривает разбиение амплитудной шкалы на уровни по логарифмическому закону. Такой способ квантования называют логарифмическим квантованием. При использовании логарифмической амплитудной шкалы, в области слабой амплитуды оказывается большее число уровней квантования, чем в области сильной амплитуды (при этом, общее число уровней квантования остается таким же, как и в случае однородного квантования). Соответственно, при квантовании, слабый по величине сигнал округляется на меньшие значения, чем более интенсивный сигнал. Это автоматически учитывает психоакустические особенности слуха и обеспечивает менее заметные на слух погрешности квантования. Аналогово-цифровое преобразование, основанное на применении метода неоднородного квантования, называется неоднородной импульсно-кодовой модуляцией - неоднородной ИКМ ( Nonuniform PCM).

Альтернативным способом аналогово-цифрового преобразования является разностная импульсно-кодовая модуляция – разностная ИКМ(англ. « Differential PCM» – DPCM). До сих пор мы говорили о методе импульсно-кодовой модуляции, подразумевающей квантование абсолютных значений сигнала. В случае разностной ИКМ квантованию подвергают относительные значения величины амплитуды. В полной аналогии с ИКМ, разностная ИКМ может сочетаться с использованием как однородного, так и неоднородного методов квантования. Разностное кодирование имеет много вариаций, причем некоторые из них подразумевают использование квантователя с предсказателем сигнала. Такие квантователи производят меньше ошибок квантования за счет предсказания сигнала на каждом шаге преобразования, опираясь на информацию об уже известных предыдущих значениях сигнала.

3.5. Кодирование цифровых аудио сигналов

По сути дела, та или иная цифровая форма представления аналоговых аудио сигналов уже является способом кодирования – последовательность чисел, описывающая аналоговый аудио сигнал, сама по себе является цифровым кодом. Однако кодирование, о котором мы будем сейчас говорить, - это нечто другое. Сейчас рассмотрим методы кодирования цифровых аудио сигналов.

Оцифрованный аудио сигнал «в чистом виде» (например, в форме одной из рассмотренных выше вариаций ИКМ) является достаточно точной, но не самой компактной формой записи исходного аналогового сигнала.

Посудите сами. Ч тобы получить полную информацию об оригинальном аналоговом сигнале в частотной полосе от 0 до 20 кГц (в слышимом диапазоне частот), аналоговый сигнал необходимо дискретизовать с частотой не менее 40 кГц. Так, стандарт CD - DA (стандарт записи данных на привычных для всех аудио компакт-дисках) устанавливает следующие параметры кодирования: двух- или одноканальная запись в формате ИКМ с частотой дискретизации 44.1 кГц и разрядностью квантования 16 бит. Один час музыки в таком формате занимает объем около 600 Мб (60 минут * 60 секунд * 2 канала * 44100 отсчетов в секунду * 2 байта на отсчет = около 605 Мб). Учитывая, что, например, музыкальная коллекция рядового любителя музыки вполне может насчитывать 5000 треков средней продолжительностью около 3 минут каждый, объем памяти, требуемый для ее хранения в исходном цифровом виде, оказывается очень внушительным. Поэтому хранение относительно больших объемов аудио данных, гарантирующее достаточно хорошее качество звучания, требует применения разных «ухищрений», позволяющих уплотнить данные.

В целом, все существующие методы кодирования аудио информации можно условно разделить всего на два типа.

1.; Сжатие данных без потерь (англ. « lossless coding») - это способ кодирования (уплотнения) цифровой аудио информации, позволяющий осуществлять стопроцентное восстановление исходных данных из сжатого потока (под понятием «исходные данные» здесь подразумевается исходный вид оцифрованных аудио данных). К такому способу уплотнения данных прибегают в случаях, когда требуется абсолютное, стопроцентное сохранение качества оригинального звучания аудио данных. Существующие сегодня алгоритмы беспотерьного сжатия позволяют сократить занимаемый данными объем на 20-50% и при этом гарантировать стопроцентное восстановление исходного цифрового материала из сжатых данных. Механизмы работы подобных кодеров сходны с механизмами работы архиваторов общих данных, таких, как, например, ZIP или RAR, но при этом адаптированы специально для сжатия аудио данных. Беспотерьное кодирование , хотя и идеально с точки зрения сохранности качества аудио материалов, но оказывается неспособным обеспечить высокий уровень компрессии.

2. Существует другой, более современный путь уплотнения данных. Это так называемое сжатие данных с потерями (англ. « lossy coding»).Цель такого кодирования заключается в достижении любыми путями максимально высокого коэффициента компрессии данных при сохранении качества их звучания на приемлемом уровне. В основе идеи кодирования с потерями лежит два простых основополагающих соображения:

исходные цифровые аудио данные избыточны – они содержат много лишней, бесполезной для слуха информации, которую можно удалить, тем самым, повысив коэффициент компрессии;
требования к качеству звучания аудио материала могут быть разными и зависят от конкретных целей и сфер использования.

Кодирование с потерями потому и называется «с потерями», что приводит к утрате некоторой части аудио информации. Такое кодирование приводит к тому, что декодированный сигнал при воспроизведении звучит похоже на оригинальный, но фактически перестает быть ему идентичным. В основе большинства методов кодирования с потерями лежит использование психоакустических свойств слуховой системы человека, а также различных хитростей, связанных с переквантованием и передискретизацией сигнала. В частотности, в процессе компрессии аудио данные анализируются кодером на предмет выявления различных деталей звучания, которыми можно пренебречь. Замаскированные частоты, неслышимые и слабослышимые детали звучания – всем этим можно пожертвовать с целью достижения более высокого значения коэффициента компрессии. Там, где в звучании важна лишь разборчивость (например, в телефонии, где наличие частот выше 4 кГц не является необходимым), аудио информация в процессе кодирования подвергается серьезному «упрощению», что вкупе с использованием «умных» квантователей и удачных «жадных» алгоритмов компрессии данных позволяет достичь высочайших степеней компрессии (1 : 50 и выше). Там, где качеству звучания предъявляются более высокие требования (например, в портативных и бытовых аудио устройствах), аудио материалы подвергают более щадящему кодированию. Надо отметить, что степень агрессивности кодера по отношению к деталям звучания может регулироваться (эта способность, впрочем, зависит от конкретной реализации). В среднем, современные кодеры даже при столь высокой степени компрессии, как 1 : 10 позволяют обеспечить отличное звучание, качество которого средним слушателем на средней аппаратуре оценивается как равное качеству звучания исходных аудио данных.

3.6. Беспотерьные кодеры

Сегодня существует множество кодеров аудио данных, основанных на идее кодирования с потерями. Вот только некоторые из них: MPEG-1 Layer 3 (всем известный как MP3), Windows Media Audio ( WMA), Ogg Vorbis ( OGG), MusePack ( MPC), MPEG-2/4 AAC и другие. Давайте чуть подробнее остановимся на их рассмотрении.

3.6.1 MPEG-1 Layer 3

Известный сегодня фактически каждому пользователю компьютера под незамысловатой маркой « MP3» кодек MPEG-1 Layer 3 – это наиболее старый из всех распространенных на сегодня lossy-кодеков. Своим названием он обязан группе MPEG, которая занималась его разработкой и которая продолжает разрабатывать новые аудио и видео кодеки. О ней стоит упомянуть отдельно.

MPEG расшифровывается как «Moving Picture Coding Experts Group», дословно – «группа экспертов по кодированию подвижных изображений». Группа MPEG ведет свою историю с января 1988 года и занимается разработкой различных алгоритмов и стандартов кодирования аудио и видео информации. В собраниях MPEG принимают участие несколько сотен специалистов из более чем двухсот крупных и мелких компаний. При этом большая часть участников MPEG - это специалисты, занятые в тех или иных научных и академических учреждениях. На сегодняшний день группой MPEG разработаны следующие стандарты:

MPEG-1 (принят в ноябре 1992 г.) - стандарт кодирования, хранения и декодирования подвижных изображений и аудио информации;
MPEG-2 (принят в ноябре 1994 г.) - стандарт кодирования данных для цифрового телевещания;
MPEG-4 - стандарт для мультимедиа приложений (в его разработке еще далеко не поставлена точка);
MPEG-7 - универсализованный стандарт работы с мультимедиа информацией, предназначенный для обработки, компоновки и управления мультимедиа информацией.

Стандарт MPEG-1 представляет собой, по сути, целый комплект аудио и видео стандартов. Согласно стандартам ISO ( International Standards Organization), аудио часть MPEG-1 включает в себя три алгоритма различных уровней сложности: Layer 1 (уровень 1), Layer 2 (уровень 2) и Layer 3 (уровень 3, называемый большинством просто « MP 3»). Общая структура процесса кодирования одинакова для всех уровней MPEG-1 . Вместе с тем, несмотря на схожесть уровней в общем подходе к кодированию, уровни различаются по целевому использованию и задействованным в кодировании внутренним механизмам. Для каждого уровня определен свой формат записи выходного потока данных и, соответственно, свой алгоритм декодирования. Алгоритмы MPEG-1 основаны в целом на изученных свойствах восприятия звуковых сигналов слуховым аппаратом человека – о них мы упоминали выше.

Процедура кодирования аудио информации, вкратце, представляет собой следующий процесс. В начале кодирования входной цифровой аудио поток в формате PCM с помощью цифровых фильтров разделяется на несколько частотных полос. Дальнейший процесс зависит от Layer ' a .

В случае Layer 3 (то есть, в случае MP 3) в каждой полосе сигнал раскладывается на частотные составляющие спектра (применяется косинусное преобразование - MDCT , частный случай преобразования Фурье) в результате чего получается набор коэффициентов разложения. Вся дальнейшая обработка сигнала нацелена на максимально возможное упрощение сигнала с целью достижения наиболее эффективного переквантования этих коэффициентов и их записи. Спектр входного сигнала очищается от заведомо неслышных составляющих - низкочастотных шумов и наивысших гармоник. На следующем этапе производится психоакустический анализ кодируемого аудио материала в диапазоне слышимых частот. Вышеописанные процессы преобразования позволяют исключить из исходного аудио материала больше половины информации. На заключительном этапе кодирования производится сжатие уже готового потока данных с использованием упрощенного аналога алгоритма Хаффмана ( Huffman).

В случае сжатия данных с использованием Layer 2 идея упрощения сигнала остается той же, однако переквантованию подвергаются не коэффициенты MDCT , а отсчеты амплитудного сигнала в каждой частотной полосе. Здесь нужно отметить, что в соответствии с приблизительно аналогичной схемой кодирования работают и некоторые другие lossy -кодеки.

Комплект MPEG-1 предусмотрен для кодирования аудио сигналов, оцифрованных с частотой дискретизации 32, 44.1 и 48 КГц. Три упомянутых выше уровня MPEG-1 различаются свой целевой направленностью, механизмами кодирования и, таким образом, обеспечивают различные степени сжатия. Так, например, аудио данные в формате [ИКМ / 44.1 кГц / 16 бит / стерео], Layer 1 позволяет сохранить без особо ощутимых потерь качества при скорости потока (битрейте) 384 Кбит/с, что составляет 4-х кратный выигрыш в занимаемом данными объеме; Layer 2 обеспечивает субъективно такое же качество при 192 - 224 Кбит/с, а Layer III ( MP 3) - при 128-160. Нельзя говорить о выигрыше или проигрыше одного уровня перед другим, так как каждый уровень разработан для достижения своей собственной цели. Например, преимущество Layer 3 заключается в том, что фактически он позволяет сжимать информацию в 8-12 раз (в зависимости от битрейта) без сильно ощутимых потерь качества исходного звучания. При этом, однако, обеспечиваемая им скорость компрессии является самой низкой среди всех уровней. Layer 2 потенциально способен обеспечить более высокое качество кодирования в виду более «легкой» внутренней обработки сигнала в процессе преобразования. В то же время, Layer 2 не позволяет достичь таких высоких степеней компрессии, какие достигаются при использовании Layer 3.

3.6.2 Ogg Vorbis

Одной из негативных сторон кодека MP3 ( MPEG-1 Layer 3) являлась и является его коммерческая основа, заключающаяся как минимум в том, что каждый производитель, создающий новый программный или аппаратный MP3-кодер, обязан платить отчисления изобретателям кодека. Эта ситуация не могла не вызывать недовольство среди пользователей и разработчиков. Так появились независимые разработки в области компрессии аудио.

Кодек Ogg Vorbis вышел в свет в июне 2000 года. Он является частью проекта Ogg Squish, нацеленного на создание полностью открытой системы мультимедиа. Разработчиком проекта является группа, именующаяся Xiphophorus. В основе Ogg Vorbis лежат те же идеи, что и в основе MPEG-1 Layer II, при этом Ogg Vorbis использует свои собственные оригинальные математические алгоритмы, а также собственную психоакустическую модель, что освобождает его разработчиков от необходимости выплачивать какие-то лицензионные отчисления или производить иные выплаты сторонним фирмам-производителям. Кодек Ogg Vorbi s, будучи созданным позже MPEG-1, является несколько более развитым. Он рассчитан на сжатие данных на всех возможных битрейтах без ограничений, от 8 Кбит/с до 512 Кбит/с. Кодер позволяет хранить внутри файлов-контейнеров подробные комментарии об исполнителе и названии композиции, а также предусматривает возможность кодирования нескольких каналов аудио (более двух, теоретически до 255), возможность редактирования содержимого файлов и поддержку техники «масштабируемых бит