Как выполняется оцифровка звука
В основе кодирования звука с использованием ПК лежит процесс преобразования колебаний воздуха в колебания электрического тока и последующая дискретизация аналогового электрического сигнала. Кодирование и воспроизведение звуковой информации осуществляется с помощью специальных программ (редактор звукозаписи). Качество воспроизведения закодированного звука зависит от частоты дискретизации и её разрешения (глубины кодирования звука — количество уровней) [1] .
2. Понятие звукозаписи
Звукозапись — это процесс сохранения информации о параметрах звуковых волн.
Способы записи звука разделяются на аналоговые и цифровые. При аналоговой записи на носителе размещается непрерывный «слепок» звуковой волны. Так, на грампластинке пропечатывается непрерывная канавка, изгибы которой повторяют амплитуду и частоту звука.
Аналоговый способ записи звука
Цифровой способ записи звука
Принципы оцифровки звука
Цифровой звук – это аналоговый звуковой сигнал, представленный посредством дискретных численных значений его амплитуды .
Оцифровка звука — технология поделенным временным шагом и последующей записи полученных значений в численном виде .
Другое название оцифровки звука — аналогово-цифровое преобразование звука.
Оцифровка звука включает в себя два процесса:
- процесс дискретизации (осуществление выборки) сигнала по времени
- процесс квантования по амплитуде.
Дискретизация по времени
Процесс дискретизации по времени — процесс получения значений сигнала, который преобразуется, с определенным временным шагом — шагом дискретизации . Количество замеров величины сигнала, осуществляемых в одну секунду, называют частотой дискретизации или частотой выборки , или частотой сэмплирования (от англ. « sampling» – «выборка»). Чем меньше шаг дискретизации, тем выше частота дискретизации и тем более точное представление о сигнале нами будет получено.
Это подтверждается теоремой Котельникова (в зарубежной литературе встречается как теорема Шеннона, Shannon). Согласно ей, аналоговый сигнал с ограниченным спектром точно описуем дискретной последовательностью значений его амплитуды , если эти значения берутся с частотой, как минимум вдвое превышающей наивысшую частоту спектра сигнала. То есть, аналоговый сигнал , в котором наивысшая частота спектра равна F m , может быть точно представлен последовательностью дискретных значений амплитуды, если для частоты дискретизации F d выполняется: F d >2F m .
На практике это означает, что для того, чтобы оцифрованный сигнал содержал информацию о всем диапазоне слышимых частот исходного аналогового сигнала (0 – 20 кГц) необходимо, чтобы выбранное значение частоты дискретизации составляло не менее 40 кГц. Количество замеров амплитуды в секунду называют частотой дискретизации (в случае, если шаг дискретизации постоянен).
Основная трудность оцифровки заключается в невозможности записать измеренные значения сигнала с идеальной точностью.
Линейное (однородное) квантование амплитуды
Отведём для записи одного значения амплитуды сигнала в памяти компьютера N бит. Значит, с помощью одного N -битного слова можно описать 2 N разных положений. Пусть амплитуда оцифровываемого сигнала колеблется в пределах от -1 до 1 некоторых условных единиц. Представим этот диапазон изменения амплитуды — динамический диапазон сигнала — в виде 2 N -1 равных промежутков, разделив его на 2 N уровней — квантов. Теперь, для записи каждого отдельного значения амплитуды, его необходимо округлить до ближайшего уровня квантования. Этот процесс носит название квантования по амплитуде. Квантование по амплитуде – процесс замены реальных значений амплитуды сигнала значениями, приближенными с некоторой точностью. Каждый из 2 N возможных уровней называется уровнем квантования, а расстояние между двумя ближайшими уровнями квантования называется шагом квантования. Если амплитудная шкала разбита на уровни линейно, квантование называют линейным (однородным).
Точность округления зависит от выбранного количества (2 N) уровней квантования, которое, в свою очередь, зависит от количества бит (N), отведенных для записи значения амплитуды. Число N называют разрядностью квантования (подразумевая количество разрядов, то есть бит, в каждом слове), а полученные в результате округления значений амплитуды числа – отсчетами или сэмплами (от англ. “ sample” – “замер”). Принимается, что погрешности квантования, являющиеся результатом квантования с разрядностью 16 бит, остаются для слушателя почти незаметными. Этот способ оцифровки сигнала — дискретизация сигнала во времени в совокупности с методом однородного квантования — называется импульсно-кодовой модуляцией, ИКМ (англ. Pulse Code Modulation – PCM).
Оцифрованный сигнал в виде набора последовательных значений амплитуды уже можно сохранить в памяти компьютера. В случае, когда записываются абсолютные значения амплитуды, такой формат записи называется PCM (Pulse Code Modulation). Стандартный аудио компакт-диск (CD-DA), применяющийся с начала 80-х годов 20-го столетия, хранит информацию в формате PCM с частотой дискретизации 44.1 кГц и разрядностью квантования 16 бит.
Другие способы оцифровки
Аналогово-цифровые преобразователи (АЦП)
Вышеописанный процесс оцифровки звука выполняется аналогово-цифровыми преобразователями (АЦП) .
Это преобразование включает в себя следующие операции:
- Ограничение полосы частот производится при помощи фильтра нижних частот для подавления спектральных компонент, частота которых превышает половину частоты дискретизации.
- Дискретизацию во времени, то есть замену непрерывного аналогового сигнала последовательностью его значений в дискретные моменты времени — отсчетов. Эта задача решается путём использования специальной схемы на входе АЦП — устройства выборки-хранения.
- Квантование по уровню представляет собой замену величины отсчета сигнала ближайшим значением из набора фиксированных величин — уровней квантования.
- Кодирование или оцифровку, в результате которого значение каждого квантованного отсчета представляется в виде числа, соответствующего порядковому номеру уровня квантования.
Делается это следующим образом: непрерывный аналоговый сигнал «режется» на участки, с частотой дискретизации, получается цифровой дискретный сигнал, который проходит процесс квантования с определенной разрядностью, а затем кодируется, то есть заменяется последовательностью кодовых символов. Для записи звука в полосе частот 20-20 000 Гц, требуется частота дискретизации от 44,1 и выше (в настоящее время появились АЦП и ЦАП c частотой дискретизации 192 и даже 384 кГц). Для получения качественной записи достаточно разрядности 16 бит, однако для расширения динамического диапазона и повышения качества звукозаписи используется разрядность 24 (реже 32) бита.
Запись звука
Звук — это звуковая волна с непрерывно меняющимися амплитудой и частотой. Частота сигнала определяет тон звука: чем она больше, тем тон звука выше. Амплитуда определяет громкость звука: чем она больше, тем звук громче.
Для оцифровки (дискретизации) звука он разбивается на составляющие, каждой из которых присваивается числовой код. Дискретизацию звукового сигнала осуществляет звуковая карта компьютера (или видеоадаптер), а именно — ее аналого-цифровой преобразователь (АЦП).
Звуковая карта представляет собой небольшую плату с набором микросхем со специальными разъемами для подключения микрофона, динамиков, клавиатуры и других устройств. Звуковые карты предоставляют широкий спектр возможностей работы со звуком, например, запись звука с микрофона или конструирование сложных полифонических мелодий.
Запись звука происходит через микрофон, который создает непрерывный электрический сигнал, а воспроизведение — через динамики (акустические колонки) или наушники, которые звучат также под действием непрерывного электрического сигнала. В результате происходит преобразование аналоговой формы представления звука в дискретную и обратное преобразование из дискретной формы в аналоговую. Первый процесс называется аналого-цифровым преобразованием (АЦП), второй — цифро-аналоговым преобразованием (ЦАП). Звуковая карта совмещает функции АЦП и ЦАП.
Преобразователь АЦП через определенные интервалы времени (с определенной частотой) измеряет уровень звукового сигнала на входе и сохраняет эту числовую величину на диске. Последовательность этих чисел и составляет звуковой файл.
Чем чаще измеряется уровень звукового сигнала, тем точнее цифровой сигнал воспроизводит форму аналогового. Этот параметр называется частотой дискретизации, или частотой сэмплирования. Она может принимать значения от 8 до 48 кГц.
Напряжение на входе звуковой карты измеряется с некоторой точностью, зависящей от разрядности сохраняемого числа. Этот параметр называется глубиной, или разрядностью звука (битрейтом, англ. bit rate). Современные 16–битные звуковые карты обеспечивают 16–битную глубину кодирования звука, что дает возможность кодирования 65 536 (= 2 16 ) различных уровней громкости.
На аудиодисках звуковая информация представлена с частотой дискретизации 44,1 кГц (вдвое выше того, что может слышать человеческое ухо) и глубиной звука 16 бит. Современные профессиональные звуковые карты могут записывать звук с частотой 96 кГц и 4–байтной глубиной звука (и даже выше), что обеспечивает высокое качество кодирования.
После оцифровки звука используют специальные программы редактирования звуковых файлов (редакторы звукозаписей) для монтажа музыки, ее реставрации, добавления спецэффектов и т. п.
Оцифрованный звук представляется в звуковых редакторах в наглядной форме, поэтому операции копирования, перемещения и удаления частей звуковой дорожки легко осуществить с помощью мыши. Кроме того, можно накладывать звуковые дорожки друг на друга (микшировать звуки) и применять различные акустические эффекты (эхо, воспроизведение в обратном направлении и др.).
Звуковые редакторы позволяют также изменять качество цифрового звука и объем звукового файла, изменяя частоту дискретизации и глубину кодирования. Оцифрованный звук можно сохранять в звуковых файлах в универсальном формате без сжатия WAV или в формате со сжатием МР3.
Непосредственная запись звуковой волны приводит к большим размерам файлов. Поэтому было разработано множество форматов звуковых файлов, позволяющих сохранять звук более компактно. Файлы, сжатые с потерей качества, называются lossy (например, MP3, OGG, WMA), файлы без потери качества — loseless (например, WAV, FLAC). В lossy–форматах применяется не только сжатие, но и специальное кодирование звука, выбрасывается часть информации, недоступная человеческому слуху, которую нельзя будет восстановить. В некоторых loseless–форматах также происходит сжатие, но обратимое. Наиболее часто используемые форматы звуковых файлов:
- WAVE (.wav) — широко распространенный формат для хранения звуковых файлов. Файлы в этом формате имеют большой размер, зависящий от частоты дискретизации, глубины звука, его продолжительности, моно– или стереозвука.
- MPEG-3 (.mp3) — наиболее популярный формат звуковых файлов. При кодировании из мелодии удаляются звуки, не воспринимаемые человеческим ухом (обычно человек воспринимает диапазон от 20 Гц до 20 кГц).
- MIDI (.mid) — эти файлы содержат не сам звук, а команды для его воспроизведения (звук синтезируется). Если звуковая карта не содержит синтезатора, то такой звук воспроизводиться не будет.
- Real Audio (.ra, .ram) — разработан для воспроизведения звука в Интернете в режиме реального времени. Имеет не очень высокое качество записи, но небольшой размер, который достигается методами сжатия.
- MOD (.mod) — музыкальный формат, сохраняющий образцы оцифрованного звука. Эти образцы можно использовать как шаблоны для собственных звуковых произведений. Файлы в этом формате содержат набор образцов звука, ноты и информацию о длительности. Каждая нота воспроизводится с помощью одного из имеющихся в начале файла звуковых шаблонов. Такой файл, в отличие от MIDI–файла, полностью задает звук, что позволяет воспроизводить его на любой компьютерной платформе.
◊ Пример. Звук воспроизводится в течение 5 секунд при частоте 44,1 кГц и глубине звука 8 бит. Определить его размер (в Мб).
Решение . 44 100 Гц • 5 с • 8 бит =1 764 000 бит = 220 500 байт = 215 Кб = 0,2 Мб.
Ответ: 0,2 Мб.
Содержание
Цифровой звук — это аналоговый звуковой сигнал, представленный посредством дискретных численных значений его амплитуды [2] .
Оцифровка звука — технология поделенным временным шагом и последующей записи полученных значений в численном виде [2] .
Другое название оцифровки звука — аналогово-цифровое преобразование звука.
Оцифровка звука включает в себя два процесса:
- процесс дискретизации (осуществление выборки) сигнала по времени
- процесс квантования по амплитуде.
Дискретизация по времени [ править | править код ]
Процесс дискретизации по времени — процесс получения значений сигнала, который преобразуется с определенным временным шагом — шагом дискретизации . Количество замеров величины сигнала, осуществляемых в единицу времени, называют частотой дискретизации или частотой выборки, или частотой семплирования (от англ. « sampling» — «выборка»). Чем меньше шаг дискретизации, тем выше частота дискретизации и тем более точное представление о сигнале нами будет получено.
Это подтверждается теоремой Котельникова (в зарубежной литературе встречается как теорема Шеннона, Shannon). Согласно ей, аналоговый сигнал с ограниченным спектром точно описуем дискретной последовательностью значений его амплитуды, если эти значения берутся с частотой, как минимум вдвое превышающей наивысшую частоту спектра сигнала. То есть, аналоговый сигнал, в котором находится частота спектра равная Fm, может быть точно представлен последовательностью дискретных значений амплитуды, если для частоты дискретизации Fd выполняется: Fd>2Fm.
На практике это означает, что для того, чтобы оцифрованный сигнал содержал информацию о всем диапазоне слышимых частот исходного аналогового сигнала (20 Гц — 20 кГц) необходимо, чтобы выбранное значение частоты дискретизации составляло не менее 40 кГц. Количество замеров амплитуды в секунду называют частотой дискретизации (в случае, если шаг дискретизации постоянен).
Основная трудность оцифровки заключается в невозможности записать измеренные значения сигнала с идеальной точностью (хотя исходя из теоремы Шенона и Котельникова это возможно)
Линейное (однородное) квантование амплитуды [ править | править код ]
Отведём для записи одного значения амплитуды сигнала в памяти компьютера N бит. Значит, с помощью одного N -битного слова можно описать 2 N разных положений. Пусть амплитуда оцифровываемого сигнала колеблется в пределах от −1 до 1 некоторых условных единиц. Представим этот диапазон изменения амплитуды — динамический диапазон сигнала — в виде 2 N −1 равных промежутков, разделив его на 2 N уровней — квантов. Теперь, для записи каждого отдельного значения амплитуды, его необходимо округлить до ближайшего уровня квантования. Этот процесс носит название квантования по амплитуде. Квантование по амплитуде — процесс замены реальных значений амплитуды сигнала значениями, приближенными с некоторой точностью. Каждый из 2 N возможных уровней называется уровнем квантования, а расстояние между двумя ближайшими уровнями квантования называется шагом квантования. Если амплитудная шкала разбита на уровни линейно, квантование называют линейным (однородным).
Точность округления зависит от выбранного количества (2 N ) уровней квантования, которое, в свою очередь, зависит от количества бит (N), отведенных для записи значения амплитуды. Число N называют разрядностью квантования (подразумевая количество разрядов, то есть бит, в каждом слове), а полученные в результате округления значений амплитуды числа — отсчетами или семплами (от англ. « sample» — «замер»). Принимается, что погрешности квантования, являющиеся результатом квантования с разрядностью 16 бит, остаются для слушателя почти незаметными. Этот способ оцифровки сигнала — дискретизация сигнала во времени в совокупности с методом однородного квантования — называется импульсно-кодовой модуляцией, ИКМ (англ. Pulse Code Modulation — PCM).
Оцифрованный сигнал в виде набора последовательных значений амплитуды уже можно сохранить в памяти компьютера. В случае, когда записываются абсолютные значения амплитуды, такой формат записи называется PCM (Pulse Code Modulation). Стандартный аудио компакт-диск (CD-DA), применяющийся с начала 80-х годов 20-го столетия, хранит информацию в формате PCM с частотой дискретизации 44.1 кГц и разрядностью квантования 16 бит.
Другие способы оцифровки [ править | править код ]
- Способ неоднородного квантования предусматривает разбиение амплитудной шкалы на уровни по логарифмическому закону. Такой способ квантования называют логарифмическим квантованием. При использовании логарифмической амплитудной шкалы, в области слабой амплитуды оказывается большее число уровней квантования, чем в области сильной амплитуды (при этом, общее число уровней квантования остается таким же, как и в случае однородного квантования). Аналогово-цифровое преобразование, основанное на применении метода неоднородного квантования, называется неоднородной импульсно-кодовой модуляцией — неоднородной ИКМ (Nonuniform PCM).
- Альтернативным способом аналогово-цифрового преобразования является разностная импульсно-кодовая модуляция — разностная ИКМ (англ. « Differential PCM») — в случае разностной ИКМ квантованию подвергают не саму амплитуду, а относительные значения величины амплитуды. В полной аналогии с ИКМ, разностная ИКМ может сочетаться с использованием как однородного, так и неоднородного методов квантования. Разностное кодирование имеет много разных вариантов [3] .
Аналогово-цифровые преобразователи (АЦП) [ править | править код ]
Вышеописанный процесс оцифровки звука выполняется аналогово-цифровыми преобразователями (АЦП).
Это преобразование включает в себя следующие операции:
- Ограничение полосы частот производится при помощи фильтра нижних частот для подавления спектральных компонент, частота которых превышает половину частоты дискретизации.
- Дискретизацию во времени, то есть замену непрерывного аналогового сигнала последовательностью его значений в дискретные моменты времени — отсчетов. Эта задача решается путём использования специальной схемы на входе АЦП — устройства выборки-хранения.
- Квантование по уровню представляет собой замену величины отсчета сигнала ближайшим значением из набора фиксированных величин — уровней квантования.
- Кодирование или оцифровку, в результате которого значение каждого квантованного отсчета представляется в виде числа, соответствующего порядковому номеру уровня квантования.
Делается это следующим образом: непрерывный аналоговый сигнал «режется» на участки, с частотой дискретизации, получается цифровой дискретный сигнал, который проходит процесс квантования с определенной разрядностью, а затем кодируется, то есть заменяется последовательностью кодовых символов. Для записи звука в полосе частот 20-20 000 Гц, требуется частота дискретизации от 44,1 и выше (в настоящее время появились АЦП и ЦАП c частотой дискретизации 192 и даже 384 кГц). Для получения качественной записи достаточно разрядности 16 бит, однако для расширения динамического диапазона и повышения качества звукозаписи используется разрядность 24 (реже 32) бита.
Основные методы кодирования звуковой информации
Существуют различные методы кодирования звуковой информации двоичным кодом, среди которых выделяют два основных направления: метод FM и метод Wave-Table .
Метод FM (Frequency Modulation ) основан на том, что теоретически любой сложный звук можно разложить на последовательность простейших гармонических сигналов разных частот, каждый из которых будет представлять собой правильную синусоиду, а это значит, что его можно описать кодом. Процесс разложения звуковых сигналов в гармонические ряды и их представление в виде дискретных цифровых сигналов происходит в специальных устройствах, которые называют «аналогово-цифровые преобразователи» (АЦП).
Рисунок 2. Преобразование звукового сигнала в дискретный сигнал
На рисунке 2а изображен звуковой сигнал на входе АЦП, а на рисунке 2б изображен уже преобразованный дискретный сигнал на выходе АЦП.
Для обратного преобразования при воспроизведении звука, который представлен в виде числового кода, используют цифро-аналоговые преобразователи (ЦАП). Процесс преобразования звука изображен на рис. 3. Данный метод кодирования не даёт хорошего качества звучания, но обеспечивает компактный код.
Рисунок 3. Преобразование дискретного сигнала в звуковой сигнал
На рисунке 3а представлен дискретный сигнал, который мы имеем на входе ЦАП, а на рисунке 3б представлен звуковой сигнал на выходе ЦАП.
Таблично-волновой метод (Wave-Table ) основан на том, что в заранее подготовленных таблицах хранятся образцы звуков окружающего мира, музыкальных инструментов и т. д. Числовые коды выражают высоту тона, продолжительность и интенсивность звука и прочие параметры, характеризующие особенности звука. Поскольку в качестве образцов используются «реальные» звуки, качество звука, полученного в результате синтеза, получается очень высоким и приближается к качеству звучания реальных музыкальных инструментов.