Лабораторная работа. Обработка звуковой информации
— изучение использования средств работы с аудио информацией в управлении организацией;
— освоение принципов выбора техники цифровой звукозаписи и обработки аудио файлов;
— овладение навыками использования он-лайн сервисов для обработки аудио файлов.
Сайт: | Электронное обучение ТГПУ им. Л.Н. Толстого |
Курс: | Технические средства управления |
Книга: | Лабораторная работа 11. Обработка звуковой информации |
Автор: | Алексеев Александр Юрьевич |
Дата: | 2015 |
2. Понятие звукозаписи
Звукозапись — это процесс сохранения информации о параметрах звуковых волн.
Способы записи звука разделяются на аналоговые и цифровые. При аналоговой записи на носителе размещается непрерывный «слепок» звуковой волны. Так, на грампластинке пропечатывается непрерывная канавка, изгибы которой повторяют амплитуду и частоту звука.
Аналоговый способ записи звука
Цифровой способ записи звука
Конспект урока «Представление звука в компьютере»
· оцифровка вводимого звукового сигнала;
· качество цифрового звука;
· виды кодирования звуковых файлов.
С начала 90-ых годов персональные компьютеры получили возможность работать со звуковой информацией.
Каждый компьютер, имеющий звуковую плату, микрофон и колонки, может записывать, сохранять и воспроизводить звуковую информацию.
С помощью специальных программных средств (редакторов звукозаписей) открываются широкие возможности по созданию, редактированию и прослушиванию звуковых файлов. Создаются программы распознавания речи и, в результате, появляется возможность управления компьютером при помощи голоса.
А как же представляется звук в компьютере?
Вообще звук – это процесс колебания воздуха или любой другой среды, в которой он распространяется. Звук характеризуется амплитудой (силой) и частотой (количеством колебаний в секунду).
Под звукозаписью понимают процесс сохранения звуковой информации на каком-либо носителе с помощью специальных устройств.
Ввод звука в компьютер производится с помощью звукового устройства, микрофона или радио, выход которого подключается к порту звуковой карты.
Рассмотрим подробнее процесс ввода звука в компьютер.
Звуковые сигналы непрерывны. С помощью микрофона звуковой сигнал превращается в непрерывный электрический сигнал. Но, как вы помните компьютер может работать только с цифровой информацией, поэтому если нам нужно обработать звук на компьютере, то его необходимо дискретизировать – то есть превратить в прерывистую, состоящую из отдельных частей, последовательность нулей и единиц.
Процессом преобразования звука из непрерывной формы в дискретную при записи и из дискретной в непрерывную при воспроизведении занимается звуковая карта или аудио адаптер.
Звуковая карта – это устройство для записи и воспроизведения звука на компьютере. То есть задача звуковой карты — с определённой частотой производить измерения уровня звукового сигнала и результаты измерения записывать в память компьютера. Этот процесс называют оцифровкой звука.
Промежуток времени между двумя измерениями называется периодом измерений — обозначается буквой Т и измеряется в секундах.
Обратная величина называется частотой дискретизации. Она обозначается буквой ν. Ровна 1/Т и измеряется в герцах.
Таким образом на качество преобразования звука влияет несколько условий:
• Частота дискретизации, то есть сколько раз в секунду будет измерен исходный сигнал.
• Разрядность дискретизации – количество битов, выделяемых для записи каждого результата измерений.
Результаты таких измерений представляются целыми положительными числами с конечным количеством разрядов. Как мы уже говорили, в таком случае получается дискретное конечное множество значений в ограниченном диапазоне.
Размер этого диапазона зависит от разрядности ячейки — регистра памяти звуковой карты.
То есть обратите внимание, снова работает главная формула информатики:
здесь i — это разрядность регистра. Также число i называют разрядностью дискретизации. Записанные данные сохраняются в файлах специальных звуковых форматов.
Две минуты записи цифрового аудиофайла занимают на диске 5,1 Мб. Частота дискретизации ровна 22050 Герц. Нужно найти разрядность аудиоадаптера.
При воспроизведении звукового файла цифровые данные преобразуются в электрический аналог звука. К звуковой карте подключаются наушники или звуковые колонки. С их помощью электрические колебания преобразуются в механические звуковые волны, которые воспринимают наши уши.
Таким образом, чем больше разрядность и частота дискретизации, тем точнее представляется звук в цифровой форме и тем больше размер файла, хранящего его.
Рассмотрим такой пример: Нужно определить качество звука (то есть какое это качество радиотрансляции или качество аудио-CD) если известно, что объём моноаудиофайла длительностью звучания в 10 секунд равен 940 Кб. Разрядность аудиоадаптера ровна 16 бит.
Рассмотрим ещё один пример. Аналоговый звуковой сигнал был дискретизирован сначала с использованием 256 уровней интенсивности сигнала (качество звучания радиотрансляции), а затем с использованием 65536 уровней интенсивности сигнала (качество звучания аудио-CD). Нужно найти во сколько раз различаются информационные объёмы оцифрованного звука?
Для работы со звуковой информацией на компьютере используются различные программы. Одни из них позволяют записать звук на цифровой носитель, другие — воспроизвести. Существуют программы, которые выполняют более сложную обработку звука. Такие программы называются редакторы звука. Например, можно вырезать фрагмент музыкального произведения или речи, объединить фрагменты, изменить тембр звучания, длительность воспроизведения создавать различные музыкальные эффекты, очищать звук от шумов, согласовывать с изображениями для создания мультимедийных продуктов и так далее.
При хранении оцифрованного звука приходится решать проблему уменьшения объёма звуковых файлов. Существует два способа кодирования звука: кодирования данных без потерь, позволяющего осуществлять стопроцентное восстановление данных из сжатого потока. А также кодирование данных с потерями. Позволяет добиться схожести звучания восстановленного сигнала с оригиналом при максимальном сжатии данных. Здесь используются различные алгоритмы, сжимающие оригинальный сигнал путём выкидывания из него слабо слышимых элементов.
Существует множество различных аудио форматов. Наиболее часто используются такие форматы как WAV и MP3. Тип формата обычно определяется расширением файла (то, что идёт после точки в имени файла mp3, wav, ogg, wma)
WAV – один из первых аудио-форматов. Обычно используется для хранения несжатых аудиозаписей, идентичных по качеству звука записям на компакт-дисках. В среднем одна минута звука в формате wav занимает около 10 Мб.
MP3 – наиболее распространённый в мире звуковой формат. MP3, как и многие другие форматы кодирует звук с потерей качества, то есть урезает звук, который не слышится человеческим ухом, тем самым уменьшая размер файла.
На текущий момент mp3 не является лучшим форматом по соотношению размера файла к качеству звучания, но в силу своей распространённости и поддерживаемости большинством устройств, многие хранят свои записи именно в нём.
Звуковая карта – это устройство для записи и воспроизведения звука на компьютере. Задача звуковой карты — с определённой частотой производить измерения уровня звукового сигнала и результаты измерения записывать в память компьютера. Этот процесс называют оцифровкой звука.
Качество оцифрованного звука зависит от:
• Частоты дискретизации, то есть сколько раз в секунду будет измерен исходный сигнал.
• и Разрядности дискретизации – то есть от количества битов, выделяемых для записи каждого результата измерений.
Существует два способа кодирования звука:
• кодирования данных без потерь, здесь осуществляется стопроцентное восстановление данных из сжатого потока;
• кодирование данных с потерями. Это способ позволяет добиться схожести звучания восстановленного сигнала с оригиналом при максимальном сжатии данных.
Запись звука
Звук — это звуковая волна с непрерывно меняющимися амплитудой и частотой. Частота сигнала определяет тон звука: чем она больше, тем тон звука выше. Амплитуда определяет громкость звука: чем она больше, тем звук громче.
Для оцифровки (дискретизации) звука он разбивается на составляющие, каждой из которых присваивается числовой код. Дискретизацию звукового сигнала осуществляет звуковая карта компьютера (или видеоадаптер), а именно — ее аналого-цифровой преобразователь (АЦП).
Звуковая карта представляет собой небольшую плату с набором микросхем со специальными разъемами для подключения микрофона, динамиков, клавиатуры и других устройств. Звуковые карты предоставляют широкий спектр возможностей работы со звуком, например, запись звука с микрофона или конструирование сложных полифонических мелодий.
Запись звука происходит через микрофон, который создает непрерывный электрический сигнал, а воспроизведение — через динамики (акустические колонки) или наушники, которые звучат также под действием непрерывного электрического сигнала. В результате происходит преобразование аналоговой формы представления звука в дискретную и обратное преобразование из дискретной формы в аналоговую. Первый процесс называется аналого-цифровым преобразованием (АЦП), второй — цифро-аналоговым преобразованием (ЦАП). Звуковая карта совмещает функции АЦП и ЦАП.
Преобразователь АЦП через определенные интервалы времени (с определенной частотой) измеряет уровень звукового сигнала на входе и сохраняет эту числовую величину на диске. Последовательность этих чисел и составляет звуковой файл.
Чем чаще измеряется уровень звукового сигнала, тем точнее цифровой сигнал воспроизводит форму аналогового. Этот параметр называется частотой дискретизации, или частотой сэмплирования. Она может принимать значения от 8 до 48 кГц.
Напряжение на входе звуковой карты измеряется с некоторой точностью, зависящей от разрядности сохраняемого числа. Этот параметр называется глубиной, или разрядностью звука (битрейтом, англ. bit rate). Современные 16–битные звуковые карты обеспечивают 16–битную глубину кодирования звука, что дает возможность кодирования 65 536 (= 2 16 ) различных уровней громкости.
На аудиодисках звуковая информация представлена с частотой дискретизации 44,1 кГц (вдвое выше того, что может слышать человеческое ухо) и глубиной звука 16 бит. Современные профессиональные звуковые карты могут записывать звук с частотой 96 кГц и 4–байтной глубиной звука (и даже выше), что обеспечивает высокое качество кодирования.
После оцифровки звука используют специальные программы редактирования звуковых файлов (редакторы звукозаписей) для монтажа музыки, ее реставрации, добавления спецэффектов и т. п.
Оцифрованный звук представляется в звуковых редакторах в наглядной форме, поэтому операции копирования, перемещения и удаления частей звуковой дорожки легко осуществить с помощью мыши. Кроме того, можно накладывать звуковые дорожки друг на друга (микшировать звуки) и применять различные акустические эффекты (эхо, воспроизведение в обратном направлении и др.).
Звуковые редакторы позволяют также изменять качество цифрового звука и объем звукового файла, изменяя частоту дискретизации и глубину кодирования. Оцифрованный звук можно сохранять в звуковых файлах в универсальном формате без сжатия WAV или в формате со сжатием МР3.
Непосредственная запись звуковой волны приводит к большим размерам файлов. Поэтому было разработано множество форматов звуковых файлов, позволяющих сохранять звук более компактно. Файлы, сжатые с потерей качества, называются lossy (например, MP3, OGG, WMA), файлы без потери качества — loseless (например, WAV, FLAC). В lossy–форматах применяется не только сжатие, но и специальное кодирование звука, выбрасывается часть информации, недоступная человеческому слуху, которую нельзя будет восстановить. В некоторых loseless–форматах также происходит сжатие, но обратимое. Наиболее часто используемые форматы звуковых файлов:
- WAVE (.wav) — широко распространенный формат для хранения звуковых файлов. Файлы в этом формате имеют большой размер, зависящий от частоты дискретизации, глубины звука, его продолжительности, моно– или стереозвука.
- MPEG-3 (.mp3) — наиболее популярный формат звуковых файлов. При кодировании из мелодии удаляются звуки, не воспринимаемые человеческим ухом (обычно человек воспринимает диапазон от 20 Гц до 20 кГц).
- MIDI (.mid) — эти файлы содержат не сам звук, а команды для его воспроизведения (звук синтезируется). Если звуковая карта не содержит синтезатора, то такой звук воспроизводиться не будет.
- Real Audio (.ra, .ram) — разработан для воспроизведения звука в Интернете в режиме реального времени. Имеет не очень высокое качество записи, но небольшой размер, который достигается методами сжатия.
- MOD (.mod) — музыкальный формат, сохраняющий образцы оцифрованного звука. Эти образцы можно использовать как шаблоны для собственных звуковых произведений. Файлы в этом формате содержат набор образцов звука, ноты и информацию о длительности. Каждая нота воспроизводится с помощью одного из имеющихся в начале файла звуковых шаблонов. Такой файл, в отличие от MIDI–файла, полностью задает звук, что позволяет воспроизводить его на любой компьютерной платформе.
◊ Пример. Звук воспроизводится в течение 5 секунд при частоте 44,1 кГц и глубине звука 8 бит. Определить его размер (в Мб).
Решение . 44 100 Гц • 5 с • 8 бит =1 764 000 бит = 220 500 байт = 215 Кб = 0,2 Мб.
Ответ: 0,2 Мб.
Звуковая информация
Принципы дискретизации звука («оцифровки» звука) отражены на рис. 1.11.
Рис. 1.11. Оцифровка звука (у — интенсивность (уровень) звукового сигнала, t — время)
Ввод звука в компьютер производится с помощью звукового устройства (микрофона, радио и др.)» выход которого подключается к порту звуковой карты. Задача звуковой карты — с определенной частотой производить измерения уровня звукового сигнала (преобразованного в электрические колебания) и результаты измерения записывать в память компьютера. Этот процесс называют оцифровкой звука.
Промежуток времени между двумя измерениями называется периодом измерений — τс. Обратная величина называется частотой дискретизации — 1/τ (герц). Чем выше частота измерений, тем выше качество цифрового звука.
Результаты таких измерений представляются целыми положительными числами с конечным количеством разрядов. Вы уже знаете, что в таком случае получается дискретное конечное множество значений в ограниченном диапазоне. Размер этого диапазона зависит от разрядности ячейки — регистра памяти звуковой карты. Снова работает формула 2 i , где i — разрядность регистра. Число i называют также разрядностью дискретизации. Записанные данные сохраняются в файлах специальных звуковых форматов.
Существуют программы обработки звука — редакторы звука, позволяющие создавать различные музыкальные эффекты, очищать звук от шумов, согласовывать с изображениями для создания мультимедийных продуктов и т. д. С помощью специальных устройств, генерирующих звук, звуковые файлы могут преобразовываться в звуковые волны, воспринимаемые слухом человека.
При хранении оцифрованного звука приходится решать проблему уменьшения объема звуковых файлов. Для этого кроме кодирования данных без потерь, позволяющего осуществлять стопроцентное восстановление данных из сжатого потока, используется кодирование данных с потерями. Цель такого кодирования — добиться схожести звучания восстановленного сигнала с оригиналом при максимальном сжатии данных. Это достигается путем использования различных алгоритмов, сжимающих оригинальный сигнал путем выкидывания из него слабослышимых элементов. Методов сжатия, а также программ, реализующих эти методы, существует много.
Для сохранения звука без потерь используется универсальный звуковой формат файлов WAV. Наиболее известный формат «сжатого» звука (с потерями) — MP3. Он обеспечивает сжатие данных в 10 раз и более.
Частота дискретизации звука
Одной из важных характеристик процесса кодирования звука является частота дискретизации, которая представляет собой количество измерений уровня сигнала за $1$ секунду:
- одно измерение в одну секунду соответствует частоте $1$ гигагерц (ГГц);
- $1000$ измерений в одну секунду соответствует частоте $1$ килогерц (кГц) .
Частота дискретизации звука — это количество измерений громкости звука за одну секунду.
Количество измерений может находиться в диапазоне от $8$ кГц до $48$ кГц, причем первая величина соответствует частоте радиотрансляции, а вторая — качеству звучания музыкальных носителей.
Чем выше частота и глубина дискретизации звука, тем более качественно будет звучать оцифрованный звук. Самое низкое качество оцифрованного звука, которое соответствует качеству телефонной связи, получается, когда частота дискретизации равна 8000 раз в секунду, глубина дискретизации $8$ битов, что соответствует записи одной звуковой дорожки (режим «моно»). Самое высокое качество оцифрованного звука, которое соответствует качеству аудио-CD, достигается, когда частота дискретизации равна $48000$ раз в секунду, глубина дискретизации $16$ битов, что соответствует записи двух звуковых дорожек (режим «стерео»).
Готовые работы на аналогичную тему
Представление и кодирование звуковой информации в компьютере
Для представления и кодирования звука используются специальное оборудование и программы. Рассмотрим весь процесс более подробно.
- Аудиоинформация, поступая из окружающей среды (например, по воздуху), преобразуется в электрический сигнал. Для этого используется такое устройство, как микрофон.
- После этого звук поступает на АЦП (аналого-цифровой преобразователь), где подвергается оцифровке.
- На последнем этапе информация (уже в двоичном виде) кодируется при помощи специальной программы – аудиокодека. На выходе получается файл в специальном формате (например, mp3), который можно хранить, воспроизводить и передавать.
Наибольший интерес представляет процесс оцифровки, также называемым аналого-цифровым преобразованием. В результате него аналоговый сигнал заменяется на цифровой.
Основной принцип аналогово-цифрового преобразования заключается в том, что через равные промежутки времени измеряется амплитуда волны. Также этот процесс называется дискретизация.
Дискретизация – это процесс в результате, которого непрерывная функция представляется в виде дискретной последовательности её значений. Схематично дискретизацию можно представить так:
Дискретизация характеризуется двумя такими величинами, как:
- Частота шага по времени;
- Шаг квантования.
Первая величина отображает, как часто берутся дискреты и измеряется в Герцах (количество измерений за одну секунду). Частота шага по времени находится по теореме Котельникова.
Шаг квантования характеризуется количеством уровней , до которых округляются величины амплитуды волны.
Количество уровней (ступенек) до которых округляются значения сигнала, зависит от аналого-цифрового преобразователя. На данный момент используются 16, 32 и 64 битные устройства.
Количество бит, затрачиваемое для номеров уровней, называется глубиной кодирования звуковой информации.
Глубина кодирования связано с количеством уровней по формуле:
Где i разрядность АЦП в битах.
Чем чаще берутся дискреты за единицу времени и больше глубина кодирования, тем выше качество звуковых данных на выходе и дороже АЦП.
Если есть сигнал — единичка, если нет — нолик
В статье «Пять поколений ЭВМ» перечисляется элементная база компьютеров разных поколений: электронные лампы, транзисторы, микросхемы. До сих пор ничего принципиально нового не появилось.
Перечисленные элементы четко распознают только два состояния: включено или выключено, есть сигнал или нет сигнала. Для того чтобы закодировать эти два состояния, достаточно двух цифр: 0 (нет сигнала) и 1 (есть сигнал).
Таким образом, с помощью комбинации 0 и 1 компьютер (с первого поколения и по сей день) способен воспринимать любую информацию: тексты, формулы, звуки и графику.
Иными словами, компьютеры обычно работают в двоичной системе счисления, состоящей из двух цифр 0 и 1. Все необходимые преобразования (в привычную для нас форму или, наоборот, в двоичную систему счисления) могут выполнить программы, работающие на компьютере.
Обычная для нас десятичная форма счисления состоит из десяти цифр: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9. Кстати, числа 10 в этом списке нет: оно состоит из 0 и 1 — чисел, входящих в десятичную систему счисления.