Теоретические основы кодирования звука
Звуковая волна – это упругие колебания воздуха. Восприятие звука органом слуха характеризуется высотой звука и его громкостью. За единицу громкости принимается 1 Б (Бел). Однако практически удобно выражать громкость в децибелах. Сильный удар грома, вызывающий боль в ушах, имеет громкость около 120 дБ. Громкость уличного шума на оживленной магистрали составляет около 80 дБ. Громкий разговор – это 60 дБ, шепот – 30 дБ. Приведенные величины, конечно, приблизительны, поскольку весьма разнообразны условия, в которых мы воспринимаем звуки: близко или далеко от источника, на открытом воздухе или в закрытом помещении и т.д.
Ухо – довольно совершенный приемник звука: у природы были «в запасе» миллионы лет, чтобы сделать его чувствительным к определению громкости звука и его высоты. Тренированное ухо улавливает очень малые изменения силы и высоты звука.
Для изучения звуков, в результате которого мы получали бы объективные характеристики, а не субъективные оценки нужны, конечно, специальные приборы. Такие приборы измеряют силу звука и его частоту.
Для кодирования непрерывного звукового сигнала производится его дискретизация по времени (временная дискретизация, оцифровка). Непрерывная звуковая волна разбивается на отдельные короткие временные участки, причем для каждого такого участка устанавливается определенная величина амплитуды. Это выполняется устройством, называемым аналогово-цифровым преобразователем (АЦП), который измеряет напряжение поступающего с микрофона звукового сигнала через равные промежутки времени и записывает полученные значения (в виде многоразрядных двоичных чисел) в память компьютера. В результате непрерывная зависимость амплитуды сигнала от времени заменяется на дискретную последовательность значений уровней громкости. На графике это выглядит как замена гладкой кривой на последовательность «ступенек» (см. рисунок). Для того чтобы воспроизвести закодированный таким образом звук, нужно выполнить обратное преобразование, для которого служит цифро-аналоговый преобразователь (ЦАП), а затем сгладить получившийся ступенчатый сигнал (через аналоговый фильтр).
Качество кодирования зависит от количества измерений уровня сигнала в единицу времени, т. е. частоты дискретизации. Чем большее количество измерений производится за 1 секунду (чем больше частота дискретизации), тем точнее процедура двоичного кодирования звуковой информации.
Наиболее распространенным форматом закодированных звуковых файлов является Wave-формат (расширение файлов — .wav). Такой способ кодирования звуковой информации достаточно универсален, он позволяет представить любой звук и преобразовывать его самыми разными способами. Но существуют и другие способы кодирования звука.
В исходном звуковом файле (например, в wav-файле) хранится полная информация об оцифрованном звуке. При высоком качестве звука объем таких файлов чрезвычайно велик (около 15Мб на 1 минуту звучания). Поэтому разработаны различные способы сжатия звуковых файлов. Наиболее популярным форматом, обеспечивающим высокую степень сжатия звуковых файлов при сохранении высокого качества звучания, является формат MP3 (MPEG Layer-3) (расширение файлов — .mp3), разработанный учеными из немецкого университета им. Фраугофера. Принципы сжатия основаны на удалении невоспринимаемых или плохо воспринимаемых человеком звуков.
Вычислительные операции, связанные с обработкой звука, выполняет звуковая карта, подключаемая к материнской плате. Основной характеристикой звуковой карты является разрядность, определяющая количество битов, используемых при преобразовании сигналов из аналоговой в цифровую форму, и наоборот. Чем выше разрядность, тем меньше погрешность, связанная с оцифровкой, и выше качество звучания. Минимальным требованием в настоящее время являются 16 разрядов, а наиболее распространены 32-разрядные и 64-разрядные звуковые карты.
Источники используемой литературы:
1. «О современной акустике», В.И. Рыдник
Кодирование звуковой информации. Подготовка к ЕГЭ
Цель. Осмыслить процесс преобразования звуковой информации, усвоить понятия необходимые для подсчета объема звуковой информации. Научиться решать задачи по теме.
Цель-мотивация. Подготовка к ЕГЭ.
1. Просмотр презентации по теме с комментариями учителя. Приложение 1
Материал презентации: Кодирование звуковой информации.
С начала 90-х годов персональные компьютеры получили возможность работать со звуковой информацией. Каждый компьютер, имеющий звуковую плату, микрофон и колонки, может записывать, сохранять и воспроизводить звуковую информацию.
Процесс преобразования звуковых волн в двоичный код в памяти компьютера:
Процесс воспроизведения звуковой информации, сохраненной в памяти ЭВМ:
Звук представляет собой звуковую волну с непрерывно меняющейся амплитудой и частотой. Чем больше амплитуда, тем он громче для человека, чем больше частота сигнала, тем выше тон. Программное обеспечение компьютера в настоящее время позволяет непрерывный звуковой сигнал преобразовывать в последовательность электрических импульсов, которые можно представить в двоичной форме. В процессе кодирования непрерывного звукового сигнала производится его временная дискретизация. Непрерывная звуковая волна разбивается на отдельные маленькие временные участки, причем для каждого такого участка устанавливается определенная величина амплитуды.
Таким образом, непрерывная зависимость амплитуды сигнала от времени A(t) заменяется на дискретную последовательность уровней громкости. На графике это выглядит как замена гладкой кривой на последовательность «ступенек».Каждой «ступеньке» присваивается значение уровня громкости звука, его код(1, 2, 3 и так
далее). Уровни громкости звука можно рассматривать как набор возможных состояний, соответственно, чем большее количество уровней громкости будет выделено в процессе кодирования, тем большее количество информации будет нести значение каждого уровня и тем более качественным будет звучание.
Аудиоадаптер (звуковая плата) — специальное устройство, подключаемое к компьютеру, предназначенное для преобразования электрических колебаний звуковой частоты в числовой двоичный код при вводе звука и для обратного преобразования (из числового кода в электрические колебания) при воспроизведении звука.
В процессе записи звука аудиоадаптер с определенным периодом измеряет амплитуду электрического тока и заносит в регистр двоичный код полученной величины. Затем полученный код из регистра переписывается в оперативную память компьютера. Качество компьютерного звука определяется характеристиками аудиоадаптера:
- Частотой дискретизации
- Разрядностью(глубина звука).
Частота временной дискретизации
— это количество измерений входного сигнала за 1 секунду. Частота измеряется в герцах (Гц). Одно измерение за одну секунду соответствует частоте 1 Гц. 1000 измерений за 1 секунду – 1 килогерц (кГц). Характерные частоты дискретизации аудиоадаптеров:
11 кГц, 22 кГц, 44,1 кГц и др.
Разрядность регистра (глубина звука) число бит в регистре аудиоадаптера, задает количество возможных уровней звука.
Разрядность определяет точность измерения входного сигнала. Чем больше разрядность, тем меньше погрешность каждого отдельного преобразования величины электрического сигнала в число и обратно. Если разрядность равна 8 (16) , то при измерении входного сигнала может быть получено 2 8 = 256 (2 16 =65536) различных значений. Очевидно, 16 разрядный аудиоадаптер точнее кодирует и воспроизводит звук, чем 8-разрядный. Современные звуковые карты обеспечивают 16-битную глубину кодирования звука. Количество различных уровней сигнала (состояний при данном кодировании) можно рассчитать по формуле:
N = 2 I = 2 16 = 65536, где I — глубина звука.
Таким образом, современные звуковые карты могут обеспечить кодирование 65536 уровней сигнала. Каждому значению амплитуды звукового сигнала присваивается 16-битный код. При двоичном кодировании непрерывного звукового сигнала он заменяется последовательностью дискретных уровней сигнала. Качество кодирования зависит от количества измерений уровня сигнала в единицу времени, то есть частоты дискретизации. Чем большее количество измерений производится за 1 секунду (чем больше частота дискретизации тем точнее процедура двоичного кодирования.
Звуковой файл — файл, хранящий звуковую информацию в числовой двоичной форме.
2. Повторяем единицы измерения информации
1 Кбайт = 2 10 байт=1024 байт
1 Мбайт = 2 10 Кбайт=1024 Кбайт
1 Гбайт = 2 10 Мбайт=1024 Мбайт
1 Тбайт = 2 10 Гбайт=1024 Гбайт
1 Пбайт = 2 10 Тбайт=1024 Тбайт
3. Закрепить изученный материал, просмотрев презентацию, учебник [1]
4. Решение задач
Учебник [1], показ решения на презентации.
Задача 1. Определить информационный объем стерео аудио файла длительностью звучания 1 секунда при высоком качестве звука(16 битов, 48 кГц).
Запись условия
V=1 ×16 × 48 000 × 2=
1536000 бит/8 =192000 байт/1024 = 187,5 Кбайт
Задача (самостоятельно). Учебник [1], показ решения на презентации.
Определить информационный объем цифрового аудио файла длительностью звучания которого составляет 10 секунда при частоте дискретизации 22,05 кГц и разрешении 8 битов.
Запись условия
10 × 8 × 22 050 бит/8 = 220500 байт/1024 = 215,332/1024 Кбайт = 0,21 Мбайт
5. Закрепление. Решение задач дома, самостоятельно на следующем уроке
Определить объем памяти для хранения цифрового аудиофайла, время звучания которого составляет две минуты при частоте дискретизации 44,1 кГц и разрешении 16 битов.
Запись условия
V=2×60 ×16 × 44,1 × 1=
(120 × 16 × 44 010) бит = 84672000 бит/8= 10584000байт/1024 = 10335,9375 Кбайт/1024 = 10,09 Мбайт
В распоряжении пользователя имеется память объемом 2,6 Мб. Необходимо записать цифровой аудиофайл с длительностью звучания 1 минута. Какой должна быть частота дискретизации и разрядность?
Запись условия
V= T ×I × H × 1; I × H= V / T
I × H= 2,6 Мб/1 мин. = 2,6×1024×1024×8 бит/ 60 сек=21810380,8/60=
Если I=8 ,бит, то H=44,1 кГц.
Если I=16 бит, то H=22,05 кГц.
Объем свободной памяти на диске — 5,25 Мб, разрядность звуковой платы — 16. Какова длительность звучания цифрового аудиофайла, записанного с частотой дискретизации 22,05 кГц?
Одна минута записи цифрового аудиофайла занимает на диске 1,3 Мб, разрядность звуковой платы — 8. С какой частотой дискретизации записан звук?
Какой объем памяти требуется для хранения цифрового аудиофайла с записью звука высокого качества при условии, что время звучания составляет 3 минуты?
Цифровой аудиофайл содержит запись звука низкого качества (звук мрачный и приглушенный). Какова длительность звучания файла, если его объем составляет 650 Кб?
Две минуты записи цифрового аудиофайла занимают на диске 5,05 Мб. Частота дискретизации — 22 050 Гц. Какова разрядность аудиоадаптера?
Объем свободной памяти на диске — 0,1 Гб, разрядность звуковой платы — 16. Какова длительность звучания цифрового аудиофайла, записанного с частотой дискретизации 44 100 Гц?
№ 92. 124,8 секунды.
№ 94. Высокое качество звучания достигается при частоте дискретизации 44,1 кГц и разрядности аудиоадаптера, равной 16. Требуемый объем памяти — 15,1 Мб.
№ 95. Для мрачного и приглушенного звука характерны следующие параметры: частота дискретизации — 11 кГц, разрядность аудиоадаптера — 8. Длительность звучания равна 60,5 с.
1. Учебник: Информатика, задачник-практикум 1 том, под редакцией И.Г.Семакина, Е.К. Хеннера )
2. Фестиваль педагогических идей «Открытый урок»Звук. Двоичное кодирование звуковой информации. Супрягина Елена Александровна, учитель информатики.
3. Н. Угринович. Информатика и информационные технологии. 10-11 классы. Москва. Бином. Лаборатория знаний 2003.
На что разбивается непрерывная звуковая волна
Временная дискретизация звука. Звук представляет собой звуковую волну с непрерывно меняющейся амплитудой и частотой. Чем больше амплитуда сигнала, тем он громче для человека, чем больше частота сигнала, тем выше тон. Для того чтобы компьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть превращен в последовательность электрических импульсов (двоичных нулей и единиц).
В процессе кодирования непрерывного звукового сигнала производится его временная дискретизация. Непрерывная звуковая волна разбивается на отдельные маленькие временные участки, причем для каждого такого участка устанавливается определенная величина амплитуды.
Таким образом, непрерывная зависимость амплитуды сигнала от времени A(t) заменяется на дискретную последовательность уровней громкости. На графике это выглядит как замена гладкой кривой на последовательность «ступенек» — рис. 1.9.
Рис. 1.9 Временная дискретизация звука |
Каждой «ступеньке» присваивается значение уровня громкости звука, его код (1, 2, 3 и так далее). Уровни громкости звука можно рассматривать как набор возможных состояний, соответственно, чем большее количество уровней громкости будет выделено в процессе кодирования, тем большее количество информации будет нести значение каждого уровня и тем более качественным будет звучание.
Современные звуковые карты обеспечивают 16-битную глубину кодирования звука. Количество различных уровней сигнала (состояний при данном кодировании) можно рассчитать по формуле (2.1):
N = 2 I = 216 = 65536, где I — глубина звука.
Таким образом, современные звуковые карты могут обеспечить кодирование 65536 уровней сигнала. Каждому значению амплитуды звукового сигнала присваивается 16-битный код.
При двоичном кодировании непрерывного звукового сигнала он заменяется последовательностью дискретных уровней сигнала. Качество кодирования зависит от количества измерений уровня сигнала в единицу времени, то есть частоты дискретизации. Чем большее количество измерений производится за 1 секунду (чем больше частота дискретизации), тем точнее процедура двоичного кодирования.
Качество двоичного кодирования звука определяется глубиной кодирования и частотой дискретизации.
Количество измерений в секунду может лежать в диапазоне от 8000 до 48 000, то есть частота дискретизации аналогового звукового сигнала может принимать значения от 8 до 48 кГц. При частоте 8 кГц качество дискретизированного звукового сигнала соответствует качеству радиотрансляции, а при частоте 48 кГц — качеству звучания аудио-CD. Следует также учитывать, что возможны как моно-, так и стерео-режимы.
Можно оценить информационный объем стереоаудиофай-ла длительностью звучания 1 секунда при высоком качестве звука (16 битов, 48 кГц). Для этого количество битов, приходящихся на одну выборку, необходимо умножить на количество выборок в 1 секунду и умножить на 2 (стерео):
16 бит × 48 000 × 2 = 1 536 000 бит = 192 000 байт = 187,5 Кбайт.
Стандартное приложение Звукозапись играет роль цифрового магнитофона и позволяет записывать звук, то есть ди-скретизировать звуковые сигналы, и сохранять их в звуковых файлах в формате WAV. Эта программа позволяет редактировать звуковые файлы, микшировать их (накладывать друг на друга), а также воспроизводить.
Запись звукового файла
1. Запустить Звукозапись. Для установки параметров дискретизации звука ввести команду [Файл-Свойства]. На панели Свойства объекта «Звук» щелкнуть по кнопке Преобразовать.
2. На панели Выбор звука из раскрывающегося списка выбрать режим кодирования звука (глубина кодирования, частота дискретизации, моно/стерео).
Вопросы для размышления
1. В чем состоит принцип двоичного кодирования звука?
2. От каких параметров зависит качество двоичного кодирования звука?
Практические задания
1.33. С помощью программы Звукозапись записать при 16-битном кодировании и частоте дискретизации 44 кГц моноаудиофайл длительностью 10 секунд. Сравнить его реальный объем с вычисленным.
4 из 9
Звуковые волны улавливаются слуховым органом и вызывают в нем раздражение, которое передается по нервной системе в головной мозг, создавая ощущение звука.
Колебания барабанной перепонки в свою очередь передаются во внутреннее ухо и раздражают слуховой нерв. Так образом человек воспринимает звук.
В аналоговой форме звук представляет собой волну, которая характеризуется:
- Высота звука определяется частотой колебаний вибрирующего тела.
- Громкость звука определяется энергией колебательных движений, то есть амплитудой колебаний.
- Длительность звука — продолжительность колебаний.
- Тембром звука называется окраска звука.
Герц (Гц или Hz) — единица измерения частоты колебаний. 1 Гц= 1/с
Человеческое ухо может воспринимать звук с частотой от 20 колебаний в секунду (20 Герц, низкий звук) до 20 000 колебаний в секунду (20 КГц, высокий звук).
Звук представляет собой звуковую волну с непрерывно меняющейся амплитудой и частотой.
Чем больше амплитуда сигнала, тем он громче для человека, чем больше частота сигнала, тем выше тон.
5 из 9
Восприятие звука человеком
-аналоговый- непрерывный- звук
6 из 9
Кодирование звуковой информации
- Для того чтобы компьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть превращен в последовательность электрических импульсов (двоичных нулей и единиц).
- В процессе кодирования непрерывного звукового сигнала производится его временная дискретизация. Непрерывная звуковая волна разбивается на отдельные маленькие временные участки, причем для каждого такого участка устанавливается определенная величина амплитуды.
Т.о. при двоичном кодировании непрерывного звукового сигнала он заменяется последовательностью дискретных уровней сигнала.
- Таким образом, непрерывная зависимость амплитуды сигнала от времени А(t) заменяется на дискретную последовательность уровней громкости.
7 из 9
Кодирование звуковой информации
- На графике это выглядит как замена гладкой кривой на последовательность «ступенек»:
- Каждой «ступеньке» присваивается значение уровня громкости звука, его код (1, 2, 3 и так далее).
8 из 9
Кодирование звуковой информации
- Преобразование аналоговой формы представления звука в дискретную происходит в процессе аналогово-цифрового преобразования (АЦП).
- Преобразование дискретной формы представления звука в аналоговую происходит в процессе цифро-аналогового преобразования (ЦАП)
9 из 9
Кодирование звуковой информации
Качество кодирования звуковой информации зависит от :
1) частотой дискретизации , т.е. количества измерений уровня сигнала в единицу времени. Чем большее количество измерений производится за 1 секунду (чем больше частота дискретизации), тем точнее процедура двоичного кодирования.
2) глубиной кодирования, т.е. количества уровней сигнала.
Современные звуковые карты обеспечивают 16-битную глубину кодирования звука. Количество различных уровней сигнала (состояний при данном кодировании) можно рассчитать по формуле: N = 2 i = 2 16 = 65536, где i — глубина звука.
Таким образом, современные звуковые карты могут обеспечить кодирование 65536 уровней сигнала. Каждому значению амплитуды звукового сигнала присваивается 16-битный код.
Количество измерений в секунду может лежать в диапазоне от 8000 до 48 000, то есть частота дискретизации аналогового звукового сигнала может принимать значения от 8 до 48 кГц. При частоте 8 кГц качество дискретизированного звукового сигнала соответствует качеству радиотрансляции, а при частоте 48 кГц — качеству звучания аудио-СD. Следует также учитывать, что возможны как моно-, так и стерео-режимы.
Стандартное приложение Звукозапись играет роль цифрового магнитофона и позволяет записывать звук, то есть дискретизировать звуковые сигналы, и сохранять их в звуковых файлах в формате WАV. Эта программа позволяет редактировать звуковые файлы, микшировать их (накладывать друг на друга), а также воспроизводить.
Качество двоичного кодирования изображения или звука определяется частотой дискретизации и глубиной кодирования