www.diagram.com.ua
www.diagram.com.ua
Русский: Русская версия English: English version
Translate it!
Поиск по сайту

+ Поиск по журналам
+ Поиск по статьям сайта
+ Поиск по схемам СССР
+ Поиск по Библиотеке

Бесплатная техническая библиотека:
Все статьи А-Я
Энциклопедия радиоэлектроники и электротехники
Новости науки и техники
Архив статей и поиск
Ваши истории из жизни
На досуге
Случайные статьи
Отзывы о сайте

Справочник:
Большая энциклопедия для детей и взрослых
Биографии великих ученых
Важнейшие научные открытия
Детская научная лаборатория
Должностные инструкции
Домашняя мастерская
Жизнь замечательных физиков
Заводские технологии на дому
Загадки, ребусы, вопросы с подвохом
Инструменты и механизмы для сельского хозяйства
Искусство аудио
Искусство видео
История техники, технологии, предметов вокруг нас
И тут появился изобретатель (ТРИЗ)
Конспекты лекций, шпаргалки
Крылатые слова, фразеологизмы
Личный транспорт: наземный, водный, воздушный
Любителям путешествовать - советы туристу
Моделирование
Нормативная документация по охране труда
Опыты по физике
Опыты по химии
Основы безопасной жизнедеятельности (ОБЖД)
Основы первой медицинской помощи (ОПМП)
Охрана труда
Радиоэлектроника и электротехника
Строителю, домашнему мастеру
Типовые инструкции по охране труда (ТОИ)
Чудеса природы
Шпионские штучки
Электрик в доме
Эффектные фокусы и их разгадки

Техническая документация:
Схемы и сервис-мануалы
Книги, журналы, сборники
Справочники
Параметры радиодеталей
Прошивки
Инструкции по эксплуатации
Энциклопедия радиоэлектроники и электротехники

Бесплатный архив статей
(500000 статей в Архиве)

Алфавитный указатель статей в книгах и журналах

Бонусы:
Ваши истории
Викторина онлайн
Загадки для взрослых и детей
Знаете ли Вы, что...
Зрительные иллюзии
Веселые задачки
Каталог Вивасан
Палиндромы
Сборка кубика Рубика
Форумы
Голосования
Карта сайта

ДИАГРАММА
© 2000-2021

Дизайн и поддержка:
Александр Кузнецов

Техническое обеспечение:
Михаил Булах

Программирование:
Данил Мончукин

Маркетинг:
Татьяна Анастасьева

Перевод:
Наталья Кузнецова

Контакты

При использовании материалов сайта обязательна ссылка на https://www.diagram.com.ua

сделано в Украине
сделано в Украине

Диаграмма. Бесплатная техническая библиотека

Бесплатная техническая библиотека Бесплатная техническая библиотека, Энциклопедия радиоэлектроники и электротехники

MPEG-2 и нелинейный видеомонтаж. Просто о сложном

Искусство видео

Справочник / Искусство видео

Комментарии к статье Комментарии к статье

В последнее время среди профессионалов мира видео все чаще можно слышать разговоры об MPEG-2-кодировании. Внимание к нему сегодня растет чуть ли не быстрее реального расширения сфер его практического применения. Действительно, интересуемся ли мы эффективным алгоритмом компрессии в задачах нелинейного монтажа и видеопроизводства, задумываемся ли о создании собственных DVD-фильмов или цифровых видеоархивов, анализируем ли принципы записи Betacam SX или стандартов хранения данных на видеосерверах, наконец, обсуждаем ли особенности цифровой передачи программ в кабельном и спутниковом телевидении, везде мы сталкиваемся с упоминанием об MPEG-2. Из приведенного перечисления ясно, что этот алгоритм многолик и многогранен, так что специалисты разных областей, говоря об MPEG, порой думают о разном. Но, на самом деле, не столь он сложен, чтобы не понять его основные принципы. Так давайте разберемся.

Основные понятия

Напомню, что MPEG - аббревиатура от Moving Pictures Experts Group, названия комитета по стандартизации методов цифровой компрессии потоков видеоданных международной организации ISO/IEC (International Standards Organization/International Electrotechnical Commission). Первоначально задача комитета заключалась в разработке формата хранения и проигрывания аудио/видеоданных с компакт-дисков CD-ROM. В результате был создан стандарт MPEG-1, ориентированный на низкоскоростные (около 1 Мбит/с) каналы передачи информации и ограниченный разрешением кадра 352 x 288 (для PAL-сигнала). Затем по мере расширения задач передачи видео, повышения пропускной способности каналов и роста требований к визуальному качеству получаемых изображений появились MPEG-2, MPEG-4 и даже MPEG-7, оптимизированные под особые условия.

Так, MPEG-4 предназначен главным образом для цифровой передачи видеоданных по телефонным линиям (Интернет, видеоконференции) в условиях жестко ограниченной пропускной способности (типично - 28,8 Кбит/с), а потому уменьшает разрешение еще в четыре раза - до 176 x 144, но использует самую продвинутую схему кодирования с разделением изображения на такие независимые объекты, как фон, текст, 2D/3D-графика, "разговаривающие" человеческие лица, двигающиеся тела и т. д. Но в силу очевидной сложности этот стандарт пока не получил практической реализации.

Что касается MPEG-2, то изначально он был нацелен на решение задачи передачи телевизионных изображений. Каждый из нас по собственному опыту знает, что качество наблюдаемой в телевизоре картинки бывает очень разным. Одно дело смотреть фильм, воспроизводимый на домашнем видеомагнитофоне или передаваемый по местному кабельному телевидению, и совсем другое - наслаждаться видео с DVD или спутникового канала. MPEG-2, как определено в документе ISO/IEC 13818-2, объединяет семейство взаимосогласованных и совместимых сверху вниз цифровых стандартов сжатия телевизионных сигналов. Точнее, он допускает 4 уровня (Levels) разрешения кадра и 5 базовых профилей (Profiles) кодирования сигналов яркости и цветности.

Уровни: низкий LL (Low Level) с разрешением кадра 352 х 288 (соответствует MPEG-1), основной ML (Main Level) 720 х 576, высокий HL-1440 (High Level) 1440 х 1152 и высокий HL-1920 1920 х х 1152. Отметим, что если согласно Рекомендации ITU-R BT.601 (International Telecommunications Union - Recommendation) основной уровень определяет разрешение стандартного телевизионного кадра, то высокие уровни ориентированы на телевидение высокой четкости.

Профили: простой SP (Simple Profile), основной MP (Main Profile), два масштабируемых - по отношению сигнал/шум SNR Scalable Profile и по разрешению Spatially Scalable Profile и, наконец, высокий HP (High Profile). Важное место также занимает не установленный стандартом, но активно используемый на практике так называемый основной-профессиональный, или, по-другому, MPEG 422-профиль. Его обозначают как 422Р. Если с уровнями все довольно просто, то для того, чтобы разобраться в различиях профилей, требуются некоторые предварительные пояснения.

Немного теории

Эффективное сжатие видеоинформации зиждется на двух основных идеях: подавление несущественных для визуального восприятия мелких деталей пространственного распределения отдельных кадров и устранение временной избыточности в последовательности этих кадров. Отсюда понятие пространственной и временной компрессии.

В первой из них используется экспериментально установленная малая чувствительность человеческого восприятия к искажениям мелких деталей изображения. Глаз быстрее замечает неоднородность равномерного фона, чем искривление тонкой границы или изменение яркости и цвета малого участка. В математике известны два эквивалентных представления изображения: привычное нам пространственное распределение яркости и цвета и так называемое частотное распределение, связанное с пространственным дискретным косинусным преобразованием (ДКП). В теории они равнозначны и обратимы, но сохраняют информацию о структуре изображения совершенно по-разному: передачу плавных изменений фона обеспечивают низкочастотные (центральные) значения частотного распределения, а за мелкие детали пространственного распределения отвечают высокочастотные коэффициенты.

Это позволяет использовать следующий алгоритм сжатия. Кадр разбивается на блоки размером 16 х 16 (размеру 720 х х 576 соответствует 45 х 36 блоков), каждый из которых ДКП переводит в частотную область. Затем соответствующие частотные коэффициенты подвергаются квантованию (округлению значений с задаваемым интервалом). Если само по себе ДКП не приводит к потере данных, то квантование коэффициентов неизбежно вызывает огрубление изображения. Операция квантования выполняется с переменным интервалом - наиболее точно передается низкочастотная информация, в то время как многие высокочастотные коэффициенты принимают нулевые значения. Это обеспечивает значительное сжатие потока данных, но приводит к снижению эффективного разрешения и возможному появлению незначительных ложных деталей (в частности, на границах блоков). Очевидно, чем грубее используемое квантование, тем больше степень сжатия, но тем ниже качество результирующего сигнала.

Напомню, что этот алгоритм пришел из цифровой фотографии, где он был разработан под именем JPEG для эффективного сжатия отдельных кадров (JPEG - аббревиатура названия утвердившего его международного объединения Joint Photographic Experts Group). Затем он был успешно применен для видеопоследовательностей кадров (при этом каждый из них обрабатывается совершенно независимо) и получил новое наименование M-JPEG (Motion-JPEG). Необходимо также отметить, что DV-кодировка цифровых стандартов DV/DVCAM/DVCPRO принципиально основана на том же алгоритме, но использует более гибкую схему с адаптивным подбором таблиц квантования. В отличие от M-JPEG коэффициент компрессии для различных блоков меняется по изображению: для малоинформативных блоков (например, на краях изображения) он увеличивается, а для блоков с большим количеством мелких деталей уменьшается относительно среднего по изображению уровня. В результате при том же качестве достигается сокращение объема данных примерно на 15% (или наоборот - при том же потоке выше качество выходного сигнала). 

Временная MPEG-компрессия использует высокую избыточность информации в изображениях, разделенных малым интервалом. Действительно, между смежными изображениями обычно меняется только малая часть сцены - например, происходит плавное смещение небольшого объекта на фоне фиксированного заднего плана. В этом случае полную информацию о сцене нужно сохранять только выборочно - для опорных изображений. Для остальных достаточно передавать только разностную информацию: о положении объекта, направлении и величине его смещения, новых элементах фона (открывающихся за объектом по мере его движения). Причем эти различия можно формировать не только в сравнении с предыдущими изображениями, но и с последующими (поскольку именно в них по мере движения объекта открывается часть фона, ранее скрытая за объектом). Наиболее математически сложным элементом является поиск смещающихся, но мало изменяющихся по структуре блоков (16 х 16) и определение соответствующих векторов их смещения. Однако этот элемент наиболее существен, так как позволяет заметно уменьшить объем требуемой информации. Именно эффективностью выполнения этого "интеллектуального" элемента в реальном времени и отличаются различные MPEG-кодеры.

Таким образом, в MPEG-кодировке принципиально формируются три типа кадров: I (Intra) - выполняющие роль опорных и сохраняющие полный объем информации о структуре изображения; P (Predictive) - несущие информацию об изменениях в структуре изображения по сравнению с предыдущим кадром (типов I или P); B (Bi-directional) - сохраняющие только самую существенную часть информации об отличиях от предыдущего и последующего изображений (только I или P). Принципиальная схема последующей компрессии I-кадров, так же как и разностных P- и B-кадров, аналогична M-JPEG, но, как и у DV, с адаптивной подстройкой таблиц квантования. В частности, это позволяет охарактеризовать DV-сигнал как частный случай MPEG-последовательности из I-кадров с заданным фиксированным потоком (коэффициентом компрессии). Последовательности I-, P-, B-кадров объединяются в фиксированные по длине и структуре группы кадров - GOP (Group of Pictures). Каждая GOP обязательно начинается с I и с определенной периодичностью содержит P-кадры. Ее структуру описывают как M/N, где M - общее число кадров в группе, а N - интервал между P-кадрами. Так, типичная для Video-CD и DVD IPB группа 15/3 имеет следующий вид: IBBPBBPBBPBBPBB. Здесь каждый B-кадр восстанавливается по окружающим его P-кадрам (в начале и конце группы - по I и Р), а в свою очередь каждый Р-кадр - по предыдущему Р- (или I-) кадру. В то же время I-кадры самодостаточны и могут быть восстановлены независимо от других, но являются опорными для всех P- и тем более B-кадров группы. Следовательно, у I и P наименьшая степень компрессии, у В - наибольшая. Установлено, что по размеру типичный Р-кадр составляет 1/3, а B - 1/8 от I.

В результате MPEG-последовательность IPPP (GOP 4/1) обеспечивает двукратное уменьшение требуемого потока данных (при том же качестве) по сравнению с последовательностью только из I-кадров, а использование GOP 15/3 позволяет достичь четырехкратного сжатия.

Профили MPEG-2

Теперь мы вправе вернуться к описанию различных профилей. В простом профиле SP осуществляется только компенсация движения и предсказание по одному направлению (P-кадры). В основном профиле MP-предсказание выполняется по двум направлениям, т. е. допускаются B-кадры. В масштабируемых профилях осуществляется разделение исходного цифрового потока видеоданных на несколько частей по различным критериям. В масштабируемом по отношению сигнал/шум SNR Scalable Profile поток разделяют на две части. Первая из них - основной сигнал - несет информацию с пониженным отношением сигнал/шум (более грубая дискретизация). Но эта часть защищается более устойчивым к помехам передачи алгоритмом (и, соответственно, требующим больше битов), принимается в сильных шумах и позволяет даже при неблагоприятных условиях восстановить ТВ-изображение (хотя и с пониженным отношением сигнал/шум). Менее защищенная вторая часть - так называемый дополнительный сигнал - при неустойчивом приеме просто отбрасывается. При устойчивом приеме он позволяет дополнить основной сигнал и повысить отношение сигнал/шум до исходного значения.

Пространственно масштабируемый профиль Spatially Scalable Profile еще более усложняет схему кодирования. В нем поток разделится уже на три части - по критерию разрешения. Первая часть - основной сигнал, обеспечивает устойчивую к помехам информацию об изображении стандартного разрешения (625 строк, из них активных - 576). Вторая часть дополняет информацию до изображения высокой четкости (1250 строк, 1152 активных). Ну а декодирование третьего сигнала позволяет повысить отношение сигнал/шум.

Пятый профиль HP - высший -включает в себя все функции предыдущих, но использует YUV-представление не 4:2:0, а 4:2:2, т. е. передает цветоразностные сигналы в два раза чаще (в каждой строке, в каждом элементе строки).

Здесь опять требуется пояснение. Известно, что телевизионный сигнал представляет собой совокупность сигнала яркости Y и двух цветоразностных сигналов U и V. Вариации их значений допускают 256 градаций (от 0 до 255 - для Y и от -128 до 127 - для U/V), что в двоичном исчислении соответствует 8 битам, или 1 байту. Теоретически каждый элемент кадра имеет собственные значения YUV, т. е. требует 3 байтов. Такое представление, когда и яркость, и сигналы цветности имеют равное число независимых значений, обычно обозначают как 4:4:4. Но зрительная система человека менее чувствительна к цветовым пространственным изменениям, чем к яркостным. И без видимой потери качества число цветовых отсчетов в каждой строке можно уменьшить вдвое. Именно такое представление, обозначаемое как 4:2:2, было принято в вещательном телевидении. При этом для передачи полного значения телевизионного сигнала в каждом отсчете кадра достаточно 2 байтов (чередуя через отсчет независимые значения U и V). Более того, для целей потребительского видео признано допустимым уменьшение вдвое и вертикального цветового разрешения, т. е. перейти к представлению 4:2:0. Это уменьшает приведенное число байтов на отсчет до 1,5. Отметим, что именно такое представление было заложено в DV-формат цифровых камер, а также в формат DVD-видео.

Однако в профессиональных задачах цифрового редактирования и монтажа видео, когда возможно многократное и многослойное использование фрагментов отснятого материала и включение в него компьютерной графики, во избежание результирующего накапливания ошибок изначально требуется более высокое качество цифрового видео. Поэтому здесь считается обязательным представление 4:2:2. Именно этим отличается профиль 422P от основного. В табл. 1 обобщены различия всех описанных профилей.

Таблица 1

Функции /  Простой  Основной  422P Масштаби- Пространственно Высокий 
Профиль (SP) (MP)   руемый масштабируемый (HP)
I-кадры - - - - -
P-кадры - - - - - -
B-кадры   - - - - -
Разделение по SNR       - - -
Разделение по разрешению         - -
YUV-представление 4:2:0 4:2:0 4:2:2 4:2:0 4:2:0 4:2:2


Компрессия звука

До сих пор речь шла только о компрессии изображений. Но полноценное видео подразумевает и звуковую составляющую. Считается, что звук CD-качества требует оцифровки с частотой 44,1 кГц при глубине 16 бит на канал, что соответствует потоку в 706 Кбит/с на канал (1,4 Мбит/с для стерео). DAT-качество сигнала определяет частоту оцифровки в 48 кГц (полоса частот 4-24 000 Гц) и увеличивает поток до 768 Кбит/с на канал. Подход к сжатию информации тот же - отбрасывание части, не очень существенной для восприятия человеческим ухом. MPEG-стандарт разрешает три уровня (Layer) компрессии аудио. Layer 1 использует наиболее простой алгоритм с минимальной компрессией, что предполагает 192 Кбит/с на канал. Алгоритм Layer 2 более сложный, зато и степень компрессии больше - 128 Кбит/с на канал. Мощный алгоритм сжатия цифрового звука CD-качества (в 11 раз без различаемых человеческим ухом потерь) Layer 3 обеспечивает максимально возможное качество звука при жестких ограничениях потока - не более 64 Кбит/с на канал. В основном он предназначен для Интернет. Его значение столь велико, что он получил особое сокращенное наименование MP3, что означает MPEG Layer 3.

Появилось множество Интернет-сайтов, содержащих сотни тысяч MP3-файлов с популярной музыкой. С помощью специальных программ проигрывания (Real Audio) MP3-музыку можно в реальном времени слушать через Интернет, ее можно неограниченно копировать (предостережение: типичная песня занимает от 2 до 8 Мбайт) и нелегально распространять. Уже появились портативные MP3-плееры ценой около $200 (например, Diamond Rio). Музыкальная индустрия, неся ощутимые потери, начала активную борьбу с MP3-сайтами (Recording Industry Association of America нашла и добилась закрытия большей их части). Но джин выпущен, всех не закроешь. Фирма Adaptec предсказывает миллиарды загруженных через Интернет песен в ближайшие годы и заявляет о поддержке MP3 в следующей версии программы EasyCD Creator. Однако в задачах цифрового редактирования сжатие аудиосигналов не используется, поэтому в расчетах допустимых потоков на звуковую составляющую необходимо отводить до 1,5 Мбит/с.

MPEG-2 в задачах нелинейного монтажа

Термин "нелинейный монтаж" не соответствует сути процесса, а лишь отражает одну из его характеристик. На самом деле речь идет о монтаже видеофильмов, осуществляемом в цифровой форме на компьютерах. При этом исходные видеофрагменты подвергаются обязательной оцифровке и записи на винчестер в виде соответствующих файлов. В отличие от накопителей на магнитных лентах доступ к любому из этих файлов-фрагментов не требует утомительной перемотки (а этот процесс - линейный), т. е. все кадры видео доступны в произвольном порядке. Это важное свойство и обусловило название цифрового монтажа как нелинейного, хотя, очевидно, возможности цифровой обработки намного шире и богаче.

Напомним, что согласно Рекомендации ITU-R BT.601 телевизионный кадр представляет собой матрицу 720 х 576. Принимая во внимание телевизионную кадровую частоту в 25 Гц, приходим к выводу, что одна секунда цифрового видео в представлении 4:2:2 требует 20 736 000 байтов (25 x 2 x 720 x 576), т. е. поток данных составляет 21 Мбайт/с. Запись подобных потоков технически осуществима, но она сложная, дорогостоящая и неэффективная с точки зрения последующей обработки. На практике с учетом реальных возможностей требуется значительное уменьшение потоков. Известно множество алгоритмов, осуществляющих компрессию без потери информации, но даже самые эффективные из них на типичных изображениях не обеспечивают более чем двукратного сжатия.

До недавнего времени в мире систем нелинейного видеомонтажа безраздельно царил M-JPEG. Различные решения отличались степенью компрессии, что соответствовало различным уровням качества результирующего видео. Весьма условно здесь можно выделить четыре уровня: стандартное видео (VHS, C-VHS, Video8), супервидео (SVHS, C-SVHS, Hi8), цифровое видео (Betacam SP, DV/DVCAM/DVCPRO, miniDV, Digital8) и студийное видео (Digital S, DVCPRO50). Для простоты в дальнейшем будем обозначать их как Video, S-Video, DV и Studio-TV. Количественно они обычно характеризуются горизонтальным разрешением (числом различаемых в строке элементов - телевизионных линий). Считается, что Video обеспечивает разрешение до 280 линий и соответствует M-JPEG-потоку около 2 Мбайт/с, S-Video - 400 линий и 4 Мбайт/с, DV - 500 линий и 3,1 Мбайт/с, а Studio-TV - разрешение не менее 600 линий при потоках в 7 Мбайт/с. Коэффициенты компрессии составляют соответственно 10:1, 5:1, 5:1 и 3:1 (напомним, что DV-алгоритм эффективнее M-JPEG). Но даже подобное сжатие требует для хранения и обработки видеофайлов значительных объемов дискового пространства. Например, одна минута M-JPEG-видео требует 120 Мбайт для качества Video и около 500 Мбайт для Studio-TV. Но ведь хочется работать с роликами продолжительностью в десятки минут!

И вот здесь на арену выходит MPEG-2. Даже переход к I-кадрам позволяет сэкономить 15% объема, а если использовать P-кадры, то выигрыш может увеличиться вдвое (для групп IPPP), а это уже существенно. Правда, бытует мнение, что в последнем случае утрачивается одно из основных преимуществ нелинейного монтажа, а именно его покадровая точность. На самом деле это заблуждение. По разностным P-кадрам исходная структура изображений легко и быстро восстанавливается (для современных процессоров подобная задача не составляет труда и выполняется в реальном времени). Что касается точности восстановления, то в длинных группах и/или при наличии B-кадров она действительно заметно падает. Поэтому, например, DVD-Video (GOP 15/3) не подлежит редактированию. В то же время у коротких групп только из I- и P-кадров восстановление происходит практически без накопления ошибок. Таким образом, при MPEG-2-кодировании 422P@ML для обеспечения студийного качества достаточно потока в 50 Мбит/с при I-кадрах (I-frame only) и в 25 Мбит/с при группе IPPP (см. табл. 2).

Таблица 2
 Тип компрессии

Video

S-Video

DV

Studio-TV

 M-JPEG, Мбит/с

16

32

38

56

 I-frame 422P@ML, Мбит/с

14

28

33

49

 I-frame MP@ML, Мбит/с

10

21

25

37

 IPPP 422P@ML, Мбит/с

7

14

17

24

 IPPP MP@ML, Мбит/с

5

10

12,5

18

 IBP 15/3 MP@ML, Мбит/с

2,5

5

6

9



Именно в таком направлении и развиваются современные системы нелинейного монтажа. Пока примеров их немного. Это FAST 601 [six-o-one], Pinnacle miroVideo DC1000 и Matrox DigiSuite DTV. Но преимущества данного подхода столь очевидны, что в ближайшем будущем обязательно появятся и другие решения.

Автор: Андрей Ряхин, по материалам digitalvideo.ru

Смотрите другие статьи раздела Искусство видео.

Читайте и пишите полезные комментарии к этой статье.

<< Назад

Рекомендуем скачать в нашей Бесплатной технической библиотеке:

раздел сайта Важнейшие научные открытия

сборники В помощь радиолюбителю

книга Наладка коммутации машин постоянного тока. Бойко О.А., 1966

книга Самодельные гальванические элементы, Сенницкий В.П., 1950

статья Защитное устройство, 12 вольт 1 ампер

статья Отчего люди падают в обморок?

справочник Зарубежные микросхемы и транзисторы. Серия E

Оставьте свой комментарий к этой статье:

Имя:


E-mail (не обязательно):


Комментарий:

[lol][cry][!][?]




Бесплатная техническая библиотека Бесплатная техническая документация для любителей и профессионалов