Реферат: Современные форматы видео
Интересной особенностью формата
является то, что для типовых объектов даже разработаны отдельные алгоритмы
предсказания и описания их движений - это касается, в частности, походки людей,
наиболее распространенных жестов, мимики. Теперь такие изменения в кадрах нет
нужды записывать вообще - их можно рассчитать программно.
В MPEG-4 поддерживается
отображение текста различными шрифтами поверх видеоизображения. Более того,
этот текст может быть озвучен с помощью синтезатора речи с возможностью
имитации мужских и женских голосов. При необходимости голос синхронизируется с
движениями лица диктора в соответствии с произносимыми фонемами. Также может
синтезироваться звучание некоторых музыкальных инструментов. Сжатие
оцифрованных звукозаписей осуществляется более эффективно с помощью специально
разработанного кодека AAC (Advanced Audio Codec).
Некоторые видеокамеры позволяют
записывать в формате MPEG-4 видео на собственную карту памяти или работать как
web-камера, передавая по USB кабелю видео со звуком в формате MPEG-4.
Кроме того, современные
технологии позволяют даже воспроизводить цифровое телевидение (сжатое в формате
MPEG-4 или MPEG-2) с помощью мобильных телефонов, используя GPRS.
На сегодня, MPEG-4 - это
наиболее популярный формат распространения видео в интернете и на персональных
компьютерах. Рациональное использование памяти при хорошем качестве видео дают
о себе знать. Каждая последующая версия кодека MPEG-4 (на сегодня используются
3.хх, 4.хх и 5.хх версии) привносит всё новые и новые прогрессивные улучшения.
Большое количество бытовых плееров, КПК и прочих устройств без проблем работают
с этим форматом. MPEG-4 будет актуален еще, как минимум, лет десять, пока ему
на смену не придёт что-то принципиально новое.
MPEG-компрессия использует
следующие основные идеи:
1.
Устранение временной избыточности видео, учитывающее тот факт, что в
пределах коротких интервалов времени большинство фрагментов сцены оказываются
неподвижными или незначительно смещаются по полю.
2.
Устранение пространственной избыточности изображений подавлением мелких
деталей сцены, несущественных для визуального восприятия человеком;
3.
Использование более низкого цветового разрешения при yuv-представлении
изображений (y - яркость, u и v - цветоразностные сигналы) - установлено, что
глаз менее чувствителен к пространственным изменениям оттенков цвета по
сравнению с изменениями яркости.
4.
Повышение информационной плотности результирующего цифрового потока
путем выбора оптимального математического кода для его описания (например,
использование более коротких кодовых слов для наиболее часто повторяемых
значений).
5.
Изображения в Mpeg-последовательности подразделяются на следующие типы:
·
I (intra), играющие роль опорных при восстановлении остальных
изображений по их разностям;
·
P (predicted), содержащие разность текущего изображения с
предыдущим I или P с учетом смещений отдельных фрагментов;
·
B (bidirectionally predicted), содержащие разность текущего
изображения с предыдущим и последующим изображениями типов I или P с учетом
смещений отдельных фрагментов.
Изображения объединяются в
группы (GOP - Group Of Pictures), представляющие собой минимальный повторяемый
набор последовательных изображений, которые могут быть декодированы независимо
от других изображений в последовательности. Типичной является группа вида (I0
B1 B2 P3 B4 B5 P6 B7 B8 P9 B10 B11) (I12 B13 B14 P15 B16 B17 P18…), в которой I
тип повторяется каждые полсекунды. Обратим внимание, что в изображении P3
основная часть фрагментов сцены предсказывается на основании соответствующих
смещенных фрагментов изображения I0. Собственно кодированию подвергаются только
разности этих пар фрагментов. Аналогично P6 «строится» на базе P3, P9 - на базе
P6 и т.д. В то же время большинство фрагментов B1 и B2 предсказываются как
полусумма смещенных фрагментов из I0 и P3, B4 и B5 - из P3 и P6, B7 и B8 - из P6
и P9 и т.д. Наряду с этим B-изображения не используются для предсказания
никаких других изображений. В силу зависимости изображений в процессе их
кодирования меняется порядок следования. Для вышеприведенной последовательности
он будет следующим: I0 P3 B1 B2 P6 B4 B5 P9 B7 B8 I12 B10 B11 P15 B13 B14 P18
B16 B17…
Ясно, что точность кодирования
должна быть максимальной для I, ниже - для P, минимальной - для B. Установлено,
что для типичных сцен хорошие результаты достигаются при отведении числа бит
для I в 3 раза больше, чем для P , и для P в 2-5 раз больше, чем для B. Эти
отношения уменьшаются для динамичных сцен и увеличиваются для статичных.
Отдельные изображения состоят из
макроблоков. Макроблок - это основная структурная единица фрагментации
изображения. Он соответствует участку изображения размером 16*16 пикселов.
Именно для них определяются вектора смещения относительно I- или P-изображений.
Общее число макроблоков в изображении - 396. Для повышения устойчивости
процесса восстановления изображений к возможным ошибкам передачи данных
последовательные макроблоки объединяют в независимые друг от друга разделы
(slices), максимальным числом 396. В предельном случае «чистой» передачи на
изображение приходится всего один раздел из 396 макроблоков. В свою очередь
каждый макроблок состоит из шести блоков, четыре из которых несут информацию о
яркости Y, а по одному определяют цветовые U- и V-компоненты. Каждый блок
представляет собой матрицу 8*8 элементов. Блоки являются базовыми структурными
единицами, над которыми осуществляются основные операции кодирования, в том
числе выполняется дискретное косинусное преобразование (DCT - Discrete Cosine
Transform) и квантование полученных коэффициентов.
Таким образом, компрессия MJPEG
[Motion JPEG] основывается на независимом кодировании каждого кадра и
объединении полученной последовательности в файл. Сжатие видео осуществляется
по JPEG-алгоритму: каждое изображение разбивается на квадраты 8x8 точек
и представляется в векторной форме путем дискретного преобразования и высокочастотной
фильтрации полученного спектра. По сути, сжатое видео представляет собой
последовательность независимых JPEG-изображений.
Поскольку каждый кадр кодируется
отдельно от других, возможно последующее покадровое редактирование изображения.
Существенным преимуществом этого алгоритма сжатия видео является его
симметричность, то есть для кодирования и декодирования необходимы одни и те же
вычислительные затраты.
Применительно к MJPEG степень
сжатия видео до 1:15 позволяет сохранять видеоинформацию практически без потери
качества, от 1:15 до 1:25 приводит к небольшой потере разрешения. При большом
коэффициенте компрессии [1:30 и выше] сжатие видео по алгоритму MJPEG
сопровождается характерными для формата JPEG искажениями: на границах сетки
разбиения [квадраты 8x8 точек] нарушается гладкость изображения, что приводит к
уже известному "мозаичному" эффекту.
Из других недостатков формата сжатия MJPEG можно отметить не очень большую
эффективность сжатия, а также невозможность создания видеофрагментов размером
более 2 Гб, - структура файла не позволяет увеличить его размер. В настоящее
время применяются программные методы "склейки" MJPEG-файлов,
позволяющие переключаться между ними практически незаметно.
Несколько лет назад компрессия
MJPEG стала стандартом в области мультимедиа, что побудило разработчиков
аппаратного и программного обеспечения к созданию собственных MJPEG-кодеков.
Формат использует простую
обработку кодированного аналогового видеосигнала по стандарту JPG (с
разрешением 768х576 точек). Расшифровывается как Motion-JPEG (движущийся JPEG).
На сегодняшний день этот формат практически не используется, т.к. качественно
сжатые ролики занимают достаточно много места. В некоторых моделях устройств
(например, фотокамерах с функцией видео) встречается упрощенный вариант M-JPEG
с разрешением 320х240 точек.
Относительно новый алгоритм
сжатия видео при котором, в отличие от JPEG, изображение обрабатывается
без разбиения на квадраты. После того, как фирма Analogue Devices выпустила
специализированную микросхему аппаратного wavelet-сжатия видео, данный формат
стал базисом многоканальных цифровых систем видеонаблюдения и цифровых
видеорегистраторов.
Как и в случае формата JPEG, в
Wavelet сжатие осуществляется с необратимыми потерями информации, но
изображение не имеет "мозаичных" дефектов даже при очень больших
степенях компрессии. Достоинство - отсутствие видимых дефектов даже при большом
коэффициенте сжатия видео, - снижается резкость, и изображение просто
становится менее четким.
С математической точки зрения
основной особенностью wavelet-преобразования является возможность разложить
изображение на две компоненты - низкочастотную часть, содержащую основную
информацию, и высокочастотную часть, содержащую лишь малую долю информации.
Низкочастотную часть можно опять разложить на две части, и т.д. Оставшаяся
часть изображения содержит лишь малые высокочастотные компоненты. В результате
последовательного применения wavelet-преобразований получается изображение,
занимающее небольшой объем места на диске.
JPEG [ Joint Photographic
Experts Group ] - алгоритм сжатия неподвижного изображения. Формат JPEG
изначально предусматривает контролируемое, но необратимое ухудшение качества.
Основная идея этого алгоритма сжатия заключается в том, что вся
"картинка" разбивается на квадраты 8x8 точек, а изображение в каждом
квадрате раскладывается на гармоники [преобразование Фурье]. Сохраняются только
основные гармоники, а значения остальных грубо округляются. Особенностью
формата сжатия JPEG является действительно быстрая [полный кадр за 1/50
секунды] и высокая компрессия [в 10 … 100 раз].
Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18 |