|
|||||||
АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Кодирование видеообъектовВидеообъекты, составляющие сцену, кодируются по-отдельности. Кодированные видеоданные всех видеообъектов объединяются в последовательность визуальных объектов (VS - Visual Object Sequence). Видеообъект может иметь несколько слоев или уровней, каждому из которых соответствует элементарный поток видеоданных. Наличие нескольких слоев обеспечивает возможность масштабируемости. Базовый слой дает изображение видеообъекта с базовым качеством. Дополнительные или улучшающие (enhanced) слои позволяют получать изображение с улучшенным пространственным разрешением, меньшими искажениями из-за сжатия и т.д.
Изменяющееся во времени изображение видеообъекта передается в виде последовательности его неподвижных изображений в дискретные моменты времени. Эти неподвижные изображения называются плоскостями в идеообъекта (VOP - Visual Object Plane) Если видеообъектом является обычное телевизионное изображение, то плоскостями этого видеообъекта могут быть обычные кадры. VOP объединяются в группы (GOV). VOP, как и кадры в MPEG-2, могут кодироваться независимо от других VOР (I-VOP) или с предсказанием и компенсацией движения (P-VOPw B-VOP).
В отличие от MPEG-1,2 в которых применяется фиксированный алгоритм кодирования, в MPEG-4 используется целый набор методов кодирования, включающий как алгоритмы, сходные с применяемым в MPEG-1,2, так и принципиально новые методы кодирования, основанные на понятии видеообъекта. Выбор того или иного метода кодирования в конкретном случае определяется типом видеообъекта и требуемым коэффициентом сжатия информации. MPEG-4 позволяет эффективно сжимать как натуральные, так и синтетические изображения и объединять их при воспроизведении.
Обобщенная структурная схема видеокодера MPEG-4 для натуральных изображений приведена на рис.
Рис. 5.1 Структурная схема видеокодера MPEG-4
На схеме обозначены: ДКП - блок прямого дискретного косинусного преобразования; ДКП-1 - блок обратного дискретного косинусного преобразования; Кв - квантователь; Кв~1 - деквантователь, т.е. блок, выполняющий обратную квантованию операцию; ЗУ - запоминающее устройство; Пред1, Пред2 - блоки, выполняющие формирование предсказанных изображений; в разных режимах кодирования; ОД - блок оценки движения и формирования векторов движения; Мп - мультиплексор; БЗУ - буферное запоминающее устройство; УКС - блок управления коэффициентом сжатия изображения. Кроме того, на схеме показаны блоки Кодер формы и Кодер текстур, сумматор, вычитающее устройство и переключатель Выбор, с помощью которого осуществляется подключение одного из блоков предсказания в зависимости от используемого метода кодирования. Данная схема является упрощенной и не показывает многие блоки и связи.
На вход кодера поступают исходные видеоданные, например, цифровой телевизионный сигнал. На выходе кодера формируется элементарный поток видеоданных.
Кратко рассмотрим основные методы кодирования натуральных изображений.
1). Видеообъекты, представляющие собой прямоугольные изображения (например, обычные ТВ кадры), кодируются методом, аналогичным применяемому в MPEG-1,2, т.е. с использованием гибридного кодирования. Метод включает предсказание с оценкой и компенсацей движения для макроблоков 16x16 пикселов и ДКП ошибки предсказания в блоках 8x8 пикселов. Для определенности будем считать, что предсказание в этом случае выполняется в блоке Пред1. Связь выхода блока ОД с мультиплексором и средства управления коэффициентом сжатия на рис. не показаны.
Этот вид кодирования имеет два уровня по скорости передачи двоичных символов в выходном потоке данных.
Уровень очень низкой скорости передачи VLBV (Very Low Bitrate Video) предназначен для передачи изображений с низким пространственным разрешением (форматы QCIF и SQCIF) и пониженной частотой кадров (10... 15 Гц) по узкополосным каналам связи со скоростями передачи двоичных символов 5...64 кбит/с. Этот уровень может использоваться в видеотелефонной связи с невысоким качеством изображения.
Уровень высокой скорости передачи (High bitrate) предназначен для передачи изображений с более высоким пространственным разрешением, вплоть до формата по Рекомендации 601, по различным каналам связи со скоростями передачи двоичных символов 64 кбит/с... 10 Мбит/с. Этот уровень может использоваться в видеосвязи с высоким качеством изображения и для передачи телевизионных программ.
2). Кодирование, основанное на содержании (conten-based coding), позволяет получить существенно большее сжатие изображений за счет учета свойств видеообъектов, присутствующих в сцене.
Одной из возможностей, создаваемых этими методами, является кодирование видеообъектов сложной формы. Например, в качестве видеообъекта может быть взята область изображения, отличающаяся от окружения яркостью или цветом. Эта область может перемещаться и деформироваться. При формировании предсказанного изображения с компенсацией движения смещаются не прямоугольные макроблоки, а выделенные области, которые к тому же могут изменять свою форму. При этом ошибка предсказания оказывается значительно меньше, и объем информации, содержащейся в разности предсказанного и настоящего изображений очередного кадра, существенно уменьшается. В кодере, показанном на рис., такой вариант предсказания выполняется в блоке Пред2.
Форма видеообъекта описывается матрицей. При бинарном кодировании элементы матрицы, соответствующие элементам изображения, входящим в видеообъект, приравниваются единице, а соответствующие элементам изображения, находящимся вне видеообъекта, - нулю. При градационном кодировании элементы матрицы принимают большее число значений, что позволяет описывать такие свойства объекта, как прозрачность. Элементы указанной матрицы определяются и кодируются в Кодере формы, после чего они включаются через мультиплексор Мп в выходной поток данных.
Данные о форме видеообъекта занимают значительно больше двоичных символов, чем простой вектор движения. Тем не менее, общий выигрыш в уменьшении объема передаваемой информации по сравнению с MPEG-1,2 оказывается существенным.
3). Для сжатия изображений неподвижного фона и текстур протяженных объектов используется метод кодирования, основанный на вейвлет-преобразовании. Этот метод обеспечивает высокие степени сжатия и многоступенчатую масштабируемость по пространственному разрешению.
4). Неизменяющийся или почти неизменяющийся задний план изображения может передаваться как так называемый спрайт (sprite). Полное изображение спрайта передается один раз. Затем передаются только 8 параметров глобального движения, описывающих панорамирование, т.е. перемещение камеры относительно заднего плана.
Перейдем к методам кодирования синтетических видеообъектов, создаваемых с использованием средств машинной графики. Такие видеообъекты могут кодироваться рассмотренными выше методами для натуральных изображений. Однако значительно эффективнее использовать их параметрическое описание.
В стандарте MPEG-4 используется модель человеческого лица, построенная на основе сетки из треугольных ячеек, которые заполняются текстурой. Пример «сеточной» модели лица показан на рис. Имеется также трехмерная модель человеческого тела в виде трехмерной сетки. Двумерные изображения человека получаются путем построения проекции трехмерной модели на нужную плоскость.
Рис. 5.2 «Сеточная» модель лица
Форма, текстура и выражение лица в статике описываются параметрами FDP (Facial Definition Parameters), а в динамике - параметрами FAP (Facial Animation Parameters).
Для тела в статике задаются параметры BDP (Body Definition Parameters), а в динамике - ВАР (Body Animation Parameters). Статические параметры FDP и BDP передаются в начале сеанса связи. Для воспроизведения мимики лица и движений тела собеседника в процессе разговора передаются динамические параметры FAP и ВАР.
Синтетические изображения лица и тела человека могут использоваться в системах видеосвязи вместо настоящих изображений собеседника. Передача параметров модели требует существенно меньшей скорости передачи двоичных символов, чем передача реального изображения.
В некоторых случаях можно в приемной части системы получить информацию об изменениях изображения объекта на основе другой информации. Такой случай характерен для передачи изображения лица говорящего человека. Движения рта и мимика во многом определяются произносимыми словами и могут быть синтезированы на основе принятого звукового сигнала, содержащего голос собеседника. При этом требуемая для осуществления видеосвязи скорость передачи двоичных символов еще уменьшается.
Помимо лица и тела могут синтезироваться произвольные двумерные изображения также в виде сеток с треугольными ячейками, заполняемыми текстурой.
Стандартом MPEG-4 обеспечивается многоуровневая масштабируемость по пространственному разрешению, по времени и по качеству изображения. В стандарте предусмотрены средства, обеспечивающие работоспособность системы передачи видеоинформации при наличии помех и ошибок в канале связи. Эти вопросы здесь не рассматриваются. [5.2] Поиск по сайту: |
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.005 сек.) |