Сжатие и потоки данных в системах видеонаблюдения
Стремление к повышению уровня безопасности в повседневной жизни привело к быстрому росту популярности систем видеонаблюдения. В настоящее время они широко применяются в аэропортах, банках, центрах общественного транспорта и даже в частных домах. Толчком к развитию цифровых систем послужили проблемы, которые возникают при использовании традиционных систем на основе аналоговых технологий. Более того, благодаря растущему распространению компьютерных сетей, полупроводниковых решений и технологий сжатия видеоданных следующее поколение систем видеонаблюдения, без всякого сомнения, будет цифровым, а точнее сказать, будет основано на стандартных технологиях и использовании IP-сетей.
Неслучайно, согласно исследованиям маркетингового агентства IMS, мировой рынок продукции для сетевых систем видеонаблюдения вырос в 2006 году на 41,9% и, по прогнозам, должен превысить $2,6 млрд к 2010 году. Кроме того, в течение следующих 5 лет планируется четырехкратный рост объема рынка видеосерверов. По прогнозам аналитической компании iSupply, рынок микросхем для камер видеонаблюдения достигнет $1,25 млрд в 2011 году, это более чем вдвое превысит результат, о котором эта компания сообщила в 2006 году.
В системах видеонаблюдения на основе интернет-протоколов (VSIP) аппаратная часть, обрабатывающая сетевой трафик, является неотъемлемым элементом камеры. Это связано с тем, что видеосигнал переводится камерой в цифровой формат и сжимается перед отправкой на видеосервер в связи с ограничением пропускной способности сети. Для достижения максимальной производительности системы желательно применять неоднородную процессорную архитектуру, например DSP/GPP. Интенсивные по прерываниям задачи, например, захват, хранение и потоковая передача видеоданных, могут выполняться на процессоре общего назначения (GPP, General Purpose Processor), тогда как требующее значительных вычислений сжатие видеоданных реализуется на цифровом сигнальном процессоре (DSP, Digital Signal Processor). После того как данные переданы на видеосервер, потоки сжатых видеоданных сохраняются в виде файлов на жестком диске, поэтому исключено традиционное ухудшение качества, связанное с аналоговыми запоминающими устройствами. Для сжатия цифровых видеосигналов были разработаны различные стандарты, которые можно разделить на две основные категории:
- подход на основе оценки движения (Motion-estimation, ME): каждые N кадров определяются как группа изображений, в которой первый кадр кодируется независимо. Для остальных (N-1) кадров кодируется только различие между закодированным ранее опорным кадром (кадрами) и текущим кадром. Типичные стандарты — MPEG-2, MPEG-4, H.263 и H.264;
- сжатие статического изображения: каждый видеокадр кодируется независимо как неподвижное изображение. Наиболее известен стандарт JPEG. В стандарте MJPEG кодируется каждый кадр с использованием алгоритма JPEG.
Сравнение метода оценки движения и метода сжатия статического изображения
На рис. 1 показана блок-схема кодера H.264. Подобно другим стандартам кодирования видеоданных на основе оценки движения, здесь производится поочередная обработка каждого макроблока кадра размером 16×16 пикселей. Кодер имеет «прямой» путь потока данных (forward path) и путь «восстановления» (reconstruction path). На прямом пути потока данных кадр кодируется в виде последовательности битов. На пути восстановления генерируется опорный кадр из последовательности кодированных битов. Здесь (I)DCT — (обратное) дискретное косинусное преобразование (Inverse Discrete Cosine Transform), а (I)Q — (обратная) квантизация (Inverse Quantization). Сокращения ME и MC — это «оценка движения» и «компенсация движения» соответственно.
На прямом пути потока данных (от DCT до Q) каждый макроблок может кодироваться во внутреннем или внешнем режиме. Во внешнем режиме модуль оценки движения находит опорный макроблок в предварительно закодированном кадре или кадрах. Во внутреннем режиме макроблок предсказания движения (M) формируется из выборок в текущем кадре.
Назначение пути восстановления (от IQ до IDCT) состоит в том, чтобы кодер и декодер использовали идентичный опорный кадр для создания изображения. В противном случае между кодером и декодером будет накапливаться расхождение.
На рис. 2 представлена блок-схема кодера JPEG. Входное изображение разделяется на множество блоков размером 8×8 пикселей, после чего производится поочередная обработка этих блоков. Каждый блок сначала проходит через модуль дискретного косинусного преобразования (ДКП). Затем квантизатор округляет коэффициенты ДКП в соответствии с матрицей квантизации. Качество кодирования и коэффициент сжатия допускают коррекцию в зависимости от шага квантизации. Выходные данные квантизатора кодируются энтропийным кодером для генерации изображения в формате JPEG.
Поскольку следующие друг за другом видеокадры часто содержат много связанной информации, то при использовании оценки движения можно достигать высокого коэффициента сжатия. Например, для стандартного разрешения NTSC при частоте 30 кадров/с кодер H.264 может кодировать видеоданные с битрейтом 2 Мбит/с, обеспечивая среднее качество изображения с коэффициентом сжатия 60:1.
Стандарт MJPEG имеет ряд преимуществ по сравнению с методом оценки движения. Прежде всего, формат JPEG требует существенно меньше вычислительных операций и энергопотребления. Также на большинстве персональных компьютеров установлено программное обеспечение для декодирования и показа изображений в формате JPEG. Кроме того, стандарт MJPEG более эффективен при записи определенного события в виде одного или нескольких изображений, например, входящего в дверь человека. Если нельзя гарантировать пропускную способность сети, то стандарт MJPEG предпочтителен, поскольку потеря или задержка одного кадра не повлияет на другие кадры. При подходе на основе метода оценки движения задержка или потеря одного кадра вызовет задержку или потерю всей группы кадров, так как следующий кадр не будет декодирован, пока не станет доступным предшествующий опорный кадр.
Так как многие VSIP-камеры имеют несколько кодеров видеоданных, то пользователи могут выбрать наиболее подходящий из них исходя из требований конкретного приложения. Некоторые камеры способны одновременно поддерживать работу нескольких кодеров в разных комбинациях. Стандарт MJPEG обычно рассматривается как необходимый минимум, так что почти на всех VSIP-камерах установлен кодер JPEG.
Процессорная архитектура DSP/GPP, применяемая в системах видеонаблюдения
В обычной системе цифрового видеонаблюдения происходит захват видеоданных с датчика, затем их сжатие и потоковая передача на видеосервер. Прерывать работу кодера видеоданных, реализованного на основе современной архитектуры DSP, нежелательно, поскольку каждое переключение контекста может сопровождаться сохранением большого числа регистров и полной перезаписью кэш-памяти. Таким образом, идеальным выбором является неоднородная архитектура, при которой цифровой сигнальный процессор можно освободить от задач захвата и потоковой передачи видеоданных. Приведенная на рис. 3 блок-схема иллюстрирует пример процессорной архитектуры DSP/GPP, применяемой в приложениях видеонаблюдения.
Чтобы достичь наилучшей производительности системы при реализации сжатия цифровых видеосигналов в однокристальной системе с процессорной архитектурой DSP/GPP, разработчикам в первую очередь необходимо произвести правильное деление на функциональные модули.
Драйвер EMAC, сетевой стек TCP/IP и сервер HTTP, совместно обеспечивающие потоковую передачу сжатых видеосигналов на выход, а также драйвер захвата видео и драйвер ATA должны быть внедрены в подсистему ARM (Analogue Recording Module), чтобы разгрузить процессор DSP. Сжатие должно быть реализовано в ядре DSP, поскольку его архитектура VLIW особенно хорошо приспособлена для выполнения задач, требующих больших вычислений.
После того как видеокадры с камеры захвачены через входной видеопорт процессора, исходные видеоданные сжимаются работающим кодером видеоданных, затем сжатые данные сохраняются на жестком диске, подключенном к плате.
В действующей системе, развернутой на объекте, персональные компьютеры могут использоваться для мониторинга видеосцены в реальном времени, получая потоки данных с видеосервера, а затем декодируя и отображая видео на мониторе. В этом случае кодированные в формате JPEG файлы изображений могут оперативно загружаться через Интернет. На одном компьютере можно контролировать несколько потоков данных. Также их можно просматривать одновременно из различных точек сети. Огромным преимуществом по сравнению с традиционными аналоговыми системами является то, что центральный узел VSIP способен поддерживать связь с видеосервером по сети TCP/IP, физически находясь в любом месте сети. Единственной подверженной разрушению точкой становится цифровая камера, а не центральный узел. Качество изображения в формате JPEG также можно динамически конфигурировать в соответствии с изменяющимися техническими требованиями к качеству видео.
Рынок цифровых систем видеонаблюдения имеет большой потенциал роста. Однако в большинстве случаев требуется время, пока новые технологии получат признание, поскольку индустрия охранных систем весьма консервативна. Поэтому понимание принципов сжатия видеоданных, разбиения системы на модули и оптимизации кодеков является ключевым условием для разработки систем видеонаблюдения следующего поколения, которые смогут удовлетворить постоянно возрастающие потребности. Также важным преимуществом является возможность уже сегодня разрабатывать дифференцированные изделия.
Компания TI предпринимает активные шаги на пути решения этой задачи, информируя рынок о многочисленных преимуществах сетевых систем видеонаблюдения и выпуская процессоры на основе технологии DaVinci. Данные продукты позволяют заказчикам дифференцировать и создавать сложные сетевые приложения в области видео с улучшенным анализом видеоизображения и гибкой системой для обработки большего числа видеоканалов одновременно.