CV2011 Lecture 11. Basic video

Основы видеонаблюдения

Общая информация

Этот курс
подготовлен и
читается при
поддержке Microsoft
Research

 Страница курса
http://courses.graphicon.ru/main/vision

Задачи видеонаблюдения
• Выделение «объектов интереса» в
видео и отслеживание их
движения в последующих кадрах

• Выделение объектов интереса
• Результат - ограничивающий
прямоугольник
• Или попиксельая маска

• Отслеживание (video tracking)
• Вход – положение объекта на первом
кадре
• Результат – траектория движения
объектов (след или “track”)

Проблемы
• Масштабируемость
• Видео гораздо больше одного изображения, гораздо
выше вычислительная нагрузка

• Изменение по времени
• Вид объекта меняется от кадра к кадру из-за ракурса,
изменения освещения, внутренних изменений (идущий
человек)

• Несколько объектов
• В сцене могут быть несколько объектов, которые могут
быть похожи друг на друга, перекрывать друг друга и т.д.

Оценка качества
• Потребуются размеченные данные, в которых отмечено
положение объекта в каждом (или в ключевых кадрах)

• Ошибка отслеживание – расстояние до ground truth данных

• Ожидаемая ошибка на видеопоследовательности

• Точность (precision)

• Надежность (robustness)

Выбор объекта интереса

• Инициализация вручную

• Детектор объектов
• Детектор «пешехода»
• Детектор «лиц»

• Сегментация видео
• Выделение движущихся объектов

Система видеонаблюдения

• Построим стандартную, простую систему
видеонаблюдения
• Упрощение 1: стационарная камера
• Упрощение 2: стабильный фон, мало изменяющийся
между камера

Вычитание фона

- =
• Background subtraction
• Возьмем изображение без объектов (фон, background)
• Вычтем фон из новых изображений с объектами
• Сравним разницу для каждого пикселя с порогом
– Порог – параметр алгоритма
• Если разница больше порога - то пиксель принадлежит
«переднему плану» (foreground)
• Получаем маску «переднего плана»

Обработка маски переднего плана

• Выделим отдельные объекты как связанные компоненты
• «Блоб» («капля», blob) - связанная компоненты маски переднего
плана
• Для подавления шума отфильтруем маску переднего плана
 Медианная фильтрация, морфология
 Это простейший (и работоспособный) алгоритм выделения
движущихся объектов
 Для мышек часто применялся

CV2011 Lecture 11. Basic video

Реальная картина

Фон существенно меняется

Яркость по времени

• Будем рассматривать каждый пиксель изображения i независимо
от остальных
• Яркость (цвет) xi каждого пикселя фона изменяется по времени t
• Построим модель яркости(цвета) xi пикселя i фона
• Если на новом кадре яркость (цвет) пикселя не удовлетворяет
модели фона - значит это пиксель принадлежит движущемуся
объекту

Общая схема вычитания фона

- Initialize_background_model()
- For t = 1:N
- Compute_frame_difference()
- Threshold_frame_difference()
- Noise_removal()
- Update_background_model()
- end

Усреднение кадров
• Простейшая модель фона –
одно изображение чистого
фона

• Возьмем N кадров и
попиксельно усредним
интенсивности (цвета)

Модель фона - медиана

• Когда не работает усреднение:
• Всегда в кадре движущиеся объекты
• Случайные и резкие изменения яркости (блики, засветка)
• Вместо усреднения берем медиану

Среднее vs Медиана

Средний цвет Медиана

Вычитание медианного фона

-

=

Другие методы

• Во многих случаях медиана может не помогать
• Пр.: когда мышь сидит в одном месте >50% кадров
тестового видеоролика

• Предлагаются другие методы, на основе
оптимизации целевой функции
• Например, разобьём все изображения на сегменты
• Будем выбирать сегменты из разных кадров, чтобы была
наиболее плавная и стабильная картинка

Обновление модели фона
 Что делать, если освещенность постепенно
меняется?
 Moving average – постоянное обновление фона
 Взвешенная сумма текущего и предыдущих N
кадров

 Ещё один (или несколько) параметр – вес кадра

Гауссиана
• Предположение:
• Интенсивность меняется в небольших пределах вокруг
какого-то значения
• «Шум камеры»
• Нормальное распределение

Wren, Christopher R., Ali Azarbayejani, Trevor Darrell, and Alex Pentland. “Pfinder:
Real-Time Tracking of the Human Body,” IEEE PAMI, 1997

Вычисление параметров
• Для одного канала:
N
1
• Вычисляем среднее 
N
x
i 1
i

1 N
• Вычисляем дисперсию 2   ( xi   ) 2
N  1 i 1

• Вероятность нового пикселя y:

( x  )2
1 
2 2
 ( x | , )  e
 2

Обновление параметров

• Обновление матожидания

t 1  t  (1   ) xt 1

• Обновление дисперсии
2 2 2 2
 t 1   ( t 1  ( t 1  t ) )  (1   )( xt 1  t 1 )
а – скорость обновления (обучения)

Многоканальное изображение

• Можно рассчитать полную матрицу ковариации K
• Обновлять полную матрицу сложно
• Обновление только среднего, с сохранением
ковариации

t 1  t  (1   ) xt 1

Смесь гауссиан

• Один гауссиан – один кластер
• Значения могут группироваться в несколько
кластеров

W.E.L.Grimson, C.Stauffer. Adaptive background mixture models for real-time
tracking. CVPR 1999


Распределение интенсивности красного
и зеленого каналов


 Вероятность интенсивности y при модели смести К
гауссиан
K
P( xt )   i ,t N (xt , i ,t ,  i ,t )
i 1

i,t - вес компоненты I в момент t

• Вычисление смеси требует EМ алгоритма (не в
реальном времени), поэтому используем
приближение

Обучение смеси на лету

• Пусть N – количество компонент в смеси
• Инициализируем 1ую компоненту по первому
изображению, вес = 1, вес остальных – 0
• Сравниваем пиксель с каждой компонентой, пока
не найдем совпадения
• Обновляем матожидание и дисперсию совпавшей
компоненты
• Если совпадения не найдено, то заменяем
компоненту с наименьшим весом
• Обновляем веса

Обновление весов

Обновление весов:

i ,t  (1  a )i ,t 1  aM i ,t
M i ,t = 1, если интенсивность пикселя
удовлетворяет i-ой компоненте

После обновления всех весов, они нормализуются

Моделирование фона
• Упорядочим все компоненты по критерию i / 
• Чем «стабильнее» компонента, тем выше
• Чем больше вес (чаще встречается, тем тоже выше
• Определим порог T - какая доля выборки для
каждого пикселя должна соответствовать фону
• Тогда фон для каждого пикселя:
b
B  arg min (  i  T )
b i 1
• Все остальные компоненты - объекты

Пример работы

(1) (2) (3) (4)

1. Исходный кадр
2. Модель фона (старшая гауссиана)
3. Мат.ожидания второй гауссианы
4. Маска переднего плана

Как настраивать модель?
• Если есть размеченные данные:
• Оценка precision/recall на наборе
видеороликов
• Выбор параметров, оптимизирующих
желаемую точность

• Если нет размеченных данных
• Можно взять видео без объектов
• Настроить параметры таким образом,
чтобы получить заданное количество
ложных обнаружений
• Минимальные пороги для достижения
заданной «чувствительности»

Непараметрическая модель

A. Elgammal, D. Harwood, and L. Davis. Non-parametric model for background
subtraction,“ ICCV'99 Frame-rate workshop, 1999


Пусть x1 ,..., xN - N значений пикселя (выборка)
N
1
P( x ) 
N
 K(x  x )
j 1
j

K – ядровая функция, обычно тоже гауссиан

P( x ) T - тогда фон


• K можем считать с помощью lookup-таблицы
• Можно суммировать до тех пор, пока не
превысим порог (и пометим как объект)
• Оценка ширины ядра:

m  median xi  xi 1
m

0.68 2

Двухэтапное обнаружение
• Объект может случайно сдвинуться дальше, чем в
обученной модели
• Образуются ложные обнаружения
• Второй этап обнаружения:
• Сравним пиксель со всеми из окрестности:

• Будем разрешать, только если вся компонента
сдвинулась:

Схема обновления фона
• Short-term model
• N последних элементов
• Выборочное обновление
• Long-term model
• N элементов за долгий период времени
• Слепое обновление
• Больше false positives (т.к. модель не учитывает
последних изменений)
• Больше false negatives (т.к. в модель слепо можем
добавить объекты)
• Комбинированная модель
• Находим объекты на обеих моделях
• Берём их пересечение
• Добавляем объекты из «срочной» модели, если они
граничат с найденным на «долгой» модели объектами

Поблочная обработка

• Вместо анализа каждого пикселя мы можем
разбить всё изображение на блоки и
анализировать блоки
• Точность сегментации получается хуже, зато
считается статистика изображения в блоке, что
повышает надежность

Статистики по окрестностям

Ko, T.[Teresa], Soatto, S.[Stefano], Estrin, D.[Deborah], Background Subtraction
on Distributions, ECCV 2008

Схема алгоритма
• Посчитаем статистику (гистограмму) по 3D окрестности пикселя
(фон):

• Посчитаем статистику по 2д окрестности пикселя на текущем
кадре:

• Вычислим разницу:

• Обновление модели:

Результаты работы

Глобальные модели цветов
• Если у объекта и фона
характерные цвета, то почему
бы это не использовать?

• Построим цветовые модель
объекта и модел фона

• Для каждого пикселя будем
сравнивать вероятности
принадлежности пиксела
обоим моделям и выбирать ту,
вероятность для которой будет
выше

Модель фона
• Построим и глобальную, и локальную модели фона
• Глобальная: смесь гауссиан (GMM)

( K b  10  15)
Kb
p ( I r | xr  B )    k N ( I r |  k ,  b )
b b
k
k 1

Модель фона

• Построим и глобальную, и локальную модели фона
• Глобальная: смесь гауссиан (GMM) ( K b  10  15)
• Локальная: один гауссиан

Общая модель фона

• Глобальная: смесь гауссиан (GMM) ( K b  10  15)
Kb
p global ( I r | xr  B )    k N ( I r |  kb ,  b )
b
k
k 1

• Локальная: один гауссиан
B B
plocal ( I r )  N ( I r |  ,  )
r r

• Объединенная:
pmix ( I r )    p global ( I r | xr  B)  (1   )  plocal ( xr )

Модель переднего плана
• Возьмём те пиксели, для которых вероятность фона низкая
pB ( I r )  t f
• Обучим по ним смесь гауссиан (K=5)

Соотношение моделей?

pglobal ( I r | xr  F ) if xr  F
pmix ( I r ) if xr  B

pmix ( I r )    pglobal ( I r | xr  B )  (1   )  plocal ( xr )

 ?

Адаптивная смесь

pmix ( I r )    p global ( I r | xr  B )  (1   )  plocal ( xr )

Адаптивная модель
Дивергенция Kullback-Liebler KL fb
K
f f b wkf
KL fb   wk min ( KL ( N k || N i )  log b )
k 0
i wi

дает разницу между двумя смесями гауссин

0  KL fb  

KL fb  0  модели идентичные


KL fb

  1 1 e
2
KL

KL fb  1
 1
KL fb  1
pmix ( I r )  p global ( I r | xr  B )
  0.5 Только глобальная модель

pmix ( I r )  1  p global ( I r | xr  B)  1  plocal ( xr )
2 2

Поровну локальная и глобальные модели


pglobal ( I r | xr  F ) if xr  F
pmix ( I r ) if xr  B

pmix ( ) ( I r )    p global ( I r | xr  B )  (1   )  plocal ( xr )

• Параметр смешения моделей можно уточнять на
каждом кадре, в т.ч. с учётом других факторов
• Глобальная модель позволит нам обрабатывать
сложные случаи изменения фона, когда локальная
модель срабатывает плохо и наоборот

Поддержка модели фона
Изменение освещенности
• Автоподстройка камеры
• Лампы дневного света
• Включение света

Небольшое изменение освещенности:
• Преобразование цветовых моделей на основе преобразования
гистограмм {I rB }  {I r  B}
Резкие изменения
• Перестройка цветовой модели фона и переднего плана
• Использование карты достоверности краёв как подсказки

• Движение в фоне
• Опираемся на глобальную модель

• Дрожание камеры
• Применяем размытие по гауссу
• Уменьшаем вес локальной цветовой модели

• «Заснувшие» и «Пешеход» на заднем плане
• Оставляем только самую большую связанную компоненту

Отслеживание объектов
• Выделили «объекты интереса» на
каждом кадре с помощью вычитания
фона в виде набора блобов
• Какому объекту (следу) какой блоб
соответствует?
• Фактически – задача сопоставления или
ассоциации данных (Data association)
• «Tracking by detection»
• Можем каждый объект описать набором
признаков

Детерминированное слежение

 Нахождение соответствий между объектами,
найденными на соседних кадрах с учетом ограничений

 Варианты:
 Новые объект

 Сопоставление старому следу

 Пропадание объекта

Простейшая стратегия

Сопоставим ближайшее наблюдение следу

Простейшая стратегия в более сложных случаях не срабатывает,
поэтому исследовались разные ограничения

Виды ограничений

• (а) близость
• (b) максимальная скорость
• (c) малое изменение вектора скорости
• (d) общее движение
• (e) «жесткость»

Детерминированные алгоритмы

Двухкадровые Многокадровые

Базовый метод видеонаблюдения

• Обучение модели фона
• Для каждого кадра
• Вычитание фона
• Обработка маски (фильтрация, морфологии)
• Выделение связанных компонент
• Ассоциация объектов в треки
• Инициализация новых треков
• Обновление фона

Отслеживание объектов

• Что делать, если фон не стационарный?
• Придётся строить какую-то модель объекта, и
искать на следующем кадре похожий объект

Схема слежения

Представить
Инициализац Выбрать
модель в
ия модели пространство
выбранном
признаков
пространстве

… Current …
frame

Схема слежения

Старт с Поиск в Выбор
текущей окрестности в положения,
следующем максимизирую
позиции
кадре щего сходство

Повторение
процедуры
для
следующего
кадра

Модель Кандидат
… Текущий …
кадр

Представление объектов

• Как будем описывать модель объекта и фона?
• Некоторое приближение – адаптивные модели для вычитания
фона («глобальная цветовая модель фона» и «модель цвета
объекта»

Множество точек
• Простейший kernel метод – отслеживание
ключевых точек

• Общая проблема – быстрая деградация
точек

• Решение – использование «стаи точек»
(flock of features)

Пример: отслеживание руки

• Условия «стаи»
• Никакие две особенности не совпадают (порог на
близость)
• Никакая особенность не уходит далеко от медианного
центра (порог на удаление)


• Шаг 1: инициализация
• Находим 100 особенностей в рамке руки
• Вычисляем медиану
• Вычисляем цветовую статистику в окрестности центра
– одна гауссиана (или гистограмма нормализованная)
• Можем вычислить карту цветовой сегментации


• Шаг 2: слежение
• Отслеживаем особенности
• Если особенность нарушает условия стаи, её удаляем
• Шаг 3: инициализация новых особенностей
• Ищем особенности, используем карту вероятности цвета
кожи
• Если вероятность <порога, отбрасываем особенность

Template matching

• Сопоставление шаблонов – поиск
положения (bbox, эллипс)
• Ключевой вопрос – моделирование
внешности:
• Само изображение как шаблон (NCC)
– Ищем на следующем кадре похожие по кросс-
корреляции фрагменты
• Карты краёв
• Вероятностное моделирование
– Цвет, текстура, и т.д. (гистограммы обычно)

• Общая проблема – негладкость функции качества, из-за
чего градиентные (итеративные) методы часто
ошибаются

Карта краёв

• Карта краёв выбирается как шаблон для дальнейшего сравнения
• Вычисляется метрика Хаусдорфа на основании distance transform
• Шаблон обновляется как набор краёв, ближайших к краям шаблона
предыдущего кадра

• HUTTENLOCHER, D., NOH, J., AND RUCKLIDGE, W.. Tracking nonrigid objects
in complex scenes. ICCV 1993

Слежение сдвигом среднего
Представим
Выбор Выбор модель как
опорной пространства распределение
модели признаков (PDF)
признаков

0.35

Квантованная 0.3

0.25
цветовая

Probability
0.2

модель 0.15

0.1

0.05

0
1 2 3 . . . m
color

• Метод на основе вероятностного представления модели объекта
• Решение проблемы гладкости целевой функции

Dorin Comaniciu, Visvanathan Ramesh, Peter Meer, Kernel-Based Object Tracking, PAMI 2003


Модель Кандидат
(центр в 0) (центр в y)
0.35 0.3

0.3 0.25

0.25
0.2
Probability

Probability
0.2
0.15
0.15
0.1
0.1

0.05 0.05

0 0
1 2 3 . . . m 1 2 3 . . . m
color color

 m
 m
q  qu u 1..m q u 1 p  y    pu  y u 1..m p u 1
u 1 u 1

 
Сходство: f  y   f  q, p  y 
 

 
Сходство: f  y  f  p  y,q
 

f  y

Возможны
Цель Пропадает резкие скачки
Проблема: описывается информация о метрики при
только цветом положении небольших
сдвигах
Градиентные
f не гладкая методы не
робастные

Покроем цель f(y) станет
Решение: изотропным ядром гладкой в y


model candidate

 xi i 1..n Пиксели цели

0 y

k ( x) Изотропное, выпуклое, дифференцируемое, монотонно убывающее ядро
(Пиксели по краям могут перекрываться, взаимодействовать с фоном и т.д.)

b( x ) Индекс ячейки гистограммы (1..m) для пиксела x

Вероятность фичи u в модели Вероятность фичи u в кандидате
2
 y  xi 
qu  C 
b ( xi ) u
k xi   2
pu  y   Ch  k 
 h
b ( xi )  u 



0.3 0.3

0.25 0.25

Probability
0.2 0.2
Probability

Нормализация 0.15
Вес пиксела Нормализация 0.15 Вес
0.1 0.1
пиксела
0.05 0.05

0 0
1 2 3 . . . m 1 2 3 . . . m

color color



Модель цели: q   q1 ,, qm 

Кандидат: p  y    p1  y  , , pm  y  
 
Подобие: f  y  f  p  y, q  ?
 

The Bhattacharyya Coefficient 
q
 1
q   q1 , , qm 

y
p  y    p1  y  , , pm  y   1

p  y 
T
p  y  q m
f  y   cos  y    pu  y  qu
p  y   q u 1


Начинаем с Ищем в
текущей Максимизируем
окрестности сл.
позиции сходство
кадра

   
q p  y f  p  y,q
 


m
f  y    pu  y  qu Положение модели: y0
u 1 Положение кандидата: y
Линейное 1 m 1 m qu
приближен f  y    pu  y0  qu   pu  y 
ие. 2 u 1 2 u 1 pu  y0 
(вокруг y0)
2
 y  xi 
pu  y   Ch  k  
 h
b ( xi ) u 

Независимо 
от y 2
Ch n  y  xi  Оценка

2
 wi k  h
 

плотности!
(как функции
i 1   от y)

2
Ch n  y  xi 
Мода 2
 wi k  h
 
 = целевой максимум
i 1  

Предположения:

Предстваление
цели достаточно
для
распознавания

Одна мода в
окрестности

2
Ch n  y  xi 
Мода 2
 wi k  h
 
 = целевой максимум
i 1  

K  x   ck x  2
k  x   g  x 

n  y0  xi 2 
n  y  xi 2

 xi g  h 
 
Original y1 
i 1  
Find mode of c  k   using
Mean-Shift:  h  n  y0  xi 2 
i 1   g h 
 
i 1  

 y0  xi 2 
n

 2  xi wi g  h 
 
Extended
n
y  xi  i 1  
Find mode of c  wi k 
  using y1  n

Mean-Shift: h  y0  xi 2 
i 1    wi g  h 
 
i 1  

Особый класс
радиально-
K  x   ck x   2

симметричных ядер k  x   g  x 

Epanechnikov kernel: Uniform kernel:

1  x if x  1  1 if x  1 
k  x    g  x   k  x    
 0 otherwise  0 otherwise 

n  y0  xi 2  n
 xi wi g  h 
  xw i i

y1 
i 1   y1  i 1
n
n  y0  xi 2 
 wi g  h 
 
w
i 1
i
i 1  


Проблема :
Масштаб
Масштаб
(h) ядра
цели
должен
меняется
меняться

Решение:
Выбираем h,
Прогоняем
на котором
поиск 3 раза с
достигается
разными h
максимум


Пространство признаков: 161616 квантованное RGB

Выбор признаков

• В зависимости от разных факторов, объект может
быть различим в разных каналах, по разным признакам

COLLINS, R. AND LIU, Y.. On-line selection of discriminative tracking features.
ICCV 2003

Оценка качества канала

Рассмотрим отдельный канал

Оценка каналов

• Всего 49 каналов, как линейные комбинации
цветовых каналов:

Примеры оценки каналов

Сравнение методов

Один фиксированный канал (MeanShift)

Выбор каналов на лету

Комитетный трекер
• Для слежения будем классифицировать пиксели на
объект/фон сильным классификатором (бустинг)
• На каждом кадре убирается K самых старых слабых
классификаторов
• Строится K новых классификаторов для текущего
кадра

S. Avidan. Ensemble tracking. PAMI, 2007

Слабые классификаторы

• 11D признаки для каждого пикселя (HOG + RGB)
• Линейный классификатор по МНК

Адаптация классификаторов

• Демонстрация изменения слабых классификаторов
• 5 слабых классификаторов, вверху – самый свежий
• Уровни задают веса признаков, первые 8 –HOG, далее RGB

Многомасштабное слежение

• Для 3х уровней масштаба строится свой сильный классификатор
• На каждом уровне строится своя карта вероятности объекта
• Карты приводятся к одному уровню и смешиваются
• Находим пик карты с помощью MeanShift

Объединение трекеров

• Идея:
• Протестировать ряд базовых трекеров на наборе
выборок, оценить качество и надежность
• Найти зависимость качества трекера от
уверенности (confidence value)
• Найти хорошо дополняющие друг друга группы
методов
• При падении доверия к первому методу в группе
мы переключаемся на второй метод

B. Stenger, T. Woodley, R. Cipolla Learning to Track With Multiple Observers,
СVPR 2009

Тестовые данные

• Indoor и Outdoor данные
• Во всех присутствует изменение позы, размера, размытие из
движения (motion blur)

Обучение метрики доверия

• По тестовым данным обучаем p(e|c ), где c –
параметр доверия, специфичный для каждого метода

Результаты оценки

Каскадное объединение

• Если оценка качества по доверию для метода 1
падает ниже порога, переключаемся на метод 2
• Когда все методы дают низкое качество, происходит
переинициализация метода

Результаты объединения

Сравнение

• Сравнение результатов на тестовых данных и на других
реальных данных

Примеры работы

NCC NCC NCC

CM CM CM

• Работает NCC, при возникновении motion blur система
переключается на CM (color + motion map)

Примеры работы

NCC NCC NCC

FF FF MS
• Работает NCC, потом переключение на FF (flock of features),
потом на MS (mean shift)

Резюме лекции
• Вычитание фона – основа систем видеонаблюдения
со стационарным фоном
• Если фон динамический, то нужно отдельно
выделять объекты и затем применять методы
отслеживания объектов
• Зато есть ряд базовых методов, каждый в своём
случае хорошо работает
• NCC
• Flocks of features
• MeanShift
• Выход в их комбинации, но это иногда существенно
замедляет скорость работы

CV2011 Lecture 11. Basic video

More Related Content

What's hot (20)

Similar to CV2011 Lecture 11. Basic video (20)

More from Anton Konushin (13)

CV2011 Lecture 11. Basic video