A técnica de "fatoração matricial" NÃO o ajudará a fazer seu trabalho! O artigo referido por @ mirror2image é sobre a subtração de segundo plano, mas NÃO com base na "fatoração da matriz".
Usar o vídeo em execução para detectar objetos em movimento (humanos ou veículos) é uma área ativa de pesquisa.
Como princípio básico, o sistema estima um plano de fundo estático típico através da amostragem de várias fotos e leva uma diferença de energia entre a imagem recebida e o plano de fundo. Se a energia é significativa, o pixel é classificado como primeiro plano. Esse conjunto de primeiro plano informa se existe uma entrada do objeto no sistema.
A melhor referência ao seu trabalho de pesquisa (e também relativamente mais simples, se você realmente deseja implementar) seria: o W4 System o encontra aqui e o artigo Picardi aqui como uma pesquisa mais detalhada para outras técnicas no sistema.
Existem muitos desafios que se aplicam ao problema:
A presença de ruído cria questões de grande ambiguidade. A abordagem aqui é aplicar filtragem temporal eficiente e considerar a variação do ruído para torná-lo imune ao limiar.
A presença da sombra cria ambiguidade de nem ser um primeiro plano nem. Existem trabalhos que modelam a distinção cor x intensidade para distinguir sombra x primeiro plano real.
O fundo pode ser complexo, como agitar árvores ou mar etc.
O fundo pode ter variação lenta ou repentina da iluminação, onde o fundo "aprendido" anterior é então adaptado ao novo.
Um dos documentos de referência mais referidos é chamado algoritmo de flor de parede, que mostra a melhor maneira de combinar vários cenários para produzir uma detecção robusta de objetos em movimento.