No que diz respeito à classificação baseada em pixels, você está no local. Cada pixel é um vetor n-dimensional e será atribuído a alguma classe de acordo com alguma métrica, seja usando Support Vector Machines, MLE, algum tipo de classificador knn, etc.
No entanto, no que diz respeito aos classificadores regionais, houve grandes desenvolvimentos nos últimos anos, impulsionados por uma combinação de GPUs, grandes quantidades de dados, nuvem e ampla disponibilidade de algoritmos, graças ao crescimento do código aberto (facilitado pelo github). Um dos maiores desenvolvimentos em visão / classificação por computador foi em redes neurais convolucionais (CNNs). As camadas convolucionais "aprendem" os recursos que podem ser baseados em cores, como nos classificadores tradicionais baseados em pixels, mas também criam detectores de borda e todos os tipos de outros extratores de recursos que poderiam existir em uma região de pixels (daí a parte convolucional) que você nunca foi possível extrair de uma classificação baseada em pixels. Isso significa que é menos provável que eles classifiquem incorretamente um pixel no meio de uma área de pixels de algum outro tipo - se você já fez uma classificação e conseguiu gelo no meio da Amazônia, entenderá esse problema.
Você aplica uma rede neural totalmente conectada aos "recursos" aprendidos através das convoluções para efetivamente fazer a classificação. Uma das outras grandes vantagens das CNNs é que elas são invariantes em escala e rotação, pois geralmente existem camadas intermediárias entre as camadas de convolução e a camada de classificação que generalizam os recursos, usando pooling e dropout, para evitar ajustes excessivos e ajudar com os problemas em torno. escala e orientação.
Existem inúmeros recursos em redes neurais convolucionais, embora o melhor deva ser a classe Standord de Andrei Karpathy , que é um dos pioneiros nesse campo, e toda a série de palestras está disponível no youtube .
Claro, existem outras maneiras de lidar com a classificação baseada em pixel versus área, mas atualmente essa é a abordagem mais avançada e tem muitas aplicações além da classificação de sensoriamento remoto, como tradução automática e carros autônomos.
Aqui está outro exemplo de classificação baseada em região , usando o Open Street Map para dados de treinamento com tags, incluindo instruções para configurar o TensorFlow e executar na AWS.
Aqui está um exemplo usando o Google Earth Engine de um classificador baseado em detecção de borda, neste caso para irrigação por pivô - usando nada mais que um kernel e convulsões gaussianos, mas novamente mostrando o poder das abordagens baseadas em região / borda.
Embora a superioridade do objeto sobre a classificação de classe baseada em pixel seja amplamente aceita, aqui está um artigo interessante em Cartas de Sensoriamento Remoto que avalia o desempenho da classificação baseada em objeto .
Finalmente, um exemplo divertido, apenas para mostrar que, mesmo com classificadores regionais / convolucionais, a visão por computador ainda é muito difícil - felizmente, as pessoas mais inteligentes do Google, Facebook, etc., estão trabalhando em algoritmos para determinar a diferença entre cães, gatos e diferentes raças de cães e gatos. Portanto, os interessados em sensoriamento remoto podem dormir à noite: D