Mais classes de objetos aumentam ou diminuem a precisão da detecção de objetos


7

Suponha que você tenha um conjunto de dados de detecção de objetos (por exemplo, MS COCO ou Pascal VOC) com N imagens em que k classes de objetos foram rotuladas. Você treina uma rede neural (por exemplo, Faster-RCNN ou YOLO) e mede a precisão (por exemplo, IOU@0.5).

Agora você introduz x classes de objetos adicionais e adiciona os rótulos correspondentes ao seu conjunto de dados original, fornecendo um conjunto de dados com N imagens nas quais k + x classes de objetos foram etiquetadas.

A precisão da rede treinada aumentará ou diminuirá?

Para ser mais específico, temos um conjunto de dados de sinalização de trânsito com cerca de 20 classes de objetos. Agora, estamos pensando em adicionar classes de sinal de tráfego adicionais (rotular as novas classes, sem adicionar novas imagens ou alterar nossa arquitetura de rede) e estamos imaginando se isso aumentará a diminuição do desempenho.

Por um lado, acho que mais classes de objetos dificultarão a distinção entre classes. Além disso, uma rede neural pode conter apenas uma quantidade limitada de informações, o que significa que, se o número de classes se tornar muito grande, poderá não haver pesos suficientes para lidar com todas as classes.

Por outro lado, mais classes de objetos significam mais rótulos que podem ajudar a rede neural. Além disso, os efeitos de aprendizado de transferência entre as classes podem aumentar a precisão da rede.

Na minha opinião, deveria haver algum tipo de ponto ideal para cada arquitetura de rede, mas não consegui encontrar literatura, pesquisa ou experimento sobre esse tópico.


Eu não entendo o que você está tentando fazer. No meu entender, você tem uma rede treinada, que corrige todos os parâmetros relevantes (entrada, saída, pesos, arquitetura). O que você está tentando mudar? Se você alterar os dados de entrada, não há como dizer o que acontecerá. Se você alterar a forma de entrada, arquitetura ou saída, a rede não poderá mais ser usada, pois não será mais definida.
querubim

@cherub desculpe se isso não está claro, os parâmetros de entrada, saída e pesos são alterados durante o processo de treinamento dos conjuntos de dados maiores (com rótulos de classe adicionais). Mas a arquitetura geral da rede deve permanecer.
SaiBot 4/06

Respostas:


3

O comportamento específico da classificação dependerá da forma específica do modelo subjacente a um método de classificação. A resposta exata de um modelo para classes de objetos adicionais pode ser derivada matematicamente em casos particulares, embora isso possa ser complicado. Como você não forneceu detalhes de um método específico, assumirei que você está mais interessado na resposta geral dos modelos de classificação à adição ou remoção de classes de objetos. Para responder a isso, fornecerei uma explicação intuitiva do que você deve esperar em um modelo racional desse tipo de situação. Na medida em que o modelo se afasta desse resultado intuitivo, em condições amplas, considero isso uma deficiência. Portanto, considero as seguintes respostas como um desiderato para um sistema de previsão de objetos.


Previsão em um modelo com classes de objetos arbitrárias: Para ajudar a facilitar a análise desse problema, suponha que você tenha imagens de placas de rua (ou qualquer outra coisa) que sejam cada uma delas como um único tipo de . Sem perda de generalidade, sejam os tipos verdadeiros dos objetos que você está tentando classificar , com sendo os tipos de objeto verdadeiros. Suponha que você imponha um sistema de detecção que classifique cada imagem em tipos no conjunto finito , onde notamos que pode incluir rótulos emNmθ1,...,θNM{1,2,...,m}MSNSM, mas também pode incluir valores que não estão neste conjunto (por exemplo, é possível que seu sistema de detecção esteja tentando encontrar tipos de objetos que não estão lá).

Um sistema de detecção desse tipo examina os dados da imagem de cada uma das imagens e usa esses dados para classificar cada imagem em um tipo estimado, com base nos tipos permitidos no modelo. Em termos gerais, isso pode ser descrito pelos seguintes componentes:

DataModel TypesEstimatesx1,...,xNSθ^1,...,θ^NS

A probabilidade de classificação correta da imagem para um modelo com os tipos é:iS

pi(S)P(θ^i=θi|x,S)=sM  SP(θ^i=s|x,S)I(θi=s).

Os elementos deste último somatório estão sujeitos à restrição de probabilidade:

sM  SP(θ^i=s|x,S)=1.

Agora, claramente, se , temos , pois o tipo de objeto verdadeiro não está incluído no modelo. Portanto, se houver elementos de que não estejam em , isso levará à incapacidade de identificar corretamente esses tipos de elementos ausentes. Por outro lado, se excluirmos um elemento do conjunto , ceteris paribusθiSpi(S)=0MSS, isso aumentará a probabilidade de previsão dos tipos de objetos restantes, pois as probabilidades de previsões devem somar um. Portanto, a exclusão de um tipo de objeto tende a aumentar as probabilidades de previsão para outros tipos de objetos, o que aumenta a probabilidade de previsão correta para tipos de objetos verdadeiros que estão em .S

Uma análise mais detalhada precisaria postular a conexão entre os dados e as previsões do objeto. Não entraremos em detalhes sobre esse assunto aqui, pois o modelo específico não é especificado. No entanto, podemos considerar como uma propriedade geral dos modelos de previsão que eles tenderão a ter maior dificuldade em diferenciar tipos de objetos com aparência semelhante e tenderão a ter menos dificuldade em diferenciar tipos de objetos com aparência diferente . Portanto, a exclusão de um tipo de objeto do conjunto tenderá a aumentar a probabilidade de previsão de outros tipos de objetos neste conjunto que se assemelhem a esse objeto excluído, nos casos em que os dados conduzem a um desses tipos .xS


A exposição acima foi projetada para fornecer algumas orientações gerais, enfatizando a restrição de probabilidade nas previsões e a maneira como isso afeta a probabilidade de previsão correta. Isso leva aos seguintes princípios gerais de um modelo de classificação construído racionalmente. Ceteris paribus , o seguinte deve ser válido (pelo menos aproximadamente):

  • Se um tipo de objeto verdadeiro for excluído do modelo de classificação, isso reduzirá a probabilidade de previsão correta desse tipo de objeto para zero, mas tenderá a aumentar a probabilidade de previsão correta para outros tipos de objetos (particularmente tipos de objetos parecidos com este tipo excluído);

  • Se um tipo de objeto verdadeiro for adicionado ao modelo de classificação, isso permitirá que o modelo tenha uma probabilidade diferente de zero de previsão correta desse tipo de objeto, mas tenderá a diminuir a probabilidade de previsão correta para outros tipos de objetos (particularmente objetos tipos que se parecem com o tipo adicionado);

  • Se um tipo de objeto falso for excluído do modelo de classificação, isso tenderá a aumentar a probabilidade de previsão correta para todos os tipos de objetos verdadeiros (particularmente tipos de objetos que se parecem com esse tipo excluído); e

  • Se um tipo de objeto falso for adicionado ao modelo de classificação, isso tenderá a diminuir a probabilidade de previsão correta para todos os tipos de objetos verdadeiros (particularmente tipos de objetos que se parecem com o tipo adicionado).

Esses princípios gerais podem ter algumas exceções patológicas em modelos específicos, nos casos em que há múltiplas colinearidades complexas entre imagens. No entanto, eles devem ter como regras gerais que emergirão em modelos bem comportados sob condições amplas.


Obrigado por sua resposta elaborada, isso me deu algumas informações cruciais. A resposta se concentra na minha suposição de que "mais classes de objetos dificultarão a distinção entre classes". Você acha dos quatro efeitos que mencionei na minha pergunta que esse é o fator mais significativo? Ainda sinto que mais rótulos podem compensar esse efeito (pelo menos até certo ponto). Em particular, a parte da proposta de região da rede certamente se beneficiará de mais dados.
SaiBot 4/18

11
É realmente difícil de dizer. Esses tipos de problemas multivariados tendem a ser afetados pelos componentes principais (vetores próprios e valores próprios) na matriz de dados que você usa. A adição de novas imagens tem um efeito não trivial nisso, que é matematicamente complicado. Concordo que há efeitos de compensação se você adicionar dois efeitos opostos, mas é muito difícil dizer o efeito geral.
Ben - Restabelece Monica

Obrigado @Ben, acho que é uma resposta muito boa, mas parcial. Eu concederei a recompensa, mas não a aceitarei por esse motivo e espero que esteja tudo bem.
SaiBot 6/06/19

Sem problemas (e obrigado pela recompensa), mas acho que você provavelmente descobrirá que uma resposta mais detalhada exigirá a especificação do modelo específico que você está usando, para que as pessoas possam investigar suas propriedades matemáticas. Boa sorte com seu problema.
Ben - Restabelece Monica

1

Aqui está uma análise teórica detalhada sobre este tópico. https://arxiv.org/pdf/1506.01567.pdf .

Eu acho que isso depende do problema e modelo específicos. As proposições matemáticas da resposta acima só podem ser ditas sobre modelos estatísticos gerais. Nos dados de uma imagem, observamos dimensões muito altas, e a matemática nesse nível (a extrema não linearidade dos modelos profundos também adiciona) será muito complicada. O que podemos pensar intuitivamente (usando uma abordagem de função discriminante) é que quanto mais as classes são (dada a variação entre classes), melhor o modelo será capaz de desenhar a função discriminante entre as classes. Portanto, se a função discriminante for mais detalhada, a capacidade de generalização do modelo será maior ao prever uma imagem / exemplo invisível.

Pense nisso como uma separação entre clusters de dados em uma dimensão muito alta. Se você puder separar os clusters com mais precisão, é mais provável que você classifique um exemplo / imagem não vista de entrada.

Entre, informe-nos sobre o experimento e ele aumentou ou não. TIA.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.