Salto de dimensão no aprendizado de máquina


10

Qual é o problema de salto de dimensão no aprendizado de máquina (ocorrendo em redes neurais convolucionais e reconhecimento de imagem)? Eu pesquisei sobre isso, mas tudo o que recebo são informações sobre a física da deformação da forma do material. Seria mais útil para mim se alguém o explicasse com um exemplo relacionado ao aprendizado de máquina. Alguém pode me ajudar com isso ou me indicar recursos que podem?

Respostas:


7

Bem-vindo ao DataScience.SE! Eu nunca tinha ouvido falar desse problema, então procurei. É explicado no terceiro slide desta apresentação por Geoff Hinton:

Mais coisas que dificultam o reconhecimento de objetos

• Alterações no ponto de vista causam alterações nas imagens que os métodos de aprendizado padrão não conseguem lidar.

- Informações saltadas entre as dimensões de entrada (pixels)

• Imagine um banco de dados médico no qual a idade de um paciente às vezes salte para a dimensão de entrada que normalmente codifica o peso!

- Para aplicar o aprendizado de máquina, primeiro queremos eliminar esse salto de dimensão.

Em outras palavras, trata-se de recursos conceituais migrando ou pulando de uma dimensão de recurso de entrada para outra enquanto ainda representam a mesma coisa. Alguém gostaria de ser capaz de capturar ou extrair a essência do recurso enquanto é invariável em qual dimensão de entrada ele está codificado.


Entendo que no Computer Vision se quer ser invariável para lugares na imagem, mas não entendo o exemplo da idade.
Martin Thoma 26/05

Entendi que a idade e o peso dependem, mas não tenho certeza; não é a minha apresentação! Ou talvez eles quisessem usar literalmente a coluna errada e queremos detectar isso.
Emre 26/05

@sdream Eu apenas fiz um comentário; Emre deu a resposta. (Mas você provavelmente ainda deve aceitá-lo). O ponto com CNNs é que não apenas um recurso muda quando um objeto está em outro lugar, mas um padrão completo está em uma entrada diferente.
Martin Thoma 27/05

@ Emre, o que estou obtendo da sua resposta é que, não importa de que direção uma propriedade específica seja inserida, o recurso causado por essa propriedade específica deve ser invariável à dimensão de entrada dessa propriedade. Obrigado! :). Ainda aguardando respostas mais específicas, caso contrário, marcará sua resposta como resposta.
Sdream

3
O exemplo de idade deve destacar um conjunto de dados que não possui salto de dimensão. A idade e o peso não "pulam" ou trocam valores aleatoriamente entre exemplos - eles não são intercambiáveis ​​e o exemplo está mostrando quão estranho isso seria (e quão difícil seria fazer tarefas simples, como regressão linear). Os valores de pixel nas imagens (e dados semelhantes em muitas tarefas de processamento de sinal) são trocados ou movidos facilmente devido à natureza do problema.
Neil Slater

7

Pelo que entendi, o problema é o seguinte: No reconhecimento de imagens, as entradas para sua rede podem ser os pixels (em escala de cinza ou apenas 1 e 0 para preto e branco). Se você quiser, por exemplo, reconhecer números manuscritos, é muito difícil trabalhar apenas com esses valores, pois você nunca sabe onde será exatamente o número (ou seja, os valores em preto).

O pixel 140 é preto ou 142 é preto? Nos dois casos, pode ser um três. No exemplo de idade / peso, essas entradas estão bem definidas. O recurso 2 é peso. O recurso 3 é a idade. Essas "dimensões" não devem "saltar" no seu conjunto de dados.

Portanto: no treinamento da sua imagem, os "três" ou "carros" ou "casas" devem ser reconhecidos independentemente de sua localização na imagem, ou seja, os valores de pixel, ou seja, o vetor de característica / entrada, ou seja, as dimensões em oposição às claramente definidas entradas como dados do paciente.

Como você resolve isso no reconhecimento de imagens? Você usa truques adicionais, por exemplo, convolução.


2

Eu li as respostas anteriores e o comentário de Neil Slater no post de Emre, copiado novamente abaixo, bate no prego. "Salto de dimensão" é um termo criado pelo Dr. Hinton de fama pioneira em aprendizado de máquina no contexto do ponto de vista. Para citar o Dr. Hinton "Então, tipicamente visualize as dimensões de entrada correspondentes a pixels e, se um objeto se mover no mundo e você não mover seus olhos para segui-lo, as informações sobre o objeto ocorrerão em pixels diferentes". Idade e peso são dimensões de entrada que não são facilmente confundidas. O Dr. Hinton usou esta obviamente NÃO provável dimensão da situação de salto de idade e peso dos pacientes para significar que certamente seríamos capazes de identificar e corrigir qualquer erro entre esses tipos de dados (é difícil não notar que a maioria dos adultos tem menos de 100 anos ou mais de 100 libras). O provável problema do salto de dimensão, abordado pelo Dr. Hinton, é que os pixels podem ser deslocados porque temos um ponto de vista diferente (por exemplo, o objeto pode ter se movido ou estamos olhando para ele de um ângulo diferente). As redes neurais lineares não seriam capazes de detectar isso, enquanto as redes neurais convolucionais por design o seriam.

"O exemplo de idade deve destacar um conjunto de dados que não possui salto de dimensão. Idade e peso não" pulam "ou trocam valores aleatoriamente entre exemplos - eles não são intercambiáveis ​​e o exemplo está mostrando o quão estranho isso seria (e como difícil, isso tornaria tarefas simples, como regressão linear) Os valores de pixel nas imagens (e dados semelhantes em muitas tarefas de processamento de sinal) se trocam ou se movem facilmente devido à natureza do problema #: 305 de Neil Slater "


1

Explicação direta do curso de Hinton sobre Redes Neurais para Aprendizado de Máquina ...

"O salto de dimensão ocorre quando é possível pegar as informações contidas nas dimensões de alguma entrada e movê-las entre as dimensões sem alterar o alvo . O exemplo canônico está tomando uma imagem de um dígito manuscrito e traduzi-lo na imagem.As dimensões que contêm "tinta" agora são diferentes (foram movidas para outras dimensões), no entanto, o rótulo que atribuímos ao dígito não mudou. Observe que isso não é algo isso acontece de forma consistente no conjunto de dados, ou seja, podemos ter um conjunto de dados contendo dois dígitos manuscritos, onde um é uma versão traduzida do outro; no entanto, isso ainda não altera o rótulo correspondente dos dígitos ".


0

Esperar é apenas um problema com a parte da imagem ou pixels se movendo dentro da dimensão (principalmente) e algumas vezes para outra escuridão (campo receptivo diferente), mas a saída permanece a mesma.

Esse problema é tratado com invariância ou equivalência e parece que o exemplo de peso e idade é uma maneira fácil de declarar. Suponha que, se estamos cientes desse salto de peso e idade, faríamos facilmente alterações no algo e obteríamos o resultado certo. Mas, como o salto de dados / informações, o salto de imagem também acontece, se considerarmos um '4' e um '4' deslocados vários pixels para a esquerda como classes diferentes, com diferentes alvos.

Com Invariância de tradução ou melhor equivalência, throguh filtra esse movimento ou salto não é muito problemático, embora aumente a complexidade e o custo de jogar fora informações, como local.

Pls deixe-me saber se você precisar de mais clareza, vou tentar.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.