Como um U-Net agrupa as classificações de pixel em uma única região espacial?

A rede neural conhecida como " U-Net " (Ronneberger, Fischer e Brox 2015) foi uma técnica proeminente no recente concurso de Segmentação de Nervos por Ultrassom da Kaggle , onde pontuações altas foram atribuídas a algoritmos que criaram máscaras de pixel com alto grau de sobreposição. as regiões desenhadas à mão.

(Foto de Christopher Hefele )

Se alguém classificar cada pixel (talvez de uma imagem com amostragem reduzida), deve haver muitas maneiras de incorporar o conhecimento prévio de que os pixels vizinhos tenderão a ter a mesma classe e, além disso, que todas as classificações positivas devem residir em uma única região espacial. No entanto, não consigo descobrir como essas U-Nets estão fazendo isso. Eles classificam cada pixel, embora por meio de um labirinto de operadores convolucionais e de pool:

Existem fronteiras de separação envolvidas, mas o artigo observa que elas são "computadas usando operações morfológicas", que entendo como completamente separadas da própria U-Net. Essas bordas são usadas apenas para modificar os pesos, de modo que mais ênfase seja colocada nos pixels na borda. Eles não parecem alterar fundamentalmente a tarefa de classificação.

Ao classificar cada pixel, como essa rede neural convolucional profunda, chamada "U-Net", incorpora o conhecimento prévio de que a região prevista será uma única região espacial?

— Ben Ogorek
fonte

Ele incorpora "conhecimento prévio" treinando a rede em um conjunto de dados de treinamento que atualizará os pesos dos filtros de convolução. É assim que a maioria das redes neurais é treinada com backprop padrão. Onde a perda a ser contraproposta é baseada na perda de segmentação neste caso.

Aqui está um link para mostrar melhor uma visualização de deconvolução viz . Ele não mostra como é treinado, porque é o mesmo que o treinamento regular da convolução e há outros recursos para isso, como aqui o backprop .

— Steven
fonte

Então pense na estrutura dos LSTMs, por exemplo. A arquitetura em si permite estabilidade ao longo do tempo através de um "estado da célula". Não vi nada parecido com redes U no domínio espacial. No entanto, desde que fiz essa pergunta, aprendi um pouco mais. Agora, acho que os pixels próximos um do outro tendem a ter a mesma classe prevista, porque as entradas são quase as mesmas, devido aos filtros e às operações de conversão ascendente.

— Ben Ogorek 02/08/19

O que você declarou está incorreto. A arquitetura de um LSTM não permite inerentemente estabilidade (mesmo com o tempo). Em vez disso, o que o LSTM faz é executar uma combinação não linear de um estado oculto (entradas anteriores) com sua entrada atual. A combinação não linear não precisa ser estável.

— Steven

Isso é mais parecido com a classificação da imagem. Como o VGG ou o Resnet, por exemplo, classifica uma imagem como gato ou cachorro etc. Ele cria algumas representações não lineares dos pixels que podem ser usadas para classificar a imagem. Nesse caso, a arquitetura U-Net constrói combinações não-lineares de pixels em resolução espacial cada vez maior por meio de downsampling e, em seguida, realiza a upsampling, mas a upsampling aprendida que priorizará alguns recursos em detrimento de outros na imagem original. Você está treinando os pesos que realizam a redução e a redução da amostragem para melhor segmentar uma imagem.

— Steven

Suas duas últimas frases são mais do que eu esperava ver na resposta original. Geralmente, não há muito material sobre amostragem ascendente (convolução ascendente?) E os tipos de recursos que podem ser aprendidos. Você pode expandir isso na sua resposta original?

— Ben Ogorek

Realmente é o mesmo que convolução. Como os filtros são aprendidos em qualquer um dos processos são por propagação reversa. Incluí um link para outro post que destaca melhor o que a upconvolution está fazendo. O bloco de quadrados cinza é um filtro que é aprendido e aplicado à entrada azul acolchoada. Deixe-me saber se isso ajuda ou ainda há confusão.

— Steven