Estou criando uma rede neural convolucional (CNN), onde tenho uma camada convolucional seguida por uma camada de pool e quero aplicar a desistência para reduzir o sobreajuste. Tenho a sensação de que a camada de abandono deve ser aplicada após a camada de pool, mas na verdade não tenho nada …
Qual é a diferença entre dropout e drop connect? No AFAIK, o abandono elimina aleatoriamente os nós ocultos durante o treinamento, mas os mantém em teste e o abandono deixa cair as conexões. Mas descartar conexões equivale a descartar os nós ocultos? Os nós (ou conexões) não são apenas um …
Bem, recentemente, eu estava trabalhando no aprendizado de algoritmos de impulso, como adaboost, aumento de gradiente, e eu sabia que o mais comumente usado é o árvores. Eu realmente quero saber se existem alguns exemplos bem-sucedidos recentes (refiro-me a alguns artigos ou artigos) para o uso de redes neurais como …
Isso é feito com referência ao documento Localização eficiente de objetos usando redes convolucionais e, pelo que entendi, a desistência é implementada em 2D. Após ler o código de Keras sobre como o Spatial 2D Dropout é implementado, basicamente uma máscara binária aleatória de forma [batch_size, 1, 1, num_channels] é …
Existem tantas técnicas de regularização que não é prático experimentar todas as combinações: l1 / l2 norma máxima cair fora parada antecipada ... Parece que a maioria das pessoas está satisfeita com a combinação de abandono e parada precoce: há casos em que o uso de outras técnicas faz sentido? …
Ao aplicar o abandono em redes neurais artificiais, é preciso compensar o fato de que, no tempo de treinamento, uma porção dos neurônios foi desativada. Para fazer isso, existem duas estratégias comuns: escalando a ativação no momento do teste invertendo a desistência durante a fase de treinamento As duas estratégias …
Eu tenho lido o artigo original sobre desistência, ( https://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf ) e na seção de regressão linear, afirma-se que: ER∼Bernoulli(p)[∥y −(R∗X)w∥2]ER∼Bernoulli(p)[‖y −(R∗X)w‖2]\mathbb{E}_{R\sim Bernoulli(p)}\left[\| y\ - (R*X)w\|^2\right] reduz para: ∥y−pXw∥2+p(1−p)∥Γw∥2‖y−pXw‖2+p(1−p)‖Γw‖2\|y - pXw\|^2 + p(1-p) \|\Gamma w\|^2 Estou tendo problemas para entender como eles chegaram a esse resultado. Alguém pode ajudar?
Entendo que o abandono é usado para reduzir o excesso de adaptação na rede. Esta é uma técnica de generalização. Na rede neural convolucional, como posso identificar o sobreajuste? Uma situação em que consigo pensar é quando obtenho uma precisão de treinamento muito alta em comparação à precisão de teste …
Tenho a seguinte configuração para um projeto de pesquisa de Finanças / Aprendizado de Máquina na minha universidade: estou aplicando uma Rede Neural (Profunda) (MLP) com a seguinte estrutura em Keras / Theano para distinguir estoques com desempenho superior (etiqueta 1) dos estoques com desempenho insatisfatório ( etiqueta 0). Em …