Uma boa análise teórica de esquemas com e sem substituição no contexto de algoritmos iterativos baseados em sorteios aleatórios (que são contra as quais redes neurais profundas discriminativas (DNNs) são treinadas) pode ser encontrada aqui
Em resumo, a amostragem sem substituição leva a uma convergência mais rápida do que a amostragem com substituição.
Vou fazer uma breve análise aqui, com base no exemplo de brinquedo que eles fornecem: Digamos que queremos otimizar a seguinte função objetivo:
xoptar= argminx12∑i = 1N( x - yEu)2
onde o destino . Neste exemplo, estamos tentando resolver o ideal , considerando rótulos de obviamente.x N y iyEu∼ N( μ , σ2)xNyEu
Ok, então, se resolvermos o ideal acima, diretamente, pegaremos a derivada da função loss aqui, configurá-la para 0 e resolver . Portanto, para o nosso exemplo acima, a perda éxxx
L = 12∑i = 1N( x - yEu)2
e sua primeira derivada seria:
δeuδx= ∑i = 1N( x - yEu)
Definir como 0 e resolver , produz: xδeuδxx
xoptar= 1N∑i = 1NyEu
Em outras palavras, a solução ideal nada mais é do que a média da amostra de todas as amostras de .yNy
Agora, se não pudéssemos executar o cálculo acima de uma só vez, teríamos que fazê-lo recursivamente, através da equação de atualização de descida do gradiente abaixo:
xEu= xi - 1- λEu∇ ( f( xi - 1) ))
e simplesmente inserir nossos termos aqui produz:
xEu= xi - 1- λEu( xi - 1- yEu)
Se executarmos o acima para todos os , estamos efetivamente executando esta atualização sem substituição. A questão então se torna: podemos obter também o valor ideal de dessa maneira? (Lembre-se de que o valor ideal de nada mais é do que a média da amostra de ). A resposta é sim, se você deixar . Para ver, expandimos: x x y λ i = 1 / ii ∈ 1 , 2 , . . . NxxyλEu= 1 / i
xEu= xi - 1- λEu( xi - 1- yEu) xEu= xi - 1- 1Eu( xi - 1- yEu) xEu= i xi - 1- ( xi - 1- yEu)Eu xEu= ( i - 1 ) xi - 1+ yEuEu eu xEu= ( i - 1 ) xi - 1+ yEu
A última equação, no entanto, nada mais é do que a fórmula para a média corrente! Assim, ao percorrermos o conjunto de , , etc, até , teríamos realizado nossas atualizações sem substituição, e nossa fórmula de atualização nos fornece a solução ideal de , que é a média da amostra!i = 1i = 2i = Nx
NxN= ( N- 1 ) xN- 1+ yN= = > xN= 1N∑i = 1NyEu= μ
Por outro lado, no entanto, se realmente empatássemos com a substituição, embora nossos empates fossem verdadeiramente independentes, o valor otimizado seria diferente da média (ótima) , e o erro quadrado seria dado por:xNμ
E{ ( xN- μ )2}
que será um valor positivo, e este exemplo simples de brinquedo pode ser estendido para dimensões mais altas. Isso tem a conseqüência de que gostaríamos de realizar amostragens sem substituição como uma solução mais ideal.
Espero que isso esclareça um pouco mais!