É possível encontrar as diferenças observando os modelos. Vejamos a codificação esparsa primeiro.
Codificação esparsa
A codificação esparsa minimiza o objetivo
que W é uma matriz de bases, H é uma matriz de códigos e X é uma matriz dos dados que desejamos representar. λ implementa uma troca entre esparsidade e reconstrução. Observe que, se recebermos H , a estimativa de W é fácil por meio de mínimos quadrados.
eusc= | | WH- X| |22termo de reconstrução+ λ | | H| |1 1termo de escarsidade
WXλHW
No começo, não temos no entanto. No entanto, existem muitos algoritmos que pode resolver o objetivo acima em relação a H . Na verdade, é assim que fazemos a inferência: precisamos resolver um problema de otimização se quisermos saber o h pertencente a um x invisível .HHhx
Codificadores automáticos
Os codificadores automáticos são uma família de redes neurais não supervisionadas. Existem muitos deles, por exemplo, codificadores automáticos profundos ou aqueles com diferentes truques de regularização - por exemplo, denoising, contrativo, escasso. Existem até probabilísticas, como redes estocásticas generativas ou o codificador automático variacional. Sua forma mais abstrata é
mas vamos seguir uma muito mais simples por enquanto:
L ae = | | W σ ( W T X )
D ( d( e ( x ; θr) ; θd) , x )
que
σ é uma função não linear, como o sigmóide logístico
σ ( x ) = 1euae= | | Wσ( WTX) - X| |2
σ .
σ( x ) = 11 + exp( - x )
Semelhanças
Observe que parece quase com L a e quando configuramos H = σ ( W T X ) . A diferença de ambos é que: i) os codificadores automáticos não incentivam a esparsidade em sua forma geral; ii) um codificador automático usa um modelo para encontrar os códigos, enquanto a codificação esparsa o faz por meio de otimização.eus ceua eH= σ( WTX)
Para dados de imagem natural, codificadores automáticos regularizados e codificação esparsa tendem a produzir muito semelhante . No entanto, os codificadores automáticos são muito mais eficientes e são facilmente generalizados para modelos muito mais complicados. Por exemplo, o decodificador pode ser altamente não linear, por exemplo, uma rede neural profunda. Além disso, um não está ligado à perda ao quadrado (da qual depende a estimativa de W para L s c ).WWeus c
Além disso, os diferentes métodos de regularização geram representações com diferentes características. Auto codificadores Denoising também demonstraram ser equivalentes a uma determinada forma de RBMs etc.
Mas por que?
Se você deseja resolver um problema de previsão, não precisará de codificadores automáticos, a menos que tenha apenas poucos dados rotulados e muitos dados não rotulados. Em geral, é melhor treinar um codificador automático profundo e colocar um SVM linear por cima, em vez de treinar uma rede neural profunda.
No entanto, são modelos muito poderosos para capturar características de distribuições. Isso é vago, mas atualmente são realizadas pesquisas que transformam isso em fatos estatísticos concretos. Modelos gaussianos latentes profundos, conhecidos como codificadores Auto variacionais ou redes estocásticas generativas, são formas bastante interessantes de obter codificadores automáticos que estimam a distribuição de dados subjacente.