No artigo chamado Aprendizagem Profunda e o Princípio do Gargalo de Informações, os autores declaram na seção II A) o seguinte:
Neurônios únicos classificam apenas entradas linearmente separáveis, pois podem implementar apenas hiperplanos em seu espaço de entrada . Os hiperplanos podem classificar os dados de maneira ideal quando as entradas são condicionalmente independentes.
Para mostrar isso, eles derivam o seguinte. Usando o teorema de Bayes, eles obtêm:
(1)
Onde é a entrada, y é a classe e y ' é a classe prevista (presumo que y ' não definido). Continuando, eles afirmam que:
(2)
Onde é a dimensão de entrada e n Não tenho certeza (novamente, ambos são indefinido). Considerando um neurônio sigmoidal, com a função de ativação sigmóide σ ( u ) = 1 e pré-ativaçãou, depois de inserir (2) em (1) obtemos os valores ideais de pesowj=logp(xj|y) eb=lSgp(y) , quando os valores de entradahj=np(xj).
Agora vamos às minhas perguntas. Entendo como inserir (2) em (1) leva ao peso ideal e aos valores de entrada . O que eu não entendo, no entanto, é o seguinte:
- Como (1) é derivado usando o teorema de Bayes?
- Como é (2) derivado? O que é ? Qual é o significado disso? Suponho que tenha algo a ver com independência condicional
- Mesmo que as dimensões de x sejam condicionalmente independentes, como se pode afirmar que é igual à sua probabilidade escalada? (ou seja, como você pode declarar ?)
EDIT: A variável é uma variável de classe binária. A partir disso, assumo que y ' é a "outra" classe. Isso resolveria a questão 1. Você concorda?