Os hiperplanos classificam os dados de maneira ideal quando as entradas são condicionalmente independentes - Por quê?


9

No artigo chamado Aprendizagem Profunda e o Princípio do Gargalo de Informações, os autores declaram na seção II A) o seguinte:

Neurônios únicos classificam apenas entradas linearmente separáveis, pois podem implementar apenas hiperplanos em seu espaço de entrada . Os hiperplanos podem classificar os dados de maneira ideal quando as entradas são condicionalmente independentes.u=wh+b

Para mostrar isso, eles derivam o seguinte. Usando o teorema de Bayes, eles obtêm:

(1)p(y|x)=11+exp(logp(x|y)p(x|y)logp(y)p(y))

Onde é a entrada, y é a classe e y ' é a classe prevista (presumo que y ' não definido). Continuando, eles afirmam que:xyyy

(2)p(x|y)p(x|y)=j=1N[p(xj|y)p(xj|y)]np(xj)

Onde é a dimensão de entrada e n Não tenho certeza (novamente, ambos são indefinido). Considerando um neurônio sigmoidal, com a função de ativação sigmóide σ ( u ) = 1Nn e pré-ativaçãou, depois de inserir (2) em (1) obtemos os valores ideais de pesowj=logp(xj|y)σ(u)=11+exp(u)u eb=lSgp(y)wj=logp(xj|y)p(xj|y) , quando os valores de entradahj=np(xj).b=logp(y)p(y)hj=np(xj)

Agora vamos às minhas perguntas. Entendo como inserir (2) em (1) leva ao peso ideal e aos valores de entrada . O que eu não entendo, no entanto, é o seguinte:w,b,h

  1. Como (1) é derivado usando o teorema de Bayes?
  2. Como é (2) derivado? O que é ? Qual é o significado disso? Suponho que tenha algo a ver com independência condicionaln
  3. Mesmo que as dimensões de x sejam condicionalmente independentes, como se pode afirmar que é igual à sua probabilidade escalada? (ou seja, como você pode declarar ?)hj=np(xj)

EDIT: A variável é uma variável de classe binária. A partir disso, assumo que y ' é a "outra" classe. Isso resolveria a questão 1. Você concorda?yy


np(xj)

Respostas:


5

Desculpe pelos detalhes que faltam em nosso breve artigo, mas essas relações e conexões entre o teste da Razão de Verossimilhança e os neurônios sigmoidais certamente não são novas e podem ser encontradas em livros didáticos (por exemplo, Bishop 2006). Em nosso artigo, 'N' é a dimensão de entrada e 'n' é o tamanho da amostra de teste (que na verdade é traduzida para o SNR de entrada sob a suposição de que o SNR cresce como sqrt (n)). A conexão com a função sigmoidal é feita através da regra de Bayes, como a parte posterior da classe. Nada no restante do artigo e nosso artigo mais recente e mais importante de 2017 realmente depende disso.

Naftali Tishby


2
Obrigado por esclarecer isso aqui. É prática padrão nesta comunidade escrever citações completas para que os leitores interessados ​​possam procurar as fontes. Você poderia fazer isso por Bishop (2006)?
mkt - Restabelece Monica

4

Por 1

P(yx)=P(y,x)P(x)

=P(y,x)iP(yi,x)

yi

=P(y,x)P(y,x)+P(y,x)

=11+P(y,x)P(y,x)

=11+exp[log P(y,x)P(y,x)]

e a partir daí é apenas a propriedade do logaritmo chegar à forma final (deve estar suficientemente claro nesse ponto, deixe-me saber se não).


4

Essa é uma configuração de modelo em que os autores estão usando uma forma especial do teorema de Bayes que se aplica quando você tem uma variável binária de interesse. Eles primeiro derivam essa forma especial do teorema de Bayes como Equação (1) e depois mostram que a condição na Equação (2) os leva à forma linear especificada para sua rede. É importante observar que a última equação não é derivada de condições anteriores - é uma condição para a forma linear que eles estão usando para sua rede.


yyY

p(y|x)=p(y,x)p(x)=p(x|y)p(y)p(x|y)p(y)+p(x|y)p(y)=11+p(x|y)p(y)/p(x|y)p(y)=11+exp(log(p(x|y)p(y)p(x|y)p(y)))=11+exp(logp(x|y)p(x|y)logp(y)p(y))=logistic(logp(x|y)p(x|y)+logp(y)p(y)).

x=(x1,...,xN)N

logp(x|y)p(x|y)=logi=1N[p(xi|y)p(xi|y)]np(xi)=i=1Nnp(xi)log[p(xi|y)p(xi|y)]=i=1Nhiwi.

Sob essa condição, obtemos, portanto, a forma posterior:

p(y|x)=logistic(logp(x|y)p(x|y)+logp(y)p(y))=logistic(i=1Nhiwi+b),

nxy


n

Obrigado - editei minha resposta para refletir essas informações adicionais.
Ben - Restabelece Monica
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.