Entendendo o teorema do almoço grátis na Classificação de Padrões de Duda et al.


12

Tenho algumas perguntas sobre as anotações usadas na Seção 9.2 Falta de superioridade inerente a qualquer classificador na Classificação de padrões de Duda, Hart e Stork . Primeiro, deixe-me citar um texto relevante do livro:

  • Para simplificar considerar um problema de duas categorias, onde o conjunto de treinamento D consiste em padrões xi e categoria rótulos associados yi=±1 para i=1,...,n gerado pela função alvo desconhecida a ser aprendida, F(x) , onde yi=F(xi) .
  • Deixe H denotar o conjunto (discreto) de hipóteses ou possíveis conjuntos de parâmetros a serem aprendidos. Uma hipótese específica h(x)H pode ser descrita por pesos quantizados em uma rede neural, ou parâmetros 0 em um modelo funcional, ou conjuntos de decisões em uma árvore, e assim por diante.
  • Além disso, P(h) é a probabilidade anterior de que o algoritmo produza a hipótese h após o treinamento; observe que essa não é a probabilidade de que h esteja correto.
  • Em seguida, indica a probabilidade de que o algoritmo irá produzir hipótese h quando formados nos dados D . Em algoritmos de aprendizado determinístico, como o vizinho mais próximo e as árvores de decisão, P ( h | D ) será zero em todos os lugares, exceto por uma única hipótese h . Para métodos estocásticos (como redes neurais treinadas com pesos iniciais aleatórios) ou aprendizado estocástico de Boltzmann, P ( h | D ) pode ser uma distribuição ampla.P(h|D)hDP(h|D)hP(h|D)
  • Seja o erro de uma função de perda zero-um ou outra.E

O erro esperado de classificação fora do conjunto de treinamento quando a função verdadeira é e a probabilidade para o k é o algoritmo de aprendizado candidato é P k ( h ( x ) | D ) é dado por E k ( E | F , n ) = x D P ( x ) [ 1 - δ ( F ( x ) , h ( xF(x)kPk(h(x)|D)

Ek(E|F,n)=xDP(x)[1δ(F(x),h(x))]Pk(h(x)|D)

Teorema 9.1. (Almoço Sem Free) para quaisquer dois aprendizagem algoritmos e P 2 ( h | D ) , a seguir forem verdadeiras, independente da distribuição amostral P ( x ) e o número n de pontos de treinamento:P1(h|D)P2(h|D)P(x)n

  1. Média uniforme de todas as funções alvo , E 1 ( E | F , n ) - E 2 ( E | F , n ) = 0FE1(E|F,n)E2(E|F,n)=0

  2. Para qualquer conjunto de treinamento fixo , com média uniforme de F , E 1 ( E | F , D ) - E 2 ( E | F , D ) = 0DFE1(E|F,D)E2(E|F,D)=0

A Parte 1 está realmente dizendo

FDP(D|F)[E1(E|F,n)E2(E|F,n)]=0

A Parte 2 está realmente dizendo

F[E1(E|F,D)E2(E|F,D)]=0

Minhas perguntas são

  1. Na fórmula de , ou seja, E k ( E | F , n ) = x D P ( x ) [ 1 - δ ( F ( x ) , h ( x ) ) ] P k ( h ( x ) | D ) , posso substituir PEk(E|F,n)
    Ek(E|F,n)=xDP(x)[1δ(F(x),h(x))]Pk(h(x)|D),
    com P k ( h | D ) e mova-o para fora da somax D , porque é realmente uma distribuição de h sobre H dada D para o k é oalgoritmo de aprendizado estocástico?Pk(h(x)|D)Pk(h|D)xDhHDk
  2. Dado que o th algoritmo de aprendizagem candidato é um método estocástico, por que na fórmula de E k ( E | F , n ) , não existe qualquer soma de h , ou seja Σ h H ?kEk(E|F,n)hhH
  3. Qual é a diferença entre e E i ( E | F , n ) ?Ei(E|F,D)Ei(E|F,n)

    Does significa a taxa de erro off-treinamento dado um conjunto de treinamento D ?Ei(E|F,D)D

    Does significa a taxa de erro off-formação, média ao longo de todo o conjunto de treinamento dado um tamanho de treinamento n ? Se sim, por que a parte 1 do teorema da NFL média E i ( E | F , n ) sobre os conjuntos de treinamento novamente escrevendo D , e por que, na fórmula de E k ( E | F , n ) , não há média sobre todo o conjunto de treinamento dado um tamanho de treinamento n ?Ei(E|F,n)nEi(E|F,n)DEk(E|F,n)n

  4. Na parte 1 do teorema da NFL, significa somar todos os conjuntos de treinamento com um tamanho fixo de treinamento n ?Dn
  5. Se somar mais todos os valores possíveis em do tamanho de treinamento n na parte 1, o resultado ainda será 0, certo?Nn
  6. Na fórmula de , se eu alterar x D para x , ou seja, x não está necessariamente restrito a estar fora do conjunto de treinamento, as duas partes do teorema da NFL ainda serão verdadeiras?Ek(E|F,n)xDxx
  7. Se a verdadeira relação entre e y não for assumida como uma função determinística F como y = F ( x ) , mas distribuições condicionais P ( y | x ) ou uma distribuição conjunta P ( x , y ) equivalente a conhecendo P ( y | x ) e P ( x ) (também veja minha outra pergunta ), então eu posso mudar E k (xyFy=F(x)P(y|x)P(x,y)P(y|x)P(x) seja E k ( E | P ( x , y ) , n ) = E x , y [ 1 - δ ( y , h ( x ) ) ] P k ( h ( x ) | D ) (com o estranho P k ( h ( x ) | DEk(E|F,n)
    Ek(E|P(x,y),n)=Ex,y[1-δ(y,h(x))]Pk(h(x)|D)
    Pk(h(x)|D)

Obrigado e cumprimentos!


δ
Ek(E|F,n)=xDP(x)[1δ(F(x),h(x))]Pk(h(x)|D)

Esse teorema Sem almoço grátis é o mesmo que o problema da parada? Eles estão conectados?

Respostas:


6

Vou responder as perguntas que acho que sei as respostas.

  1. Esta resposta é não, porque você está escolhendo um x que não fazia parte do ajuste D e entao h depende de x.
  2. h é avaliado apenas nos valores x no conjunto de teste para obter a taxa de erro esperada, para que não seja avaliada em todo o conjunto H mas apenas no conjunto discreto de xestá no conjunto de teste.
  3. EEu(E|F,D) é a taxa de erro esperada do conjunto de treinamento, dada a função F e o conjunto de treinamento D. MasEEu(E|F,n) Eu acho que é diferente porque você está condicionando apenas o número de pontos de treinamento n e não o real xvalores. Mas isso é intrigante, dadas as declarações subseqüentes.
  4. Dé o conjunto de vetores de treinamento. temn vetores de treinamento em D. Então você está somando o valor fixon vetores de treinamento em D. Existe apenas um conjuntoD.
  5. Eu acho que a resposta para 5 é não. A notação parece um pouco confusa.

Não posso comentar nos dias 6 e 7.


2
+1. Bem-vindo ao site, sou um grande fã de seus comentários na Amazon. Desculpe minha presunção na edição, a notação matemática é feita principalmente colocando $ 's nos dois lados de alguma coisa. Se você clicar no círculo amarelo-? no canto superior direito, ao escrever, você verá um link para "ajuda avançada", que fornecerá mais informações; Além disso, você pode clicar com o botão direito do mouse em alguns mathjax existentes (como qualquer um dos itens acima) e selecionar "Show Math As -> TeX command" para ver como foi feito.
gung - Restabelece Monica

2
Em outras palavras, @gung está dizendo: Este site suporta euUMATEX(quase) exatamente da maneira que você esperaria, incluindo a matemática da exibição. Bem vindo ao site.
cardeal

@ Michael Por favor, permita-me adicionar minhas boas-vindas a esses outros: estou encantado de vê-lo aqui. (Michael fez contribuições excepcionalmente informadas nas listas de discussão da American Statistical Association.)
whuber
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.