Tenho algumas perguntas sobre as anotações usadas na Seção 9.2 Falta de superioridade inerente a qualquer classificador na Classificação de padrões de Duda, Hart e Stork . Primeiro, deixe-me citar um texto relevante do livro:
- Para simplificar considerar um problema de duas categorias, onde o conjunto de treinamento consiste em padrões e categoria rótulos associados para gerado pela função alvo desconhecida a ser aprendida, , onde .
- Deixe denotar o conjunto (discreto) de hipóteses ou possíveis conjuntos de parâmetros a serem aprendidos. Uma hipótese específica pode ser descrita por pesos quantizados em uma rede neural, ou parâmetros 0 em um modelo funcional, ou conjuntos de decisões em uma árvore, e assim por diante.
- Além disso, é a probabilidade anterior de que o algoritmo produza a hipótese após o treinamento; observe que essa não é a probabilidade de que esteja correto.
- Em seguida, indica a probabilidade de que o algoritmo irá produzir hipótese h quando formados nos dados D . Em algoritmos de aprendizado determinístico, como o vizinho mais próximo e as árvores de decisão, P ( h | D ) será zero em todos os lugares, exceto por uma única hipótese h . Para métodos estocásticos (como redes neurais treinadas com pesos iniciais aleatórios) ou aprendizado estocástico de Boltzmann, P ( h | D ) pode ser uma distribuição ampla.
- Seja o erro de uma função de perda zero-um ou outra.
O erro esperado de classificação fora do conjunto de treinamento quando a função verdadeira é e a probabilidade para o k é o algoritmo de aprendizado candidato é P k ( h ( x ) | D ) é dado por E k ( E | F , n ) = ∑ x ∉ D P ( x ) [ 1 - δ ( F ( x ) , h ( x
Teorema 9.1. (Almoço Sem Free) para quaisquer dois aprendizagem algoritmos e P 2 ( h | D ) , a seguir forem verdadeiras, independente da distribuição amostral P ( x ) e o número n de pontos de treinamento:
Média uniforme de todas as funções alvo , E 1 ( E | F , n ) - E 2 ( E | F , n ) = 0
Para qualquer conjunto de treinamento fixo , com média uniforme de F , E 1 ( E | F , D ) - E 2 ( E | F , D ) = 0
A Parte 1 está realmente dizendo
A Parte 2 está realmente dizendo
Minhas perguntas são
- Na fórmula de , ou seja, E k ( E | F , n ) = ∑ x ∉ D P ( x ) [ 1 - δ ( F ( x ) , h ( x ) ) ] P k ( h ( x ) | D ) , posso substituir Pcom P k ( h | D ) e mova-o para fora da soma ∑ x ∉ D , porque é realmente uma distribuição de h sobre H dada D para o k é oalgoritmo de aprendizado estocástico?
- Dado que o th algoritmo de aprendizagem candidato é um método estocástico, por que na fórmula de E k ( E | F , n ) , não existe qualquer soma de h , ou seja Σ h ∈ H ?
Qual é a diferença entre e E i ( E | F , n ) ?
Does significa a taxa de erro off-treinamento dado um conjunto de treinamento D ?
Does significa a taxa de erro off-formação, média ao longo de todo o conjunto de treinamento dado um tamanho de treinamento n ? Se sim, por que a parte 1 do teorema da NFL média E i ( E | F , n ) sobre os conjuntos de treinamento novamente escrevendo ∑ D , e por que, na fórmula de E k ( E | F , n ) , não há média sobre todo o conjunto de treinamento dado um tamanho de treinamento n ?
- Na parte 1 do teorema da NFL, significa somar todos os conjuntos de treinamento com um tamanho fixo de treinamento n ?
- Se somar mais todos os valores possíveis em do tamanho de treinamento n na parte 1, o resultado ainda será 0, certo?
- Na fórmula de , se eu alterar ∑ x ∉ D para ∑ x , ou seja, x não está necessariamente restrito a estar fora do conjunto de treinamento, as duas partes do teorema da NFL ainda serão verdadeiras?
- Se a verdadeira relação entre e y não for assumida como uma função determinística F como y = F ( x ) , mas distribuições condicionais P ( y | x ) ou uma distribuição conjunta P ( x , y ) equivalente a conhecendo P ( y | x ) e P ( x ) (também veja minha outra pergunta ), então eu posso mudar
E k ( seja E k ( E | P ( x , y ) , n ) = E x , y [ 1 - δ ( y , h ( x ) ) ] P k ( h ( x ) | D ) (com o estranho P k ( h ( x ) | D
Obrigado e cumprimentos!