Agradeço a Aryeh por trazer esta questão à minha atenção.
Como já mencionado, a resposta para (1) é Sim , e o método simples de Minimização Empírica de Riscos em atinge a complexidade da amostra ( ver Vapnik e Chervonenkis, 1974; Blumer, Ehrenfeucht, Haussler e Warmuth, 1989).CO((d/ε)log(1/ε))
Quanto a (2), sabe-se de fato que existem espaços
que nenhum algoritmo de aprendizado adequado alcança melhor que a complexidade da amostra e portanto, o aprendizado adequado não pode alcançar a complexidade amostra de . Que eu saiba, esse fato nunca foi realmente publicado, mas está enraizado em um argumento relacionado de Daniely e Shalev-Shwartz (COLT 2014) (originalmente formulado para uma pergunta diferente, mas relacionada, na aprendizagem em várias classes).CΩ((d/ε)log(1/ε))O(d/ε)
Consideremos o caso simples d=1 , e colocar o espaço X como {1,2,...,1/ε} e C são singletons fz(x):=I[x=z],z∈X : ou seja, cada classificador em C classifica exatamente um ponto de X como 1 e os outros como 0. Para o limite inferior, ter a função alvo como um Singleton aleatória fx∗ , onde x∗∼Uniform(X) , e P , a distribuição marginal de X , é uniforme sobre X∖{x∗} . Agora, o aluno nunca vê nenhum exemplo rotulado como 1 , mas deve escolher um ponto z para adivinhar que é rotulado como 1 (importante, a função `` todo zero '' não está em C, De modo que qualquer aluno adequada deve adivinhar alguns z ), e desde que tenha visto todos os pontos em X∖{x∗} que tem pelo menos 1/2 probabilidade de adivinhar errada (ou seja, a probabilidade posterior da sua fz tendo z≠x∗ é de pelo menos 1/2 ). O argumento do coletor de cupom implica que exigiria Ω((1/ε)log(1/ε))amostras para ver todos os pontos em X∖{x∗} . Portanto, isso prova um limite inferior de Ω((1/ε)log(1/ε)) para todos os alunos apropriados.
Para geral d>1 , tomamos X como {1,2,...,d/(4ε)} , tome C como classificador IA para os conjuntos A⊂X de tamanho exatamente d , escolha a função de destino aleatoriamente a partir de C e leve P novamente como uniforme apenas nos pontos que a função de destino classifica 0 ( para que o aluno nunca veja um ponto rotulado como 1) Então uma generalização do argumento do coletor de cupons implica que precisamos de amostras de Ω((d/ε)log(1/ε)) para ver pelo menos |X|−2d pontos distintos de X , e sem ver este muitos pontos distintos qualquer aluno adequada tem pelo menos 1/3 chance de conseguir maior do que d/4 de seu palpite A dos d pontos de errado em sua hipótese escolhida hA, significando que sua taxa de erro é maior que ε . Portanto, neste caso, não há aprendiz adequado com complexidade de amostra menor que Ω((d/ε)log(1/ε)) , o que significa que nenhum aprendiz adequado atinge a complexidade ideal da amostra O(d/ε) .
Observe que o resultado é bastante específico para o espaço C construído. Existem espaços C que os alunos apropriados podem atingir a complexidade ideal da amostra O(d/ε) e, de fato, até a expressão completa exata O((d/ε)+(1/ε)log(1/δ)) de ( Hanneke, 2016a). Alguns limites superior e inferior para aprendizes gerais de ERM foram desenvolvidos em (Hanneke, 2016b), quantificados em termos de propriedades do espaço C, além de discutir alguns casos mais especializados em que alunos apropriados específicos às vezes podem alcançar a complexidade ideal da amostra.
Referências:
Vapnik e Chervonenkis (1974). Teoria do reconhecimento de padrões. Nauka, Moscou, 1974.
Blumer, Ehrenfeucht, Haussler e Warmuth (1989). Aprendizagem e a dimensão Vapnik-Chervonenkis. Jornal da Association for Computing Machinery, 36 (4): 929–965.
Daniely e Shalev-Shwartz (2014). Alunos ideais para problemas multiclasses. Em Anais da 27ª Conferência sobre Teoria da Aprendizagem.
Hanneke (2016a). A complexidade ideal da amostra do aprendizado do PAC. Journal of Machine Learning Research, v. 17 (38), p. 1-15.
Hanneke (2016b). Limites de erro refinados para vários algoritmos de aprendizado. Journal of Machine Learning Research, v. 17 (135), p. 1-55.