Eu estou tentando entender a prova de que os retângulos paralelos do eixo podem ser aprendidos no caso realizável. Isso significa que, dado com dados suficientes, podemos encontrar uma função tal que \ mathbb {P} \ left [\ text {error}> \ epsilon \ right] \ leq \ delta Aqui, o erro pode ser visto como o probabilidade de cometer um erro com a função escolhida h .
Agora, para retângulos paralelos ao eixo (na classificação binária), o argumento usual é o seguinte: seja o retângulo verdadeiro e seja o menor retângulo que contém os exemplos positivos, claramente , consideramos as quatro faixas retangulares entre e . Claramente, se todos eles têm probabilidade , a probabilidade de cometer um erro é menor que , portanto, podemos assumir que pelo menos um tenha probabilidade de cometer um erro .
Para uma faixa desse tipo, a probabilidade de classificar corretamente todos os exemplos de treinamento é no máximo , e, assim, vincular uma união a todas as faixas, obtemos que a probabilidade de classificar tudo corretamente é menor que e, com um pouco de álgebra, resulta que a complexidade da amostra é .
Aqui está um pdf que explica um pouco mais detalhadamente, com algumas fotos, eu apenas tive que condensar o argumento o máximo possível para encaixá-lo aqui.
Minha pergunta é: por que temos que considerar as quatro faixas retangulares separadamente, por que não podemos simplesmente dizer que a probabilidade da região entre e deve ser maior que (porque, caso contrário, terminamos), e assim, usando o mesmo argumento, chegaríamos ao melhor limite ?
Desculpe pela longa pergunta e agradeço antecipadamente.