A dimensão VC é o número de bits de informação (amostras) necessários para encontrar um objeto (função) específico entre um conjunto de objetos (funções)N .
VC dimensão vem de um conceito semelhante na teoria da informação. A teoria da informação partiu da observação de Shannon sobre o seguinte:
Se você tiver objetos e entre esses objetos, estará procurando um específico. Quantos bits de informação você precisa para encontrar este objeto ? Você pode dividir seu conjunto de objetos em duas metades e perguntar "Em que metade do objeto que estou procurando está localizado?" . Você recebe "sim" se estiver no primeiro semestre ou "não", se estiver no segundo semestre. Em outras palavras, você recebe 1 bit de informação . Depois disso, você faz a mesma pergunta e divide o seu conjunto várias vezes, até finalmente encontrar o objeto desejado. De quantos bits de informação você precisa ( respostas sim / não )? Está claramenteNNl O g de 2 ( N )log2(N) bits de informação - semelhante ao problema de pesquisa binária na matriz classificada.
Vapnik e Chernovenkis fizeram uma pergunta semelhante no problema de reconhecimento de padrões. Suponha que você tenha um conjunto de funções com a entrada , cada função gera sim ou não (problema de classificação binária supervisionada) e entre essas funções, você está procurando uma função específica, que fornece resultados corretos sim / não para um determinado conjunto de dados . Você pode fazer a pergunta: "Quais funções retornam não e quais retornam sim para um determinadoNxND={(x1,y1),(x2,y2),...,(xl,yl)}xido seu conjunto de dados. Como você sabe qual é a resposta real dos dados de treinamento que você possui, você pode jogar fora todas as funções que fornecem respostas erradas para alguns . De quantos bits de informação você precisa? Ou em outras palavras: Quantos exemplos de treinamento você precisa para remover todas essas funções erradas? . Aqui está uma pequena diferença da observação de Shannon na teoria da informação. Você não está dividindo seu conjunto de funções pela metade (talvez apenas uma função de dê uma resposta incorreta para alguns ) e, talvez, seu conjunto de funções seja muito grande e suficiente para encontrar uma função que seja -close para a função desejada e você deseja ter certeza de que essa função éxiNxiϵϵ -feche com probabilidade ( - estrutura PAC ), o número de bits de informação (número de amostras) necessário será .1−δ(ϵ,δ)log2N/δϵ
Suponha agora que entre o conjunto de funções não haja nenhuma função que não cometa erros. Como anteriormente, basta encontrar uma função que seja -close com probabilidade . O número de amostras que você precisa é .Nϵ1−δlog2N/δϵ2
Observe que os resultados nos dois casos são proporcionais ao - semelhante ao problema de pesquisa binária.log2N
Agora, suponha que você tenha um conjunto infinito de funções e, entre essas funções, você deseja encontrar a função -close para a melhor função com probabilidade . Suponha (para simplificar a ilustração) que as funções sejam afins contínuas (SVM) e você tenha encontrado uma função que esteja perto da melhor função. Se você mover sua função um pouco mais, isso não mudará os resultados da classificação, você terá uma função diferente que classifica com os mesmos resultados que a primeira. Você pode pegar todas as funções que fornecem os mesmos resultados de classificação (erro de classificação) e contá-las como uma única função, porque elas classificam seus dados com a mesma perda exata (uma linha na figura).ϵ1−δϵ
___________________As duas linhas (função) classificarão os pontos com o mesmo sucesso ___________________
Quantas amostras você precisa para encontrar uma função específica de um conjunto de conjuntos de funções (lembre-se de que nós dividimos nossas funções nos conjuntos de funções em que cada função fornece os mesmos resultados de classificação para um determinado conjunto de pontos)? É o que a dimensão informa - é substituído por porque você tem um número infinito de funções contínuas que são divididas em um conjunto de funções com o mesmo erro de classificação para pontos específicos. O número de amostras necessárias é se você tiver uma função que reconheça perfeitamente eVClog2NVCVC−log(δ)ϵVC−log(δ)ϵ2 se você não tiver uma função perfeita no seu conjunto de funções original.
Ou seja, a dimensão fornece um limite superior (que não pode ser aprimorado) para um número de amostras necessárias para obter o erro com probabilidade .VCϵ1−δ