O que significa a teoria da aprendizagem do PAC?


15

Eu sou novo em aprendizado de máquina. Estou estudando um curso de aprendizado de máquina (Stanford University) e não entendi o que significa essa teoria e qual é a sua utilidade. Gostaria de saber se alguém poderia detalhar essa teoria para mim.

Esta teoria é baseada nesta equação. insira a descrição da imagem aqui


2
PAC significa Provavelmente aproximadamente correto.
Marc Claesen

@ MarcClaesen, eu poderia explicar da seguinte maneira: "Isso significa que as abordagens de aprendizado de máquina oferecem uma solução de probabilidade para um determinado problema e essa solução tende a ser aproximadamente correta"
BetterEnglish

Respostas:


16

Provavelmente, a teoria de aprendizado aproximadamente correta (PAC) ajuda a analisar se e em que condições um aluno provavelmente produzirá um classificador aproximadamente correto. (Você verá algumas fontes usarem A no lugar de L. )LAL

Primeiro, vamos definir "aproximado". Uma hipótese está aproximadamente correta se seu erro sobre a distribuição de entradas estiver limitado por algum ϵ , 0 ϵ 1hHOu seja,errorD(h)<ε, ondeDé a distribuição sobre entradas.ϵ,0ϵ12.errorD(h)<ϵD

Em seguida, "provavelmente". Se produzir esse classificador com probabilidade 1 - δ , com 0 δ 1L1δ , chamamos esse classificadorprovavelmenteaproximadamente correto.0δ12

Saber que um conceito de destino é passível de aprendizagem por PAC permite que você limite o tamanho da amostra necessário para provavelmente aprender um classificador aproximadamente correto, que é o que é mostrado na fórmula que você reproduziu:

m1ϵ(ln|H|+ln1δ)

Para obter alguma intuição sobre isso, observe os efeitos em quando você altera variáveis ​​no lado direito. À medida que o erro permitido diminui , o tamanho da amostra necessário aumenta. Da mesma forma, desenvolve-se com a probabilidade de um aprendiz aproximadamente correcta, e com o tamanho do espaço hipótese H . (Vagamente, um espaço de hipóteses é o conjunto de classificadores que seu algoritmo considera.) Mais claramente, ao considerar mais classificadores possíveis ou desejar um erro menor ou maior probabilidade de correção, você precisa de mais dados para distinguir entre eles.mH

Para mais, este e outros vídeos relacionados podem ser úteis, assim como esta longa introdução ou um dos muitos textos de aprendizado de máquina, diz Mitchell , por exemplo.


Esse é o tipo de resposta que eu procurava há muito tempo; ambos simples, mas sólidos. Embora muitas fontes forneçam uma resposta extensa, não é tão preferido para uma referência rápida.
EBE Isaac

3

A definição de provavelmente aproximadamente correta se deve a Valiant. O objetivo é fornecer uma definição matematicamente rigorosa do que é aprendizado de máquina.
Deixe-me divagar um pouco. Enquanto o PAC usa o termo "hipótese", a maioria das pessoas usa o modelo de palavra em vez de hipótese. Com um aceno para a comunidade de estatísticas, prefiro o modelo, mas tentarei usar os dois. O aprendizado de máquina começa com alguns dados, e alguém deseja encontrar uma hipótese ou modelo que, dados os dados x i retornem y i ou algo muito próximo. Mais importante, dados novos dados ˜ x, o modelo calculará ou preverá o valor correspondente(xi,yi)xiyix~ . Realmente, não se interessa a precisão da hipótese nos dados fornecidos (treinamento), exceto que é difícil acreditar que um modelo criado usando alguns dados não reflita com precisão esse conjunto de dados, mas seja preciso em qualquer futuro conjuntos de dados. As duas advertências importantes são que não se pode prever novos dados com 100% de precisão e também há a possibilidade de que os exemplos de dados vistos perdam algo importante. Um exemplo de brinquedo seria que, se eu desse os 'dados' 1,2,3,4, um 'prediz' que 5 seria o próximo número. Se você testasse isso perguntando às pessoas qual era o próximo número na sequência, a maioria das pessoas diria 5. Alguémpoderiay~
digamos 1.000.000. Se você recebesse a sequência 1,2,3, ... 999.999, seria mais seguro que o próximo número seja 1.000.000. No entanto, o próximo número pode ser 999.999,5, ou até 5. O ponto é que, quanto mais dados se vê, mais seguro se pode ter um modelo preciso, mas nunca se pode ter certeza absoluta.

A definição de provavelmente aproximadamente correta fornece uma versão matematicamente precisa dessa idéia. Dados os dados com a saída y i e uma classe de modelos f θ que constituem as hipóteses que se pode fazer 2 perguntas. Podemos usar os dados para encontrar uma hipótese específica f Θxi,1imyifθfΘé provável que seja realmente preciso na previsão de novos valores? Além disso, qual a probabilidade de o modelo ser tão preciso quanto esperamos? Ou seja, podemos treinar um modelo com alta probabilidade de ser muito preciso. Como na resposta de Sean Easter, dizemos que uma classe de hipóteses (classe de modelos) é PAC, se pudermos usar um argumento 'épsilon, delta'. Ou seja, podemos dizer com probabilidade que nosso modelo f Θ é preciso dentro de ϵ . A quantidade de dados que se deve ver para satisfazer um par específico ( δ , ϵ ) depende do real ( δ , ϵ )p>1δfΘϵ(δ,ϵ)(δ,ϵ) e quão complexa é a classe de hipótese dada.

Hfθ(ϵ,δ)0<ϵ,δ,<.5fΘx~,y~Err(fΘ(x~),y~)<ϵp>1δm=m(δ,ϵ,H)(fΘ(x~)y~)2

(δ,ϵ)

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.