O que significa a teoria da aprendizagem do PAC?

15

Eu sou novo em aprendizado de máquina. Estou estudando um curso de aprendizado de máquina (Stanford University) e não entendi o que significa essa teoria e qual é a sua utilidade. Gostaria de saber se alguém poderia detalhar essa teoria para mim.

Esta teoria é baseada nesta equação. insira a descrição da imagem aqui

machine-learning probability pac-learning

— BetterEnglish
fonte

2

PAC significa Provavelmente aproximadamente correto.

— Marc Claesen

@ MarcClaesen, eu poderia explicar da seguinte maneira: "Isso significa que as abordagens de aprendizado de máquina oferecem uma solução de probabilidade para um determinado problema e essa solução tende a ser aproximadamente correta"

— BetterEnglish

11

aqui está um link divertido: autonlab.org/tutorials/pac.html ou este: autonlab.org/_media/tutorials/pac05.pdf

— EngrStudent - Restabelece Monica 4/16

16

Provavelmente, a teoria de aprendizado aproximadamente correta (PAC) ajuda a analisar se e em que condições um aluno provavelmente produzirá um classificador aproximadamente correto. (Você verá algumas fontes usarem no lugar de ) $L$ $A$ $L$

Primeiro, vamos definir "aproximado". Uma hipótese está aproximadamente correta se seu erro sobre a distribuição de entradas estiver limitado por algum $h \in H$ Ou seja,, ondeé a distribuição sobre entradas. $\epsilon, 0 \le \epsilon \le \frac{1}{2}.$ $error_D(h)\lt \epsilon$ $D$

Em seguida, "provavelmente". Se produzir esse classificador com probabilidade , com $L$ $1 - \delta$ , chamamos esse classificadorprovavelmenteaproximadamente correto. $0 \le \delta \le \frac{1}{2}$

Saber que um conceito de destino é passível de aprendizagem por PAC permite que você limite o tamanho da amostra necessário para provavelmente aprender um classificador aproximadamente correto, que é o que é mostrado na fórmula que você reproduziu:

m \geq \frac{1}{ϵ} (l n | H | + l n \frac{1}{δ})

$m \ge\frac{1}{\epsilon}(ln|H| + ln\frac{1}{\delta})$

Para obter alguma intuição sobre isso, observe os efeitos em quando você altera variáveis no lado direito. À medida que o erro permitido diminui , o tamanho da amostra necessário aumenta. Da mesma forma, desenvolve-se com a probabilidade de um aprendiz aproximadamente correcta, e com o tamanho do espaço hipótese . (Vagamente, um espaço de hipóteses é o conjunto de classificadores que seu algoritmo considera.) Mais claramente, ao considerar mais classificadores possíveis ou desejar um erro menor ou maior probabilidade de correção, você precisa de mais dados para distinguir entre eles. $m$ $H$

Para mais, este e outros vídeos relacionados podem ser úteis, assim como esta longa introdução ou um dos muitos textos de aprendizado de máquina, diz Mitchell , por exemplo.

— Sean Easter
fonte

Esse é o tipo de resposta que eu procurava há muito tempo; ambos simples, mas sólidos. Embora muitas fontes forneçam uma resposta extensa, não é tão preferido para uma referência rápida.

— EBE Isaac

3

A definição de provavelmente aproximadamente correta se deve a Valiant. O objetivo é fornecer uma definição matematicamente rigorosa do que é aprendizado de máquina.
Deixe-me divagar um pouco. Enquanto o PAC usa o termo "hipótese", a maioria das pessoas usa o modelo de palavra em vez de hipótese. Com um aceno para a comunidade de estatísticas, prefiro o modelo, mas tentarei usar os dois. O aprendizado de máquina começa com alguns dados, e alguém deseja encontrar uma hipótese ou modelo que, dados os dados retornem ou algo muito próximo. Mais importante, dados novos dados o modelo calculará ou preverá o valor correspondente $(x_i, y_i)$ $x_i$ $y_i$ $\tilde{x}$ . Realmente, não se interessa a precisão da hipótese nos dados fornecidos (treinamento), exceto que é difícil acreditar que um modelo criado usando alguns dados não reflita com precisão esse conjunto de dados, mas seja preciso em qualquer futuro conjuntos de dados. As duas advertências importantes são que não se pode prever novos dados com 100% de precisão e também há a possibilidade de que os exemplos de dados vistos perdam algo importante. Um exemplo de brinquedo seria que, se eu desse os 'dados' 1,2,3,4, um 'prediz' que 5 seria o próximo número. Se você testasse isso perguntando às pessoas qual era o próximo número na sequência, a maioria das pessoas diria 5. Alguémpoderia $\tilde{y}$
digamos 1.000.000. Se você recebesse a sequência 1,2,3, ... 999.999, seria mais seguro que o próximo número seja 1.000.000. No entanto, o próximo número pode ser 999.999,5, ou até 5. O ponto é que, quanto mais dados se vê, mais seguro se pode ter um modelo preciso, mas nunca se pode ter certeza absoluta.

A definição de provavelmente aproximadamente correta fornece uma versão matematicamente precisa dessa idéia. Dados os dados com a saída e uma classe de modelos que constituem as hipóteses que se pode fazer 2 perguntas. Podemos usar os dados para encontrar uma hipótese específica $x_i, 1 \leq i \leq m$ $y_i$ $f_{\theta}$ $f_{\Theta}$ é provável que seja realmente preciso na previsão de novos valores? Além disso, qual a probabilidade de o modelo ser tão preciso quanto esperamos? Ou seja, podemos treinar um modelo com alta probabilidade de ser muito preciso. Como na resposta de Sean Easter, dizemos que uma classe de hipóteses (classe de modelos) é PAC, se pudermos usar um argumento 'épsilon, delta'. Ou seja, podemos dizer com probabilidade que nosso modelo é preciso dentro de . A quantidade de dados que se deve ver para satisfazer um par específico depende do real $p >1-\delta$ $f_{\Theta}$ $\epsilon$ $(\delta,\epsilon)$ $(\delta,\epsilon)$ e quão complexa é a classe de hipótese dada.

$\mathcal{H}$ $f_{\theta}$ $(\epsilon, \delta)$ $0 < \epsilon,\delta , <.5$ $f_{\Theta}$ $\tilde{x}, \tilde{y}$ $Err(f_{\Theta}(\tilde{x}) ,\tilde{y} ) < \epsilon$ $p > 1-\delta$ $m = m(\delta,\epsilon,\mathcal{H})$ $(f_{\Theta}(\tilde{x}) -\tilde{y})^2$

$(\delta,\epsilon)$

— meh
fonte