Aprendizagem adequada do PAC de 2-DNF sob distribuição uniforme


10

Qual é o resultado do estado da arte sobre a complexidade das consultas de fórmulas 2-DNF apropriadas para o aprendizado do PAC com consultas de amostra e com distribuição uniforme ? Ou algum limite não trivial?

Como não estou familiarizado com a teoria da aprendizagem e essa pergunta é motivada por um campo diferente, a resposta pode ser óbvia. Eu verifiquei o livro de Kearns e Vazirani, mas eles não parecem considerar essa configuração explicitamente.

upd. Embora o principal parâmetro de interesse seja a complexidade da consulta, o tempo de execução também é importante. Se possível, o tempo de execução deve ser, aproximadamente, o mesmo que a complexidade da consulta ou, no máximo, polinomial.

upd. O Apêndice B (parte superior da página 18) do documento "Learning Submodular Functions", de Balcan e Harvey, menciona que "É bem sabido que os 2-DNFs são eficientemente aprendidos pelo PAC". No entanto, eles não mencionam se esse resultado é para aprendizado adequado ou fornece alguma referência.


Que tipo de consultas?
Timóteo Sun

Apenas amostras. Também acho que devo ser explícito que a pergunta é sobre complexidade da consulta, não o tempo de execução (editado).
Grigory Yaroslavtsev

Respondi à sua pergunta, supondo que as consultas de amostra sejam apenas exemplos aleatórios (e não consultas de associação).
Lev Reyzin

11
Sim, as consultas são apenas exemplos aleatórios de distribuição uniforme.
Grigory Yaroslavtsev

Respostas:


14

Não sei se você considerará o seguinte um limite não trivial, mas aqui vou eu.

Primeiro, para ficar claro, para que não confundamos -DNF com k- termo DNF (o que costumo fazer), uma fórmula c -DNF sobre as variáveis x 1 , , x n tem a forma k i = 1 ( i , 1i , 2 . . . i , c ) onde 1 i k e 1 j cckcx1,,xni=1k(i,1i,2...i,c)1ik1jc, .Eu,j{x1 1,...,xn,x¯1 1,...,x¯n}

Podemos primeiro perguntar quantos termos distintos podem existir em um -DNF. Cada termo terá c das n variáveis, cada uma negada ou não - resultando em 2 c ( nccn termos possíveis diferentes. Em uma instância 2-DNF, cada termo aparecerá ou não, resultando em| H| =22c ( n2c(nc) possíveis "alvos", ondeHé o espaço de hipóteses.|H|=22c(nc)H

Imagine um algoritmo que tire amostras e tente todas as | H | hipóteses até encontrar uma que prediz perfeitamente as amostras. O teorema da navalha de Occam diz que você só precisa tomar m = O ( 1m|H|amostras para este algoritmo para encontrar um alvo com erroϵcom probabilidade1-δ.m=O(1 1ϵ|(H|+1 1δ)ϵ1 1-δ

No nosso caso, para , lg | H | = O ( n 2 ) , o que significa que você precisará de n 2 amostras para fazer o aprendizado (adequado).c=2lg|H|=O(n2)n2

Mas o jogo inteiro no aprendizado não é realmente uma amostra de complexidade (embora isso faça parte do jogo, especialmente no aprendizado eficiente de atributos), mas na tentativa de projetar algoritmos de tempo polinomial. Se você não se importa com eficiência, então é a resposta mais simples para a complexidade da amostra de PAC.n2

UPDATE (dada a pergunta alterada) :

Como você declarou explicitamente que se importava apenas com a complexidade da amostra, apresentei o algoritmo de Occam de força bruta, que é provavelmente o argumento mais simples. No entanto, minha resposta foi um pouco tímida. -DNF são realmente aprendíveis em tempo polinomial! Este é um resultado do artigo original de Valiant, " Uma teoria do aprendiz ". De fato, c -DNF pode ser aprendido para qualquer c = O ( 1 ) .2cc=O(1 1)

O argumento é o seguinte. Você pode ver um -DNF como uma disjunção de n c "meta-variáveis" e tentar aprender a disjunção, eliminando os meta-variáveis inconsistente com os exemplos. Essa solução pode ser facilmente traduzida de volta para uma solução "adequada" e leva tempo O ( n c ) . Como observação lateral, ainda está em aberto se existe um algoritmo de tempo polinomial para c = ω ( 1 ) .cncO(nc)c=ω(1)

Quanto à complexidade da amostra também ser um limite inferior, a resposta é praticamente sim. Este artigo de Ehrenfeucht et al. mostra que o limite do Occam está quase apertado.n2


11
Obrigado! Este é um resultado não trivial - eu não sabia que o tempo de execução exponencial seria útil. No entanto, para o aplicativo que tenho em mente, o tempo polinomial é muito mais desejável (atualizei a pergunta). A abordagem que você descreveu é a mais conhecida para esse problema? Existem limites mais baixos na complexidade da consulta (mesmo para o tempo de execução ilimitado)?
Grigory Yaroslavtsev

Atualizou a pergunta com uma referência que motivou a pergunta.
Grigory Yaroslavtsev

11
atualizou a resposta dada à sua pergunta atualizada
Lev Reyzin

Além disso - nesse caso, não acho que o tempo de execução exponencial seja útil. Mas, em geral, parece ser. Aprender (com a complexidade ideal da amostra) geralmente é fácil quando você tem tempo exponencial.
Lev Reyzin

2
Muito obrigado! Vou precisar de algum tempo para verificar as referências, mas até agora parece ser uma resposta completa.
Grigory Yaroslavtsev
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.