A suposição iid sobre os pares , , geralmente é feita em estatística e em aprendizado de máquina. Às vezes, por uma boa razão, às vezes por conveniência e às vezes apenas porque costumamos fazer essa suposição. Para responder satisfatoriamente se a suposição é realmente necessária e quais são as consequências de não fazer essa suposição, eu terminaria facilmente escrevendo um livro (se você acabar fazendo algo assim com facilidade). Aqui tentarei dar uma breve visão geral do que considero os aspectos mais importantes.(Xi,yi)i=1,…,N
Uma suposição fundamental
Vamos supor que queremos aprender um modelo de probabilidade de dado , que chamamos de . Não fazemos nenhuma suposição sobre esse modelo como prioritário, mas faremos a suposição mínima de que esse modelo existe de tal forma queyXp(y∣X)
- a distribuição condicional de dado é .yiXip(yi∣Xi)
O que vale a pena notar sobre essa suposição é que a distribuição condicional de depende de apenas através de . É isso que torna o modelo útil, por exemplo, para previsão. A suposição é mantida como conseqüência da parte distribuída identicamente sob a suposição iid, mas é mais fraca porque não fazemos suposições sobre as 's.yiiXiXi
A seguir, o foco será principalmente o papel da independência.
Modelagem
Existem duas abordagens principais para aprender um modelo de dado . Uma abordagem é conhecida como modelagem discriminativa e a outra como modelagem generativa .yX
- Modelagem discriminativa : modelamos diretamente, por exemplo, um modelo de regressão logística, uma rede neural, uma árvore ou uma floresta aleatória. A suposição de modelagem de trabalho normalmente será que os são independentes condicionalmente, dados os , embora as técnicas de estimativa baseadas em subamostragem ou bootstrap façam mais sentido sob a premissa iid ou mais fraca de troca (veja abaixo). Mas geralmente, para modelagem discriminativa, não precisamos fazer suposições distributivas sobre as 's. p(y∣X)yiXiXi
- Modelagem generativa : modelamos a distribuição conjunta, , de tipicamente modelando a distribuição condicional e a marginal distribuição . Então usamos a fórmula de Bayes para calcular . A análise discriminante linear e os métodos ingênuos de Bayes são exemplos. A suposição de modelagem de trabalho normalmente será a suposição iid.p(X,y)(X,y)p(X∣y)p(y)p(y∣X)
Para ambas as abordagens de modelagem, a premissa de modelagem de trabalho é usada para derivar ou propor métodos de aprendizagem (ou estimadores). Isso poderia ser maximizando a probabilidade logarítmica (penalizada), minimizando o risco empírico ou usando métodos bayesianos. Mesmo que a suposição de modelagem de trabalho esteja incorreta, o método resultante ainda pode fornecer um ajuste sensato de . p(y∣X)
Algumas técnicas usadas em conjunto com a modelagem discriminativa, como bagging (agregação de bootstrap), funcionam ajustando muitos modelos aos dados amostrados aleatoriamente no conjunto de dados. Sem a suposição iid (ou permutabilidade), os conjuntos de dados reamostrados não terão uma distribuição conjunta semelhante à do conjunto de dados original. Qualquer estrutura de dependência tornou-se "confusa" pela reamostragem. Eu não pensei profundamente sobre isso, mas não vejo por que isso necessariamente deva quebrar o método como um método para aprender . Pelo menos não para métodos baseados nas premissas de independência de trabalho. Fico feliz em provar que estou errado aqui.p(y∣X)
Consistência e limites de erro
Uma questão central para todos os métodos de aprendizagem é se eles resultam em modelos próximos de . Existe uma vasta literatura teórica em estatística e aprendizado de máquina que lida com limites de consistência e erro. Um objetivo principal desta literatura é provar que o modelo aprendido está próximo de quando é grande. A consistência é uma garantia qualitativa, enquanto os limites de erro fornecem controle quantitativo (semi-) explícito da proximidade e fornecem taxas de convergência.p(y∣X)p(y∣X)N
Todos os resultados teóricos se baseiam em suposições sobre a distribuição conjunta das observações no conjunto de dados. Frequentemente, são feitas as suposições de modelagem de trabalho mencionadas acima (ou seja, independência condicional para modelagem discriminativa e iid para modelagem generativa). Para modelagem discriminativa, os limites de consistência e erro exigirão que o cumpra determinadas condições. Na regressão clássica, uma dessas condições é que para , em que denota a matriz de design com linhasXi1NXTX→ΣN→∞XXTi. Condições mais fracas podem ser suficientes para consistência. No aprendizado esparso, outra condição é a condição de autovalor restrito, consulte, por exemplo, Sobre as condições usadas para provar os resultados do oráculo para o Lasso . A suposição iid, juntamente com algumas suposições distributivas técnicas, implica que algumas dessas condições suficientes sejam cumpridas com grande probabilidade e, portanto, a suposição iid pode revelar-se uma suposição suficiente, mas não necessária, para obter consistência e limites de erro para modelagem discriminativa.
A suposição de independência de modelagem de trabalho pode estar errada para qualquer uma das abordagens de modelagem. Como regra geral, ainda é possível esperar consistência se os dados vierem de um processo ergódico , e ainda se pode esperar alguns limites de erro se o processo for uma mistura suficientemente rápida . Uma definição matemática precisa desses conceitos nos levaria muito longe da questão principal. É suficiente notar que existem estruturas de dependência além da suposição iid, para a qual se pode provar que os métodos de aprendizado funcionam enquanto tende ao infinito.N
Se tivermos um conhecimento mais detalhado sobre a estrutura de dependência, podemos optar por substituir a suposição de independência de trabalho usada para modelagem por um modelo que captura também a estrutura de dependência. Isso geralmente é feito para séries temporais. Um modelo de trabalho melhor pode resultar em um método mais eficiente.
Avaliação do modelo
Em vez de provar que o método de aprendizagem fornece um modelo próximo de , é de grande valor prático obter uma avaliação (relativa) de "quão bom é um modelo aprendido". Essas pontuações de avaliação são comparáveis para dois ou mais modelos aprendidos, mas não fornecem uma avaliação absoluta de quão próximo um modelo aprendido está de . As estimativas das pontuações da avaliação são tipicamente calculadas empiricamente com base na divisão do conjunto de dados em um conjunto de dados de treinamento e teste ou usando validação cruzada.p(y∣X)p(y∣X)
Assim como no empacotamento, uma divisão aleatória do conjunto de dados "atrapalha" qualquer estrutura de dependência. No entanto, para métodos baseados nas premissas de independência de trabalho, as premissas de ergodicidade mais fracas que o iid devem ser suficientes para que as estimativas da avaliação sejam razoáveis, embora os erros padrão nessas estimativas sejam muito difíceis de encontrar.
[ Editar: A dependência entre as variáveis resultará em uma distribuição do modelo aprendido que difere da distribuição sob a premissa iid. A estimativa produzida pela validação cruzada não está obviamente relacionada ao erro de generalização. Se a dependência for forte, provavelmente será uma estimativa ruim.]
Resumo (tl; dr)
Tudo acima está sob a suposição de que existe um modelo de probabilidade condicional fixa, . Portanto, não pode haver tendências ou mudanças repentinas na distribuição condicional não capturadas por .p(y∣X)X
Ao aprender um modelo de dado , a independência desempenha um papel importante.yX
- uma suposição útil de modelagem de trabalho que nos permite derivar métodos de aprendizagem
- uma suposição suficiente, mas não necessária, para provar consistência e fornecer limites de erro
- uma suposição suficiente, mas não necessária, para o uso de técnicas de divisão aleatória de dados, como ensacamento para aprendizado e validação cruzada para avaliação.
Entender com precisão quais alternativas ao IDI também são suficientes não são triviais e, até certo ponto, um assunto de pesquisa.