Quando não usar a validação cruzada?


10

Ao ler o site, muitas respostas sugerem que a validação cruzada deve ser feita em algoritmos de aprendizado de máquina. No entanto, ao ler o livro "Entendendo o aprendizado de máquina", vi um exercício que às vezes é melhor não usar a validação cruzada. Estou realmente confuso. Quando o algoritmo de treinamento em todos os dados é melhor que a validação cruzada? Isso acontece em conjuntos de dados reais?

Sejam k classes de hipóteses. Suponha que você está dado iid treinando exemplos e você gostaria de aprender a classe . Considere duas abordagens alternativas: m H = k i = 1 H iH1,...,HkmH=i=1kHi

  1. Aprenda nos exemplos usando a regra do ERMHm

  2. Divida os m exemplos em um conjunto de treinamento de tamanho um conjunto de validação de tamanho , para alguns . Em seguida, aplique a abordagem de seleção de modelo usando a validação. Ou seja, primeiro treine cada classe nos exemplos de treinamento usando a regra ERM em relação a , e sejam as hipóteses resultantes . Segundo, aplique a regra ERM com relação à classe finita { } nos exemplos de validação .α m α ( 0 , 1 ) H i ( 1 - α ) m H i h 1 , ... , h K h 1 , ... , h k α m(1α)mαmα(0,1)Hi(1 1-α)mHEuh^1 1,,h^kh^1 1,,h^kαm

Descreva os cenários em que o primeiro método é melhor que o segundo e vice-versa.

Imagem do quastion .


11
É um exercício interessante, mas não concordo com o rótulo. Acho que a validação cruzada está fazendo seu trabalho perfeitamente aqui. Como tangencial, seria realmente preferível se você digitasse o exercício e o citasse, em vez de anexar uma imagem. A imagem está inacessível para usuários com deficiência visual.
Matthew Drury

Uma desvantagem possível do uso da validação cruzada pode ser o ajuste excessivo (como no caso de excluir uma validação cruzada). Essencialmente, usando técnicas de validação cruzada, estamos ajustando os parâmetros do modelo no conjunto de dados de validação (e não no conjunto de dados de teste). Mas, às vezes, esse ajuste pode ir um pouco demais, resultando em possível excesso de ajuste quando o classificador é testado no conjunto de testes.
Upendra Pratap Singh

11
O que significa "paridade" aqui?
shadowtalker

@shadowtalker Eu acho que significa módulo de soma 2.
SMA.D

Você diferencia entre validação cruzada (repetida) e bootstrap?
usεr11852

Respostas:


11

Mensagens para levar para casa:


Infelizmente, o texto que você cita altera duas coisas entre a abordagem 1 e 2:

  • A abordagem 2 realiza validação cruzada e seleção / ajuste / otimização de modelo orientado a dados
  • A abordagem 1 não usa validação cruzada, nem seleção / ajuste / otimização de modelo orientado a dados.
  • A validação cruzada da abordagem 3 sem seleção / ajuste / otimização de modelo orientada a dados é perfeitamente viável (o IMHO da amd levaria a mais informações) no contexto discutido aqui
  • Abordagem 4, nenhuma validação cruzada, mas a seleção / ajuste / otimização de modelos orientados a dados também é possível, mas mais complexa de construir.

IMHO, validação cruzada e otimização orientada a dados são duas decisões totalmente diferentes (e amplamente independentes) na configuração de sua estratégia de modelagem. A única conexão é que você pode usar estimativas de validação cruzada como destino funcional para sua otimização. Porém, existem outros funcionais de destino prontos para serem usados ​​e há outros usos de estimativas de validação cruzada (importante, você pode usá-las para verificar seu modelo, também conhecido como validação ou teste)

Infelizmente, a terminologia de aprendizado de máquina é atualmente uma bagunça que sugere falsas conexões / causas / dependências aqui.

  • Ao procurar a abordagem 3 (validação cruzada, não para otimização, mas para medir o desempenho do modelo), você encontrará a validação cruzada "decisão" versus o treinamento em todo o conjunto de dados como uma dicotomia falsa neste contexto: Ao usar a validação cruzada para medir o desempenho do classificador, o valor de mérito da validação cruzada é usado como estimativa para um modelo treinado em todo o conjunto de dados. Ou seja, a abordagem 3 inclui a abordagem 1.

  • Agora, vejamos a segunda decisão: otimização de modelo orientada a dados ou não. Este é o IMHO o ponto crucial aqui. E sim, há situações do mundo real em que não é melhor otimizar o modelo orientado a dados. A otimização do modelo orientado a dados tem um custo. Você pode pensar nisso desta maneira: a informação em seu conjunto de dados é usado para estimar não apenas opparâmetros / coeficientes do modelo, mas o que a otimização faz é estimar parâmetros adicionais, os chamados hiperparâmetros. Se você descrever o processo de ajuste e otimização / ajuste do modelo como uma pesquisa pelos parâmetros do modelo, essa otimização por hiperparâmetro significa que um espaço de pesquisa muito maior é considerado. Em outras palavras, na abordagem 1 (e 3), você restringe o espaço de pesquisa especificando esses hiperparâmetros. Seu conjunto de dados do mundo real pode ser grande o suficiente (contém informações suficientes) para permitir o encaixe nesse espaço de pesquisa restrito, mas não grande o suficiente para corrigir todos os parâmetros suficientemente bem no espaço de pesquisa maior das abordagens 2 (e 4).

De fato, no meu campo, muitas vezes tenho que lidar com conjuntos de dados muito pequenos para permitir pensar na otimização orientada a dados. Então, o que devo fazer: uso meu conhecimento de domínio sobre os dados e processos de geração de dados para decidir qual modelo combina bem com a natureza física dos dados e do aplicativo. E dentro desses, ainda tenho que restringir a complexidade do meu modelo.


Boa resposta. De alguma forma, eu esperava que você contribuísse para este tópico. Obvious +1
usεr11852

Obrigado pela sua resposta informativa e útil. O que aprendi com sua resposta é que podemos escolher a abordagem 2 quando temos pequenos conjuntos de dados, não por causa da validação, mas por causa da seleção do modelo. Estou correcto? O uso da seleção de modelo para conjuntos de dados pequenos de alguma forma leva a um ajuste insuficiente?
SMA.D

Outra questão é que, no exercício, o tamanho da classe de hipótese é o mesmo para a abordagem 1 e 2. Como o espaço de pesquisa é maior nesse caso para a abordagem 2?
SMA.D

Bem, se houver uma opção em 2 e não em 1, o espaço de pesquisa em 2 será maior. Se o espaço de pesquisa em 2 não for maior, não haverá realmente nada a ser selecionado na abordagem 2. Minha resposta e interpretação do que a abordagem 2 significa é acionada pelo termo "seleção de modelo usando validação". Se o contexto ainda é o exercício "quando a validação cruzada falha" antes do exercício aqui, o livro pode significar o que chamei de abordagem 3 acima, ou seja, nenhuma seleção de modelo envolvida. Mas, nesse caso, as palavras seleção de modelo realmente não deveriam estar lá. Eu não posso julgar a probabilidade de isso ..
cbeleites infeliz com SX

... é como não sei o que o livro diz sobre a seleção de modelos, nem qual é a regra do ERM (no meu vocabulário, o ERM se expande para o gerenciamento de riscos corporativos ...). No entanto, minha resposta vale independentemente do algoritmo de modelagem.
cbeleites descontente com SX
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.