É melhor fazer uma análise exploratória dos dados apenas no conjunto de dados de treinamento?

15

Estou fazendo análise exploratória de dados (EDA) em um conjunto de dados. Depois, selecionarei alguns recursos para prever uma variável dependente.

A pergunta é:
Devo fazer a EDA apenas no meu conjunto de dados de treinamento? Ou devo juntar os conjuntos de dados de treinamento e teste juntos, fazer a EDA nos dois e selecionar os recursos com base nessa análise?

— Aboelnour
fonte

6

Eu recomendo dar uma olhada em "7.10.2 A maneira errada e correta de realizar a validação cruzada" em http://statweb.stanford.edu/~tibs/ElemStatLearn/printings/ESLII_print10.pdf .

Os autores dão um exemplo no qual alguém faz o seguinte:

Rastreie os preditores: encontre um subconjunto de "bons" preditores que mostrem correlação bastante forte (univariada) com os rótulos das classes
Usando apenas esse subconjunto de preditores, construa um classificador multivariado.
Use a validação cruzada para estimar os parâmetros de ajuste desconhecidos e para estimar o erro de previsão do modelo final

Isso soa muito semelhante a executar a EDA em todos (ou seja, treinamento mais teste) dos seus dados e usar a EDA para selecionar preditores "bons".

Os autores explicam por que isso é problemático: a taxa de erro validada cruzada será artificialmente baixa, o que pode induzir você a pensar que encontrou um bom modelo.

— Adrian
fonte

1

Então, você deseja identificar variáveis independentes que afetam sua variável dependente?

Então, as duas abordagens não são realmente recomendáveis.

Depois de definir sua pergunta de pesquisa, você deve desenvolver sua teoria. Ou seja, usando a literatura, você deve identificar variáveis que devem ter um efeito (você deve ser capaz de explicar o motivo).

— Peter Clark
fonte

6

Embora essa visão pareça no coração concordar com o conceito clássico de testes estatísticos (e, como tal, me custa discordar), há muitos problemas modernos para os quais isso simplesmente não é viável. Por exemplo, suponha que você queira ver se algum dos 20.000 genes codificadores de proteínas está associado a uma nova doença hereditária. Não há antecedentes que o preparem, não há maneira de "apresentar uma teoria" e uma EDA é a única maneira de começar. E se você tiver dados suficientes para uma EDA e análise confirmatória, poderá realmente chegar a algum lugar.

— Cliff AB

3

"você deve desenvolver sua teoria" - é uma boa ideia, mas nem sempre é possível, principalmente, no setor. Às vezes, você só ir em frente com previsão sem desenvolver quaisquer teorias

— Aksakal quase certamente binário

1

A aplicação do EDA nos dados de teste está incorreta.

Treinamento é o processo de procurar as respostas corretas para criar o melhor modelo. Esse processo não se limita apenas à execução de código nos dados de treinamento. O uso de informações da EDA para decidir qual modelo usar, ajustar parâmetros e assim por diante faz parte do processo de treinamento e, portanto, não deve ser permitido o acesso aos dados de teste. Para ser fiel a si mesmo, use os dados de teste apenas para verificar o desempenho do seu modelo.

Além disso, se você perceber que o modelo não apresenta um bom desempenho durante o teste e voltar a ajustar o modelo, isso também não será bom. Em vez disso, divida seus dados de treinamento em dois. Use um para treinamento e outro para testar e ajustar seus modelos. Consulte Qual é a diferença entre o conjunto de testes e o conjunto de validação?

— inclinar
fonte

0

Após o parágrafo desta resposta . Hastie explica ainda a p.245 :

"Aqui está a maneira correta de realizar a validação cruzada neste exemplo:

Divida as amostras em K dobras de validação cruzada (grupos) aleatoriamente.

Para cada dobra k = 1, 2,. . . , K
(a) Encontre um subconjunto de preditores “bons” que mostrem uma correlação bastante forte (univariada) com os rótulos das classes, usando todas as amostras, exceto as da dobra k.
(b) Usando apenas esse subconjunto de preditores, construa um classificador multivariado, usando todas as amostras, exceto as da dobra k.
(c) Use o classificador para prever os rótulos de classe para as amostras na dobra k ".

— user2672299
fonte

-3

Você faz EDA em todo o conjunto de dados. Por exemplo, se você estiver usando a validação cruzada de exclusão única , como faria a EDA apenas em um conjunto de dados de treinamento ? Nesse caso, todas as observações são treinadas e realizadas pelo menos uma vez.

Portanto, não, você entende seus dados em toda a amostra. Se você está na indústria, é ainda mais evidente. Espera-se que você mostre as tendências e a descrição geral dos dados para as partes interessadas na empresa e faça isso em toda a amostra.

— Aksakal quase certamente binário
fonte