Obviamente sim.
A análise dos dados pode levar a muitos pontos que prejudicariam seu modelo preditivo:
Dados incompletos
Supondo que estamos falando de dados quantitativos, você terá que decidir se deseja ignorar a coluna (se houver muitos dados ausentes) ou descobrir qual será o seu valor "padrão" (Média, Modo, Etc). Você não pode fazer isso sem explorar seus dados primeiro.
Dados anormais
Digamos que você tenha dados fortemente correlacionados, mas há 2% dos seus dados que estão muito longe dessa correlação. Você pode remover esses dados completamente para ajudar seu modelo preditivo
Remover colunas com muita correlação
Ok, isso contradiz um pouco meu ponto anterior, mas o inglês não é minha língua principal, então espero que você entenda.
Vou dar um exemplo idiota, digamos que você analisa o conjunto de dados de um estádio de futebol e você tem Width, Length, Area
como parâmetros. Bem, podemos facilmente imaginar que esses três parâmetros estarão fortemente correlacionados. Ter muita correlação entre sua coluna leva o modelo preditivo na direção errada. Você pode decidir liberar um ou mais dos parâmetros.
Encontre novos recursos
Vou dar o exemplo da pequena "competição" do Titanic Kaggle . Ao olhar para os nomes das pessoas, você pode descobrir que pode extrair um recurso que é o Title
da pessoa. Esse recurso acaba sendo muito importante quando se trata de modelagem, mas você o teria perdido se não analisasse seus dados primeiro.
Você pode decidir agrupar seus dados contínuos porque parece mais apropriado ou transformar um recurso contínuo em um categórico.
Encontre que tipo de algoritmo usar
Não posso desenhar gráficos agora, mas vamos fazer deste um exemplo simples.
Imagine que você tenha um modelo pequeno com uma coluna de recurso e uma coluna "resultado" binária (apenas 0 ou 1). Você deseja criar um modelo de classificação preditiva para esse conjunto de dados.
Se, mais uma vez, como exemplo, você tiver que plotá-lo (analise seus dados), poderá perceber que o gráfico forma um círculo perfeito em torno do seu valor 1. Nesse cenário, seria óbvio que você poderia usar um classificador polinomial para ter um ótimo modelo em vez de pular direto para o DNN. (Obviamente, considerando que há apenas duas colunas no meu exemplo, não é um excelente exemplo, mas você entendeu)
No geral, você não pode esperar que um modelo preditivo tenha um bom desempenho se não olhar primeiro os dados.
[descriptive-statistics]
tag e sua pergunta final é se a estatística descritiva é importante. Nesse contexto, você só quer dizer computar várias estatísticas descritivas quando menciona a EDA ou está perguntando sobre estatística descritiva e EDA? Eu pergunto porque muitas pessoas (inclusive eu) pensam na EDA como mais do que apenas estatísticas descritivas.