"Como você lida com a obtenção de um conjunto de dados, mas sem um objetivo claro?"
Isso será comum.
Além do conselho acima, entenda que é essencial entender os objetivos da empresa em que atua e do seu cliente imediato. Freqüentemente, você precisará entender o problema específico que os levou a usar os dados melhor do que eles. É muito comum receber dados e um objetivo pouco claro do seu cliente interno ou externo - normalmente será sua tarefa fornecer uma meta que possa ser alcançada com os dados e resolver o problema de negócios real do cliente. Será necessário um pensamento lateral para fazer com que o resultado dos dados e a solução de negócios sejam compatíveis.
Eu resumiria o exposto acima como 'definir o objetivo é muito importante (e possivelmente muito difícil!) Para ser deixado ao cliente (sozinho)'.
No contexto de aprendizado de máquina, o CRISP-DM é uma metodologia que tenta resolver esse problema iterando através de um loop, para que o entendimento adicional dos dados possa ser usado em discussão com o cliente para entender melhor o problema original. Assim, por exemplo, eles podem indicar um objetivo mal definido, uma segunda discussão depois que você fizer alguma EDA irá afiá-lo um pouco. Mais tarde, quando você produzir um modelo que funcione bem, mas não esteja no alvo certo, você se aproximará do objetivo real de negócios novamente.
Em outras palavras, não fique muito perturbado com a imprecisão da tarefa. Espere encontrar um vácuo e preencha-o para sua vantagem.
É uma ligeira mudança de lado, mas a metodologia seis sigma tenta resolver esse problema em um contexto diferente com o sistema DMAIC (o 'D' significa 'Definir', em termos da 'voz do cliente'), por isso é provável que algumas dicas possam ser reunidas em recursos para o contexto seis sigma (por exemplo, exercícios que você pode fazer com um cliente que os ajude a expressar o que você deseja com mais clareza)