Dicas para um novo cientista de dados

Estou prestes a começar um trabalho no qual trabalharei com grandes conjuntos de dados e espera-se que encontre tendências, etc ... Encontrei muitos recursos sobre onde aprender ML e outras habilidades difíceis e sinto que estou ) competente para esse efeito.

Estou interessado em saber se existem habilidades sociais específicas que são úteis como cientista de dados. Quais são as coisas que você gostaria de saber começando?

Embora o Kaggle seja muito útil ao aprender, também apresenta objetivos claros. Como você lida com o fornecimento de um conjunto de dados, mas sem um objetivo claro?

Deixe-me saber se isso é muito amplo, posso pensar em perguntas mais específicas.

beginner

— Hobbes
fonte

Dica # 1: Nunca pet um cão ardente

— Brandon Loudermilk

Se você não se importa, compartilhe o setor em que está. A matemática e os conceitos permanecem os mesmos, no entanto, a estrutura dos dados varia e também como alguém pode abordá-los. Os conselhos abaixo são muito adequados e, se praticados, serão uma grande ajuda. Espero que, ao conhecer o setor, possa compartilhar algo com o qual você possa se relacionar diretamente.

— DRJ

Espero que quem o entrevistou para este trabalho agora esteja lendo isso e pensando "por que não fizemos essas perguntas na entrevista?".

— Spacedman

Drj, estarei trabalhando em parte com dados do processo de fabricação e em parte com dados de feedback do cliente. Parece um amplo espectro. Eu sou da academia, onde os dados foram produzidos por minhas próprias experiências e eu tinha objetivos muito claros.

— Hobbes

Respostas:

Eu acho que há muitas habilidades importantes importantes a serem consideradas no domínio da ciência de dados.

Aqui estão alguns deles:

Saiba de fato qual é o objetivo, gastar muito tempo em disputas de dados, modelos, visualização e relatórios, quando nem tudo era para o objetivo específico em mente, é um desperdício. Comunicar-se com pessoas menos técnicas é uma habilidade em si.
Itere repetidamente com o proprietário do produto. Continue certificando-se de que está no caminho certo.
Se os dados não contam a história que eles pensaram / querem, não é o caso, seja claro o motivo disso estar acontecendo, que preconceitos podem estar desempenhando um papel, etc. Não aplique todos os tipos de filtros ou continue alterando os parâmetros para obter os resultados desejados.

Em relação à sua segunda pergunta:

O objetivo deve ser obtido explicitamente do proprietário do produto ou derivado de um objetivo menos matemático. Um exemplo pode ser o local em que você precisa prever chegadas de trem com base em alguns recursos. Eles querem que o modelo preveja o máximo de vezes possível dentro de um intervalo de erro de 10 minutos. Isso é relativamente explícito.

Às vezes é menos claro que isso, eles podem dizer que precisamos disso o mais preciso possível. Então você terá que decidir o que otimizar, em alguns casos, isso apenas minimizará o MSE, mas em outros casos, outras coisas podem fazer mais sentido para o seu caso. Normalmente, isso ficará claro a partir do objetivo implícito e de algo que você melhorará com mais experiência. Objetivos implícitos e explícitos derivam de uma comunicação clara com o proprietário do produto.

— Jan van der Vegt
fonte

Obrigado pelo comentário, acho que seu conselho sobre a comunicação com pessoas menos técnicas é realmente útil e definitivamente algo em que preciso trabalhar.

— Hobbes

Também adicionei algumas informações sobre o objetivo

— Jan van der Vegt 31/05

Muito útil, lembrarei disso em frente. (Acho que não consigo up-voto até que eu tenha uma reputação superior)

— Hobbes

"Como você lida com a obtenção de um conjunto de dados, mas sem um objetivo claro?"

Isso será comum.

Além do conselho acima, entenda que é essencial entender os objetivos da empresa em que atua e do seu cliente imediato. Freqüentemente, você precisará entender o problema específico que os levou a usar os dados melhor do que eles. É muito comum receber dados e um objetivo pouco claro do seu cliente interno ou externo - normalmente será sua tarefa fornecer uma meta que possa ser alcançada com os dados e resolver o problema de negócios real do cliente. Será necessário um pensamento lateral para fazer com que o resultado dos dados e a solução de negócios sejam compatíveis.

Eu resumiria o exposto acima como 'definir o objetivo é muito importante (e possivelmente muito difícil!) Para ser deixado ao cliente (sozinho)'.

No contexto de aprendizado de máquina, o CRISP-DM é uma metodologia que tenta resolver esse problema iterando através de um loop, para que o entendimento adicional dos dados possa ser usado em discussão com o cliente para entender melhor o problema original. Assim, por exemplo, eles podem indicar um objetivo mal definido, uma segunda discussão depois que você fizer alguma EDA irá afiá-lo um pouco. Mais tarde, quando você produzir um modelo que funcione bem, mas não esteja no alvo certo, você se aproximará do objetivo real de negócios novamente.

Em outras palavras, não fique muito perturbado com a imprecisão da tarefa. Espere encontrar um vácuo e preencha-o para sua vantagem.

É uma ligeira mudança de lado, mas a metodologia seis sigma tenta resolver esse problema em um contexto diferente com o sistema DMAIC (o 'D' significa 'Definir', em termos da 'voz do cliente'), por isso é provável que algumas dicas possam ser reunidas em recursos para o contexto seis sigma (por exemplo, exercícios que você pode fazer com um cliente que os ajude a expressar o que você deseja com mais clareza)

— Robert de Graaf
fonte

Obrigado, esse é um ótimo feedback. Eu gosto especialmente de 'definir o objetivo é muito importante (e possivelmente muito difícil!) Para ser deixado ao cliente (sozinho)'. Definitivamente vou analisar o CRISP-DM.

— Hobbes