O aprendizado de máquina é um assunto importante para qualquer estatístico se familiarizar? Parece que o aprendizado de máquina é estatística. Por que os programas de estatística (graduação e pós-graduação) não exigem aprendizado de máquina?
O aprendizado de máquina é um assunto importante para qualquer estatístico se familiarizar? Parece que o aprendizado de máquina é estatística. Por que os programas de estatística (graduação e pós-graduação) não exigem aprendizado de máquina?
Respostas:
O Machine Learning é um campo especializado de estatísticas aplicadas de alta dimensão. Também requer considerável experiência em programação, o que não é necessário para um bom programa quantitativo, especialmente no nível de graduação, mas também em certa medida no nível de pós-graduação. Ele aplica-se apenas ao aspecto de previsão da estatística, enquanto as estatísticas matemáticas e as estatísticas aplicadas inferenciais e descritivas requerem atenção. Muitos programas oferecem aos alunos a chance de ter uma grande exposição ao aprendizado de máquina (CMU, por exemplo), mas estatísticos industriais em geral raramente têm a chance de aplicar essas ferramentas, exceto em determinados trabalhos de alta tecnologia.
Embora eu tenha visto recentemente muitos cientista de dados e máquina de posições aprendizagem no mercado de trabalho, acho que a descrição do trabalho geral de "estatístico" não requer uma máquina de fundo de aprendizagem, mas não exigem uma compreensão impecável de estatísticas básicas, inferência e comunicação: estes devem realmente ser o núcleo de um programa de estatística de pós-graduação. O aprendizado de máquina e a ciência de dados também são relativamente novos como cargos e disciplinas. Seria um desserviço para aqueles que procuram emprego como estatísticos influenciar suas estratégias de solução de problemas em direção ao aprendizado de máquina, se ele for abandonado em empresas / empresas farmacêuticas / biociências por sua eficácia esmagadora em 10 ou 20 anos.
Por fim, não acho que o aprendizado de máquina melhore tremendamente um sólido entendimento de estatística. A estatística é fundamentalmente um campo interdisciplinar e é importante comunicar e convencer especialistas não técnicos em seu campo (como médicos, CFOs ou administradores) exatamente por que você escolheu a metodologia escolhida. O aprendizado de máquina é um nicho de campo altamente técnico que, em muitas práticas aplicadas, promete apenas um desempenho incrementalmente melhor do que as ferramentas e técnicas padrão. Muitos dos métodos de aprendizado supervisionado e não supervisionado são percebidos por não especialistas (e até mesmo por especialistas menos treinados) como "caixa preta". Quando solicitados a defender sua escolha de um método de aprendizagem específico, há explicações que não se sustentam e se baseiam em nenhuma das circunstâncias motivadas pelo problema aplicado.
OK, vamos falar sobre o elefante das estatísticas com a visão vendada pelo que aprendemos com uma ou duas pessoas com quem trabalhamos de perto em nossos programas de graduação ...
Os programas estatísticos exigem o que acharem melhor, ou seja, quais são as coisas mais importantes que eles querem que seus alunos aprendam, por um período limitado de tempo que os alunos terão no programa. Exigir uma área estreita significa se despedir de outras áreas que podem ser consideradas igualmente importantes. Alguns programas exigem medir a probabilidade teórica, outros não. Alguns exigem um idioma estrangeiro, mas a maioria dos programas não. Alguns programas tomam o paradigma bayesiano como a única coisa que vale a pena estudar, mas a maioria não. Alguns programas sabem que a maior demanda por estatísticos está nas estatísticas da pesquisa (pelo menos é o caso nos EUA), mas a maioria não. Os programas Biostat seguem o dinheiro e ensinam ao SAS + os métodos que venderão facilmente para as ciências médicas e farmacêuticas.
Para uma pessoa que cria experimentos agrícolas, ou coleta de dados de pesquisas por telefone, validação de escalas psicométricas ou produção de mapas de incidência de doenças em um SIG, o aprendizado de máquina é uma arte abstrata da ciência da computação, muito distante das estatísticas com as quais trabalha diariamente. base. Nenhuma dessas pessoas terá benefícios imediatos ao aprender máquinas de vetores de suporte ou florestas aleatórias.
Em suma, o aprendizado de máquina é um bom complemento para outras áreas da estatística, mas eu argumentaria que coisas comuns, como distribuição normal multivariada e modelos lineares generalizados, precisam vir em primeiro lugar.
O aprendizado de máquina consiste em obter conhecimento / aprendizado a partir de dados. Por exemplo, trabalho com algoritmos de aprendizado de máquina que podem selecionar alguns genes que podem estar envolvidos em um tipo específico de doença a partir dos dados do DNA Microarray (por exemplo, câncer ou diabetes). Os cientistas podem então usar esses genes (modelos aprendidos) para o diagnóstico precoce no futuro (classificação de amostras não vistas).
Há muitas estatísticas envolvidas no aprendizado de máquina, mas existem ramos do aprendizado de máquina que não requerem estatística (por exemplo, programação genética). O único momento em que você precisaria de estatísticas nessas instâncias seria ver se um modelo que você criou usando o aprendizado de máquina é estatisticamente significativamente diferente de outro modelo.
Na minha opinião, uma introdução ao aprendizado de máquina para estatísticos seria vantajosa . Isso ajudará os estatísticos a ver cenários do mundo real de aplicação de estatísticas. No entanto, não deve ser obrigatório . Você pode se tornar um estatístico de sucesso e passar a vida inteira sem precisar se aproximar do aprendizado de máquina!