É importante que os estatísticos aprendam o aprendizado de máquina?


22

O aprendizado de máquina é um assunto importante para qualquer estatístico se familiarizar? Parece que o aprendizado de máquina é estatística. Por que os programas de estatística (graduação e pós-graduação) não exigem aprendizado de máquina?



2
Não sei, mas tenho certeza de que todo mundo que faz aprendizado de máquina deve aprender estatística.
31514 Dave

Respostas:


18

O Machine Learning é um campo especializado de estatísticas aplicadas de alta dimensão. Também requer considerável experiência em programação, o que não é necessário para um bom programa quantitativo, especialmente no nível de graduação, mas também em certa medida no nível de pós-graduação. Ele aplica-se apenas ao aspecto de previsão da estatística, enquanto as estatísticas matemáticas e as estatísticas aplicadas inferenciais e descritivas requerem atenção. Muitos programas oferecem aos alunos a chance de ter uma grande exposição ao aprendizado de máquina (CMU, por exemplo), mas estatísticos industriais em geral raramente têm a chance de aplicar essas ferramentas, exceto em determinados trabalhos de alta tecnologia.

Embora eu tenha visto recentemente muitos cientista de dados e máquina de posições aprendizagem no mercado de trabalho, acho que a descrição do trabalho geral de "estatístico" não requer uma máquina de fundo de aprendizagem, mas não exigem uma compreensão impecável de estatísticas básicas, inferência e comunicação: estes devem realmente ser o núcleo de um programa de estatística de pós-graduação. O aprendizado de máquina e a ciência de dados também são relativamente novos como cargos e disciplinas. Seria um desserviço para aqueles que procuram emprego como estatísticos influenciar suas estratégias de solução de problemas em direção ao aprendizado de máquina, se ele for abandonado em empresas / empresas farmacêuticas / biociências por sua eficácia esmagadora em 10 ou 20 anos.

Por fim, não acho que o aprendizado de máquina melhore tremendamente um sólido entendimento de estatística. A estatística é fundamentalmente um campo interdisciplinar e é importante comunicar e convencer especialistas não técnicos em seu campo (como médicos, CFOs ou administradores) exatamente por que você escolheu a metodologia escolhida. O aprendizado de máquina é um nicho de campo altamente técnico que, em muitas práticas aplicadas, promete apenas um desempenho incrementalmente melhor do que as ferramentas e técnicas padrão. Muitos dos métodos de aprendizado supervisionado e não supervisionado são percebidos por não especialistas (e até mesmo por especialistas menos treinados) como "caixa preta". Quando solicitados a defender sua escolha de um método de aprendizagem específico, há explicações que não se sustentam e se baseiam em nenhuma das circunstâncias motivadas pelo problema aplicado.


1
Você poderia explicar um pouco mais detalhadamente o que exatamente você quer dizer com as explicações fracassando (talvez exemplos?)?
Cbeleites suporta Monica

10
Não consigo descrever as diferenças entre uma análise discriminante linear, máquinas de vetores de suporte e um GLM LASSO de uma maneira que faça sentido para um médico. Então, construí um modelo de regressão logística para a previsão de risco de câncer de mama usando um punhado de covariáveis ​​cuidadosamente ajustadas. Quando apresentados, os médicos imediatamente iniciaram uma discussão esclarecedora sobre o tamanho dos seus efeitos. A discriminação do meu modelo "científico" era muito comparável às técnicas de ML mais sofisticadas (sobreposição de ICs de 90% para a AUC com base no bootstrap na amostra de validação), e eu não sou o único com esse relato de caso!
7113 AdamO

4
@cbeleites, você já teve que se comunicar com uma pessoa substantiva com, na melhor das hipóteses, uma quantidade de conhecimentos de matemática em álgebra universitária? O SVM não produz tamanhos de efeito em termos que os médicos entenderiam; a largura da margem não faz sentido para eles, ao contrário das proporções ímpares às quais estão muito acostumadas. Se você não conseguir falar o idioma do cliente, ele não desperdiçará tempo e dinheiro com você.
StasK

2
@GraemeWalsh fantastic point. Eu luto bastante com o conceito de usar modelos preditivos sofisticados para inferência preditiva, como costuma ser o caso na modelagem de equações estruturais ou na causalidade homônima de Granger. Penso que resta muito trabalho a ser feito nesta área. Por exemplo, intuitivamente reconheço muita semelhança entre modelagem semi-paramétrica e modelos estruturais marginais, mas não tenho certeza de onde estão as diferenças.
Adamo

2
@Jase, você deve dar uma olhada no artigo convidado dos vencedores do concurso Netflix. Seus relatos eram muito semelhantes, mesmo com o modelo bayesiano calculando a média de pesos posteriores em um grande espaço de modelos, eles observaram que Pca parecia ter um peso posterior dominante em todas as condições. Isso não quer dizer que eles sejam equivalentes, mas há uma troca entre simplicidade e precisão que me faz favor de modelos mais simples do que aqueles oferecidos pela arena ml. Analogamente, pode-se pensar em como os modelos paramétricos sofisticados têm desempenho semelhante aos modelos não paramétricos.
AdamO

14

OK, vamos falar sobre o elefante das estatísticas com a visão vendada pelo que aprendemos com uma ou duas pessoas com quem trabalhamos de perto em nossos programas de graduação ...

Os programas estatísticos exigem o que acharem melhor, ou seja, quais são as coisas mais importantes que eles querem que seus alunos aprendam, por um período limitado de tempo que os alunos terão no programa. Exigir uma área estreita significa se despedir de outras áreas que podem ser consideradas igualmente importantes. Alguns programas exigem medir a probabilidade teórica, outros não. Alguns exigem um idioma estrangeiro, mas a maioria dos programas não. Alguns programas tomam o paradigma bayesiano como a única coisa que vale a pena estudar, mas a maioria não. Alguns programas sabem que a maior demanda por estatísticos está nas estatísticas da pesquisa (pelo menos é o caso nos EUA), mas a maioria não. Os programas Biostat seguem o dinheiro e ensinam ao SAS + os métodos que venderão facilmente para as ciências médicas e farmacêuticas.

Para uma pessoa que cria experimentos agrícolas, ou coleta de dados de pesquisas por telefone, validação de escalas psicométricas ou produção de mapas de incidência de doenças em um SIG, o aprendizado de máquina é uma arte abstrata da ciência da computação, muito distante das estatísticas com as quais trabalha diariamente. base. Nenhuma dessas pessoas terá benefícios imediatos ao aprender máquinas de vetores de suporte ou florestas aleatórias.

Em suma, o aprendizado de máquina é um bom complemento para outras áreas da estatística, mas eu argumentaria que coisas comuns, como distribuição normal multivariada e modelos lineares generalizados, precisam vir em primeiro lugar.


5

O aprendizado de máquina consiste em obter conhecimento / aprendizado a partir de dados. Por exemplo, trabalho com algoritmos de aprendizado de máquina que podem selecionar alguns genes que podem estar envolvidos em um tipo específico de doença a partir dos dados do DNA Microarray (por exemplo, câncer ou diabetes). Os cientistas podem então usar esses genes (modelos aprendidos) para o diagnóstico precoce no futuro (classificação de amostras não vistas).

Há muitas estatísticas envolvidas no aprendizado de máquina, mas existem ramos do aprendizado de máquina que não requerem estatística (por exemplo, programação genética). O único momento em que você precisaria de estatísticas nessas instâncias seria ver se um modelo que você criou usando o aprendizado de máquina é estatisticamente significativamente diferente de outro modelo.

Na minha opinião, uma introdução ao aprendizado de máquina para estatísticos seria vantajosa . Isso ajudará os estatísticos a ver cenários do mundo real de aplicação de estatísticas. No entanto, não deve ser obrigatório . Você pode se tornar um estatístico de sucesso e passar a vida inteira sem precisar se aproximar do aprendizado de máquina!


2
Eu diria que você precisa de estatísticas sempre que relatar o desempenho do seu modelo. Talvez porque minha profissão seja química analítica, onde uma das regras importantes é "um número sem intervalo de confiança não é resultado".
Cbeleites suporta Monica

1
@cbeleites Eu concordo com você. O que eu quis dizer foi que estatísticos não precisam necessariamente ser especialistas em aprendizado de máquina! Eles podem sobreviver sem aprender o aprendizado de máquina :) #
7607

1
@cbeleites ou vários intervalos de confiança no caso de estimadores multimodais (por exemplo, Sivia & Skilling Data Analysis ).
Alancalvitti
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.