O teste estatístico serve para inferir dados, informando como as coisas estão relacionadas. O resultado é algo que tem um significado no mundo real. Por exemplo, como o tabagismo está associado ao câncer de pulmão, tanto em termos de direção quanto de magnitude. Ainda não diz por que as coisas aconteceram. Para responder por que as coisas aconteceram, precisamos considerar também a inter-relação com outras variáveis e fazer os ajustes adequados (ver Pearl, J. (2003) CAUSALIDADE: MODELOS, RAZÃO E INFERÊNCIA).
O aprendizado supervisionado é para fazer previsões, ele diz o que vai acontecer. Por exemplo, dado o status de fumante de uma pessoa, podemos prever se ela terá câncer de pulmão. Em casos simples, ele ainda diz "como", por exemplo, observando o ponto de corte do status de fumante identificado pelo algoritmo. Mas modelos mais complexos são mais difíceis ou impossíveis de interpretar (aprendizado profundo / aprimoramento com muitos recursos).
O aprendizado não supervisionado é frequentemente usado para facilitar os dois acima.
- Para testes estatísticos, descobrindo alguns subgrupos subjacentes desconhecidos dos dados (clustering), podemos inferir a heterogeneidade nas associações entre variáveis. Por exemplo, fumar aumenta as chances de ter câncer de pulmão no subgrupo A, mas não no subgrupo B.
- Para um aprendizado supervisionado, podemos criar novos recursos para melhorar a precisão e a robustez das previsões. Por exemplo, identificando subgrupos (clustering) ou combinação de recursos (redução de dimensão) associados a chances de câncer de pulmão.
Quando o número de características / variáveis aumenta, a diferença entre teste estatístico e aprendizado supervisionado se torna mais substancial. O teste estatístico pode não necessariamente se beneficiar disso, depende, por exemplo, se você deseja fazer inferência causal controlando outros fatores ou identificando heterogeneidade nas associações, como mencionado acima. O aprendizado supervisionado terá um desempenho melhor se os recursos forem relevantes e se tornarem mais como uma caixa preta.
Quando o número de amostras aumenta, podemos obter resultados mais precisos para testes estatísticos, resultados mais precisos para aprendizado supervisionado e resultados mais robustos para aprendizado não supervisionado. Mas isso depende da qualidade dos dados. Dados de má qualidade podem introduzir viés ou ruído nos resultados.
Às vezes, queremos saber "como" e "por que" para informar as ações de intervenção, por exemplo, identificando que fumar causa câncer de pulmão, uma política pode ser adotada para lidar com isso. Às vezes, queremos saber “o que” para informar a tomada de decisão, por exemplo, descobrir quem provavelmente tem câncer de pulmão e fazer tratamentos precoces. Existe uma edição especial publicada na Science sobre previsão e seus limites ( http://science.sciencemag.org/content/355/6324/468) “O sucesso parece ser alcançado de maneira mais consistente quando as perguntas são abordadas em esforços multidisciplinares que unem a compreensão humana do contexto à capacidade algorítmica de lidar com terabytes de dados.” Na minha opinião, por exemplo, o conhecimento descoberto usando o teste de hipóteses pode ajudar o aprendizado supervisionado, informando-nos Quais dados / recursos devemos coletar em primeiro lugar. Por outro lado, o aprendizado supervisionado pode ajudar a gerar hipóteses, informando quais variáveis