Digamos que temos uma amostra de duas populações: A
e B
. Vamos supor que essas populações sejam feitas de indivíduos e optamos por descrevê-los em termos de recursos. Alguns desses recursos são categóricos (por exemplo, eles dirigem para o trabalho?) E outros são numéricos (por exemplo, sua altura). Vamos chamar esses recursos: . Coletamos centenas desses recursos (por exemplo, n = 200), vamos assumir por simplicidade, sem erros nem ruídos em todos os indivíduos.
Temos a hipótese de que as duas populações são diferentes. Nosso objetivo é responder às duas perguntas a seguir:
- Eles são realmente significativamente diferentes?
- O que é significativamente diferente entre eles?
Métodos como árvores de decisão (por exemplo, florestas aleatórias) e análise de regressão linear podem ajudar. Por exemplo, pode-se considerar a importância das características em florestas aleatórias ou os coeficientes ajustados em regressão linear para entender o que pode distinguir esses grupos e explorar as relações entre características e populações.
Antes de seguir esse caminho, quero ter uma idéia das minhas opções aqui, o que é bom e moderno versus as práticas ruins. Observe que meu objetivo não é a previsão em si, mas sim o teste e a descoberta de diferenças significativas entre os grupos.
Quais são algumas abordagens de princípios para resolver esse problema?
Aqui estão algumas preocupações que tenho:
Métodos como a análise de regressão linear podem não responder totalmente (2), certo? Por exemplo, um único ajuste pode ajudar a encontrar algumas diferenças, mas nem todas as diferenças significativas. Por exemplo, a multicolinearidade pode nos impedir de descobrir como todos os recursos variam entre grupos (pelo menos em um único ajuste). Pelo mesmo motivo, espero que a ANOVA também não possa fornecer uma resposta completa para (2).
Não está totalmente claro como uma abordagem preditiva responderia (1). Por exemplo, que função de perda de classificação / previsão devemos minimizar? E como testamos se os grupos são ou não significativamente diferentes quando temos um ajuste? Por fim, receio que a resposta recebida em (1) dependa do conjunto específico de modelos de classificação que uso.