A regressão múltipla e multivariada é realmente diferente? O que é uma variável de qualquer maneira?
A regressão múltipla e multivariada é realmente diferente? O que é uma variável de qualquer maneira?
Respostas:
Muito rapidamente, eu diria: 'múltiplo' se aplica ao número de preditores que entram no modelo (ou equivalentemente na matriz de design) com um único resultado (resposta Y), enquanto 'multivariado' refere-se a uma matriz de vetores de resposta. Não me lembro do autor que inicia sua seção introdutória sobre modelagem multivariada com essa consideração, mas acho que é Brian Everitt em seu livro An Companion R e S-Plus to Analysis Multivariate . Para uma discussão aprofundada sobre isso, sugiro olhar para seu livro mais recente, Modelagem Multivariável e Análise Multivariada para as Ciências do Comportamento .
Para 'variável', eu diria que essa é uma maneira comum de se referir a qualquer variável aleatória que segue uma distribuição conhecida ou hipotética, por exemplo, falamos das variáveis gaussianas como uma série de observações extraídas de uma distribuição normal (com parâmetros e ). Em termos probabilísticos, dissemos que essas são algumas realizações aleatórias de X, com expectativa matemática , e cerca de 95% delas devem estar no intervalo .
Aqui estão dois exemplos intimamente relacionados que ilustram as idéias. Os exemplos são um pouco centrados nos EUA, mas as idéias podem ser extrapoladas para outros países.
Exemplo 1
Suponha que uma universidade deseje refinar seus critérios de admissão para que admita alunos 'melhores'. Além disso, suponha que a média de pontos (GPA) da nota de um aluno seja o que a universidade deseja usar como métrica de desempenho para os alunos. Eles têm vários critérios em mente, como GPA no ensino médio (HSGPA), notas no SAT (SAT), gênero etc. e gostariam de saber qual desses critérios é importante no que diz respeito ao GPA.
Solução: Regressão Múltipla
No contexto acima, há uma variável dependente (GPA) e você tem várias variáveis independentes (HSGPA, SAT, Sexo etc.). Você deseja descobrir quais das variáveis independentes são boas preditoras para sua variável dependente. Você usaria regressão múltipla para fazer essa avaliação.
Exemplo 2
Em vez da situação acima, suponha que o escritório de admissões queira acompanhar o desempenho dos alunos ao longo do tempo e deseje determinar qual dos seus critérios impulsiona o desempenho dos alunos ao longo do tempo. Em outras palavras, eles têm notas GPA nos quatro anos em que um aluno permanece na escola (digamos, GPA1, GPA2, GPA3, GPA4) e desejam saber qual das variáveis independentes prediz melhor as pontuações GPA a cada ano. ano. O escritório de admissões espera descobrir que as mesmas variáveis independentes preveem o desempenho em todos os quatro anos, para que a escolha dos critérios de admissão garanta que o desempenho dos alunos seja consistentemente alto nos quatro anos.
Solução: Regressão Multivariada
No exemplo 2, temos várias variáveis dependentes (ou seja, GPA1, GPA2, GPA3, GPA4) e várias variáveis independentes. Em tal situação, você usaria regressão multivariada.
A regressão simples refere-se a uma variável dependente ( ) e a uma variável independente ( ):
A regressão múltipla (também conhecida como regressão multivariável) refere-se a uma variável dependente e a várias variáveis independentes:
A regressão multivariada refere-se a várias variáveis dependentes e múltiplas variáveis independentes: . Você pode encontrar problemas em que as variáveis dependentes e independentes são organizadas como matrizes de variáveis (por exemplo, e ), então o A expressão pode ser escrita como , onde letras maiúsculas indicam matrizes.y 11 , Y 12 , . . . x 11 , x 12 , . . . Y = f ( X )
Leitura adicional:
Penso que o principal insight (e diferenciador) aqui, além do número de variáveis em ambos os lados da equação, é que, para o caso de regressão multivariada, o objetivo é utilizar o fato de que existe (geralmente) correlação entre variáveis de resposta (ou resultados). Por exemplo, em um ensaio clínico, os preditores podem ser peso, idade e raça, e as variáveis de resultado são pressão arterial e colesterol. Poderíamos, em teoria, criar dois modelos de "regressão múltipla", um regredindo a pressão sanguínea em peso, idade e raça e um segundo modelo regredindo o colesterol pelos mesmos fatores. No entanto, em alternativa, poderíamos criar um único modelo de regressão multivariada que prevê tantopressão arterial e colesterol simultaneamente com base nas três variáveis preditoras. A idéia é que o modelo de regressão multivariada pode ser melhor (mais preditivo), na medida em que ele pode aprender mais com a correlação entre pressão arterial e colesterol em pacientes.
Na regressão multivariada, há mais de uma variável dependente com diferentes variações (ou distribuições). As variáveis preditoras podem ser mais de uma ou múltiplas. Portanto, pode ser uma regressão múltipla com uma matriz de variáveis dependentes, ou seja, múltiplas variações. Mas quando dizemos regressão múltipla, queremos dizer apenas uma variável dependente com uma única distribuição ou variação. As variáveis preditoras são mais de uma. Resumir múltiplas refere-se a mais de uma variável preditora, mas multivariada refere-se a mais de uma variável dependente.