Quero dizer, algumas dessas variáveis estão fortemente correlacionadas entre si. Como / por que / em que contexto os definimos como variáveis independentes ?
Quero dizer, algumas dessas variáveis estão fortemente correlacionadas entre si. Como / por que / em que contexto os definimos como variáveis independentes ?
Respostas:
Se nos afastarmos da ênfase atual no aprendizado de máquina e relembrarmos quanto da análise estatística foi desenvolvida para estudos experimentais controlados, a frase "variáveis independentes" faz muito sentido.
Em estudos experimentais controlados, as escolhas de um medicamento e suas concentrações, ou as escolhas de um fertilizante e suas quantidades por hectare, são feitas de forma independente pelo investigador. O interesse está em como uma variável de resposta de interesse (por exemplo, pressão arterial, rendimento da colheita) depende dessas manipulações experimentais. Idealmente, as características das variáveis independentes são rigorosamente especificadas, essencialmente sem erros no conhecimento de seus valores. Então a regressão linear padrão, por exemplo, modela as diferenças entre os valores das variáveis dependentes em termos dos valores das variáveis independentes mais os erros residuais.
O mesmo formalismo matemático usado para a regressão no contexto de estudos experimentais controlados também pode ser aplicado à análise de conjuntos de dados observados com pouca ou nenhuma manipulação experimental; portanto, talvez não seja surpreendente que a frase "variáveis independentes" tenha transitado para esses tipos de estudos. Mas, como outros usuários desta página observam, essa é provavelmente uma escolha infeliz, com "preditores" ou "recursos" mais apropriados em tais contextos.
De várias maneiras, "variável independente" é uma escolha infeliz. Estas variáveis não precisam ser independentes uns dos outros, e, claro, não precisa de ser independente da variável dependente . No ensino e no meu livro Regression Modeling Strategies , uso a palavra preditor . Em algumas situações, essa palavra não é forte o suficiente, mas funciona bem em média. Uma descrição completa do papel das variáveis (lado direito) em um modelo estatístico pode ser muito longa para ser usada a cada vez: o conjunto de variáveis ou medidas sobre as quais a distribuição de é condicionada. Essa é outra maneira de dizer o conjunto de variáveis cujas distribuições não estamos interessadas atualmente, mas cujos valores tratamos como constantes.X Y
Concordo com as outras respostas aqui de que "independente" e "dependente" são uma terminologia ruim. Como EdM explica, essa terminologia surgiu no contexto de experimentos controlados, nos quais o pesquisador poderia definir os regressores independentemente um do outro. Existem muitos termos preferíveis que não têm essa conotação causal carregada e, na minha experiência, os estatísticos tendem a preferir os termos mais neutros. Existem muitos outros termos usados aqui, incluindo os seguintes:
Pessoalmente, uso os termos variáveis explicativas e variável de resposta, pois esses termos não têm conotação de independência ou controle estatístico etc. (Alguém pode argumentar que 'resposta' tem uma conotação causal, mas essa é uma conotação bastante fraca, então eu não o consideraram problemático.)
Para adicionar às respostas de Frank Harrell e Peter Flom:
Concordo que chamar uma variável de "independente" ou "dependente" é muitas vezes enganosa. Mas algumas pessoas ainda fazem isso. Uma vez ouvi uma resposta do porquê:
Na análise de regressão temos uma variável "especial" (geralmente denotado por ) e muitas variáveis "não tão especiais" ( 's) e que queremos ver como as mudanças em ' s afetam . Em outras palavras, queremos ver como depende de 's.X X Y Y X
É por isso que é chamado de "dependente". E se um é chamado de "dependente", como você chamaria outro?
"Dependente" e "independente" podem ser termos confusos. Um sentido é pseudo-causal ou mesmo causal e é esse o que se entende quando se diz "variável independente" e "variável dependente". Queremos dizer que o DV, em certo sentido, depende do IV. Assim, por exemplo, ao modelar a relação entre altura e peso em humanos adultos, dizemos que o peso é o VD e a altura é o IV.
Isso captura algo que o "preditor" não - a direção do relacionamento. A altura prevê peso, mas o peso também prevê altura. Ou seja, se lhe dissessem para adivinhar a altura das pessoas e seus pesos, isso seria útil.
Mas não diríamos que a altura depende do peso.
Com base nas respostas acima, sim, concordo que essa variável dependente e independente é uma terminologia fraca. Mas posso explicar o contexto em que está sendo usado por muitos de nós. Você diz que, para um problema de regressão geral, temos uma variável Output, digamos Y, cujo valor depende de outras variáveis de entrada, digamos x1, x2, x3. É por isso que é chamado de "variável dependente". Da mesma forma, dependendo apenas desse contexto , e apenas para diferenciar entre as variáveis de saída e entrada, x1, x2, x3 são denominados como variáveis independentes. Porque, diferentemente de Y, não depende de nenhuma outra variável (mas sim, aqui não estamos falando de dependência entre si).
Variáveis independentes são chamadas independentes porque não dependem de outras variáveis. Por exemplo, considere o problema de previsão de preço da habitação. Suponha que tenhamos dados sobre o tamanho da casa, a localização e o preço da casa. Aqui, house_price é determinado com base no tamanho da casa e localização, mas a localização e o tamanho da casa podem variar para diferentes casas.