Um preditor com maior variância é "melhor"?

13

Eu tenho uma pergunta conceitual "estatística básica". Como estudante, eu gostaria de saber se estou pensando nisso totalmente errado e por que, se sim:

Digamos que eu esteja hipoteticamente tentando examinar a relação entre "problemas de controle da raiva" e dizer divórcio (sim / não) em uma regressão logística e eu tenho a opção de usar duas pontuações diferentes no controle da raiva - ambas em 100.
Pontuação 1 vem do instrumento de classificação do questionário 1 e minha outra opção; a pontuação 2 vem de um questionário diferente. Hipoteticamente, temos motivos para acreditar em trabalhos anteriores que os problemas de controle da raiva dão origem ao divórcio.
Se, na minha amostra de 500 pessoas, a variação da pontuação 1 for muito maior do que a pontuação 2, existe alguma razão para acreditar que a pontuação 1 seria uma pontuação melhor para ser usada como preditor de divórcio com base na variação?

Para mim, isso parece instintivamente certo, mas é assim?

regression logistic

— N26
fonte

Pergunta interessante, acredito que a resposta de Whuber explica perfeitamente. Minha primeira resposta à pergunta foi: 'aumento da variância não implica informações discriminatórias de classe superior'.

— Zhubarb

11

Alguns pontos rápidos:

A variação pode ser arbitrariamente aumentada ou diminuída adotando uma escala diferente para sua variável. Multiplicar uma escala por uma constante maior que uma aumentaria a variação, mas não alteraria o poder preditivo da variável.
Você pode estar confundindo variação com confiabilidade. Sendo todo o resto igual (e supondo que exista pelo menos alguma previsão verdadeira de pontuação), aumentar a confiabilidade com que você mede uma construção deve aumentar seu poder preditivo. Confira esta discussão sobre correção para atenuação .
Supondo que as duas escalas fossem compostas por vinte itens de 5 pontos e, portanto, tivessem escores totais que variavam de 20 a 100, a versão com maior variância também seria mais confiável (pelo menos em termos de consistência interna).
A confiabilidade da consistência interna não é o único padrão pelo qual julgar um teste psicológico e não é o único fator que distingue o poder preditivo de uma escala versus outra para um determinado construto.

— Jeromy Anglim
fonte

9

Um exemplo simples nos ajuda a identificar o que é essencial.

Seja

Y = C + γ X_{1} + ε

$Y = C + \gamma X_1 + \varepsilon$

onde e são parâmetros, é a pontuação no primeiro instrumento (ou variável independente) e representa erro iid imparcial. Deixe a pontuação no segundo instrumento relacionada ao primeiro instrumento via $C$ $\gamma$ $X_1$ $\varepsilon$

X_{1} = α X_{2} + β .

$X_1 = \alpha X_2 + \beta.$

Por exemplo, as pontuações no segundo instrumento podem variar de 25 a 75 e as pontuações no primeiro de 0 a 100, com . A variação de é vezes a variação de . No entanto, podemos reescrever $X_1 = 2 X_2 - 50$ $X_1$ $\alpha^2$ $X_2$

Y = C + γ (α X_{2} + β) = (C + β γ) + (γ α) X_{2} + ε = C^{'} + γ^{'} X_{2} + ε .

$Y = C + \gamma(\alpha X_2 + \beta) = (C + \beta \gamma) + (\gamma \alpha) X_2 + \varepsilon = C' + \gamma' X_2 + \varepsilon.$

Os parâmetros mudam e a variação da variável independente muda , mas a capacidade preditiva do modelo permanece inalterada .

$X_1$ $X_2$ $Y$ $Y$ $X_i$

$X_1$ $X_2$ $Y$ $Y$ $X_1$ $X_2$ $X_2$

— whuber
fonte

1

Sempre verifique as suposições para o teste estatístico que você está usando!

Uma das premissas da regressão logística é a independência dos erros, o que significa que os casos de dados não devem ser relacionados. Por exemplo. você não pode medir as mesmas pessoas em momentos diferentes, o que temo que você tenha feito com suas pesquisas de controle da raiva.

Eu também ficaria preocupado que, com duas pesquisas de controle da raiva, você esteja basicamente medindo a mesma coisa e sua análise possa sofrer de multicolinearidade.

— Parbury
fonte

1

Eu acho que o N26 está sugerindo um experimento mental. Ou seja, se ao projetar um estudo você tiver uma escolha entre duas escalas, você deve preferir, prima facie, a que apresenta maior variação. Além disso, ter dois preditores que representam o mesmo construto, mas são medidos de maneira diferente, não viola a suposição de independência das observações.

— Jeromy Anglim