Eu sei que na regressão linear a variável de resposta deve ser contínua, mas por que isso acontece? Não consigo encontrar nada online que explique por que não consigo usar dados discretos para a variável de resposta.
Eu sei que na regressão linear a variável de resposta deve ser contínua, mas por que isso acontece? Não consigo encontrar nada online que explique por que não consigo usar dados discretos para a variável de resposta.
Respostas:
Não há nada que o impeça de usar a regressão linear nas duas colunas de números que você gosta. Há momentos em que pode até ser uma escolha bastante sensata.
No entanto, as propriedades do que você sai não serão necessariamente úteis (por exemplo, não serão necessariamente tudo o que você deseja que sejam).
Geralmente, com a regressão, você está tentando ajustar algum relacionamento entre a média condicional de Y e o preditor - ou seja, relacionamentos adequados de alguma forma ; indiscutivelmente modelar o comportamento da expectativa condicional é o que 'regressão' é . [Regressão linear é quando você escolhe uma forma específica para g ]
Por exemplo, considere casos extremos de discrição, uma variável de resposta cuja distribuição é igual a 0 ou 1 e que assume o valor 1 com probabilidade que muda à medida que algum preditor ( ) muda. Ou seja, E ( Y | x ) = P ( Y = 1 | X = x ) .
Se você ajustar esse tipo de relacionamento com um modelo de regressão linear, além de um intervalo estreito, ele preverá valores impossíveis para - abaixo de 0 ou acima de 1 :
De fato, também é possível ver que, à medida que a expectativa se aproxima dos limites, os valores devem cada vez mais receber o valor nesse limite, de modo que sua variação fica menor do que se a expectativa estivesse próxima do meio - a variação deve diminuir para 0 Portanto, uma regressão comum erra os pesos, subponderando os dados na região em que a expectativa condicional é próxima de 0 ou 1. Efeitos semelhantes ocorrem se você tiver uma variável delimitada entre aeb, digamos (por exemplo, cada observação sendo uma contagem discreta de uma contagem possível total conhecida para essa observação)
Além disso, normalmente esperamos que a média condicional assíntota para os limites superior e inferior, o que significa que o relacionamento normalmente seria curvo, e não reto, portanto nossa regressão linear provavelmente também equivale ao intervalo dos dados.
Problemas semelhantes ocorrem com dados limitados apenas a um lado (por exemplo, contagens que não possuem um limite superior) quando você está próximo desse limite.
É possível (se raro) ter dados discretos que não são limitados em nenhuma extremidade; se a variável usa muitos valores diferentes, a discrição pode ter relativamente poucas consequências, desde que a descrição da média e da variância do modelo seja razoável.
Aqui está um exemplo em que seria completamente razoável usar a regressão linear em:
Embora em qualquer faixa fina de valores x haja apenas alguns valores y diferentes que provavelmente serão observados (talvez cerca de 10 para intervalos de largura 1), a expectativa pode ser bem estimada e até mesmo erros e erros padrão. valores e intervalos de confiança serão todos mais ou menos razoáveis neste caso específico. Os intervalos de previsão tenderão a funcionar um pouco menos bem (porque a não normalidade tenderá a ter um impacto mais direto nesse caso)
-
Se você deseja executar testes de hipóteses ou calcular intervalos de confiança ou previsão, os procedimentos usuais assumem a normalidade. Em algumas circunstâncias, isso pode importar. No entanto, é possível deduzir sem fazer essa suposição específica.
Não posso comentar, por isso vou responder: na regressão linear comum, a variável resposta não precisa ser contínua, sua suposição não é:
mas é:
A regressão linear comum deriva da minimização dos resíduos quadrados, que é um método que se acredita ser apropriado para variáveis contínuas e discretas (consulte o teorema de Gauss-Markof). É claro que os intervalos de confiança ou predição geralmente utilizados e os testes de hipóteses estão na suposição de distribuição normal, como Glen_b corretamente apontou, mas as estimativas de parâmetros OLS não.
Por outro lado, no modelo linear generalizado , a variável resposta pode ser discreta / categórica (regressão logística). Ou conte (regressão de Poisson).
Edite para endereçar os comentários do mark999 e do remapeado.
Regressão linear é um termo geral que pode ser usado de maneira diferente. Não há nada que nos impeça de usá-lo em variável discreta OU a variável independente e a variável dependente não são lineares.
Se não assumimos nada e executamos regressão linear, ainda podemos obter resultados. E se os resultados satisfizerem nossas necessidades, todo o processo está correto. No entanto, como Glan_b disse
Se você deseja executar testes de hipóteses ou calcular intervalos de confiança ou previsão, os procedimentos usuais assumem a normalidade.
Eu tenho essa resposta é porque eu assumo que o OP está pedindo a regressão linear do livro de estatística clássica, onde geralmente temos essa suposição ao ensinar a regressão linear.
De uma perspectiva teórica, as respostas acima estão corretas. No entanto, em termos práticos, tudo depende do domínio dos seus dados e do poder preditivo do seu modelo.
Um exemplo da vida real é o antigo modelo de falência do MDS. Essa foi uma das pontuações de risco iniciais usadas pelos emprestadores de crédito ao consumidor para prever a probabilidade de um tomador declarar falência. Esse modelo usou dados detalhados do relatório de crédito do mutuário e um sinalizador binário 0/1 para indicar falência durante o período de previsão. Então alimentou esses dados para ... sim ... você adivinhou.
Uma regressão linear antiga simples
Certa vez, tive a oportunidade de conversar com uma das pessoas que construiu esse modelo. Eu perguntei a ele sobre a violação de suposições. Ele explicou que, apesar de violar completamente as suposições sobre resíduos, etc., não se importava.
Acontece que ...
Este modelo de regressão linear 0/1 (quando padronizado / escalonado para uma pontuação fácil de ler e emparelhado com um ponto de corte apropriado) foi validado de forma limpa contra amostras de dados de desempenho e teve um desempenho muito bom como discriminador Bom / Ruim de falência.
O modelo foi usado por anos como uma segunda pontuação de crédito para evitar falências lado a lado com a pontuação de risco do FICO (que foi projetada para prever mais de 60 dias de inadimplência).