Qual é a diferença entre o modelo Logit e Probit ?
Estou mais interessado aqui em saber quando usar a regressão logística e quando usar o Probit.
Se houver alguma literatura que o defina usando R , isso também seria útil.
Qual é a diferença entre o modelo Logit e Probit ?
Estou mais interessado aqui em saber quando usar a regressão logística e quando usar o Probit.
Se houver alguma literatura que o defina usando R , isso também seria útil.
Respostas:
Eles diferem principalmente na função de link.
No Logit:
Em Probit: (pdf normal cumulativo)
De outro modo, a logística possui caudas um pouco mais achatadas. isto é, a curva probit se aproxima dos eixos mais rapidamente que a curva logit.
Logit tem uma interpretação mais fácil do que probit. A regressão logística pode ser interpretada como modelagem de chances de log (ou seja, aqueles que fumam> 25 cigarros por dia têm uma probabilidade 6 vezes maior de morrer antes dos 65 anos de idade). Geralmente, as pessoas iniciam a modelagem com logit. Você pode usar o valor de probabilidade de cada modelo para decidir entre logit e probit.
Um modelo linear padrão (por exemplo, um modelo de regressão simples) pode ser pensado como tendo duas 'partes'. Estes são chamados componente estrutural e componente aleatório . Por exemplo:
Os dois primeiros termos (ou seja, ) constituem o componente estrutural e (que indica um termo de erro normalmente distribuído) é o componente aleatório. Quando a variável de resposta não é normalmente distribuída (por exemplo, se sua variável de resposta é binária), essa abordagem pode não ser mais válida. O modelo linear generalizado
β 0 + β 1 X ε
A função link é a chave para os GLiMs: como a distribuição da variável de resposta não é normal, é o que nos permite conectar o componente estrutural à resposta - ele os vincula (daí o nome). Também é a chave da sua pergunta, já que o logit e o probit são links (como o @vinux explicou), e a compreensão das funções do link nos permitirá escolher de maneira inteligente quando usar qual deles. Embora possa haver muitas funções de link aceitáveis, geralmente há uma que é especial. Sem querer ir muito longe nas ervas daninhas (isso pode ser muito técnico), a média prevista, , não será necessariamente matematicamente a mesma que o parâmetro de localização canônica da distribuição de resposta ;β. A vantagem disso "é que existe uma estatística suficiente para " ( German Rodriguez ). O link canônico para dados de resposta binária (mais especificamente, a distribuição binomial) é o logit. No entanto, existem muitas funções que podem mapear o componente estrutural para o intervalo e, portanto, são aceitáveis; o probit também é popular, mas ainda existem outras opções usadas (como o log complementar, , geralmente chamado de 'cloglog'). Portanto, existem muitas funções de link possíveis e a escolha da função de link pode ser muito importante. A escolha deve ser feita com base em alguma combinação de: ln ( - ln ( 1 - μ ) )
Tendo abordado um pouco da base conceitual necessária para entender essas idéias mais claramente (perdoe-me), explicarei como essas considerações podem ser usadas para orientar sua escolha de link. (Deixe-me observar que acho que o comentário de @ David captura com precisão por que links diferentes são escolhidos na prática .) Para começar, se sua variável de resposta for o resultado de um estudo de Bernoulli (ou seja, ou ), sua distribuição de respostas será binomial, e o que você está realmente modelando é a probabilidade de uma observação ser (ou seja, ). Como resultado, qualquer função que mapeie a linha do número real , para o intervalo1 1 π ( Y = 1 ) ( - ∞ , + ∞ ) ( 0 , 1 )vai funcionar.
Do ponto de vista da sua teoria substantiva, se você pensa que suas covariáveis estão diretamente conectadas à probabilidade de sucesso, então normalmente escolheria a regressão logística porque é o elo canônico. No entanto, considere o seguinte exemplo: Você é solicitado a modelar high_Blood_Pressure
em função de algumas covariáveis. A pressão arterial em si normalmente é distribuída na população (na verdade eu não sei, mas parece razoável, à primeira vista); no entanto, os médicos a dicotomizaram durante o estudo (ou seja, eles apenas registraram "pressão alta" ou "normal" ) Nesse caso, o probit seria preferível a priori por razões teóricas. Isto é o que @Elvis quis dizer com "seu resultado binário depende de uma variável gaussiana oculta".simétrico , se você acredita que a probabilidade de sucesso aumenta lentamente de zero, mas diminui mais rapidamente à medida que se aproxima de um, o cloglog é solicitado, etc.
Por fim, observe que é improvável que o ajuste empírico do modelo nos dados ajude na seleção de um link, a menos que as formas do link funcionem em questão diferem substancialmente (das quais o logit e o probit não). Por exemplo, considere a seguinte simulação:
set.seed(1)
probLower = vector(length=1000)
for(i in 1:1000){
x = rnorm(1000)
y = rbinom(n=1000, size=1, prob=pnorm(x))
logitModel = glm(y~x, family=binomial(link="logit"))
probitModel = glm(y~x, family=binomial(link="probit"))
probLower[i] = deviance(probitModel)<deviance(logitModel)
}
sum(probLower)/1000
[1] 0.695
Mesmo quando sabemos que os dados foram gerados por um modelo probit e temos 1000 pontos de dados, o modelo probit produz apenas um ajuste melhor 70% das vezes, e mesmo assim, geralmente por apenas uma quantia trivial. Considere a última iteração:
deviance(probitModel)
[1] 1025.759
deviance(logitModel)
[1] 1026.366
deviance(logitModel)-deviance(probitModel)
[1] 0.6076806
A razão para isso é simplesmente que as funções logit e link probit produzem saídas muito semelhantes quando recebem as mesmas entradas.
As funções logit e probit são praticamente idênticas, exceto que o logit fica um pouco mais distante dos limites quando 'virar a esquina', como o @vinux afirmou. (Observe que, para que o logit e o probit se alinhem da melhor forma, o do logit deve ser vezes o valor da inclinação correspondente para o probit. Além disso, eu poderia ter mudado o cloglog ligeiramente para que eles fiquem no topo mais um do outro, mas deixei de lado para manter a figura mais legível.) Observe que o cloglog é assimétrico, enquanto os outros não; ele começa a se afastar de 0 mais cedo, mas mais lentamente, e se aproxima de 1 e depois vira bruscamente. ≈ 1,7
Mais algumas coisas podem ser ditas sobre as funções de link. Primeiro, considerando a função de identidade ( ) como uma função de link, podemos entender o modelo linear padrão como um caso especial do modelo linear generalizado (ou seja, a distribuição da resposta é normal e o link é a função de identidade). Também é importante reconhecer que qualquer transformação que o link instanciar é aplicada adequadamente ao parâmetro que governa a distribuição de resposta (ou seja, ), não os dados de resposta reais. Finalmente, porque na prática nunca temos o parâmetro subjacente para transformar, nas discussões desses modelos, muitas vezes o que é considerado o link real é deixado implícito e o modelo é representado pela inversa da função de link aplicada ao componente estrutural. . Ou seja:
Por exemplo, a regressão logística geralmente é representada:
vez de:
Para uma visão geral rápida e clara, mas sólida, do modelo linear generalizado, consulte o capítulo 10 de Fitzmaurice, Laird, & Ware (2004) , no qual eu me inclinei para partes desta resposta, embora, já que essa seja minha própria adaptação, - e outro - material, qualquer erro seria meu). Para saber como encaixar esses modelos no R, consulte a documentação da função ? Glm no pacote base.
(Uma nota final adicionada mais tarde :) Às vezes, ouço as pessoas dizerem que você não deve usar o probit, porque ele não pode ser interpretado. Isso não é verdade, embora a interpretação dos betas seja menos intuitiva. Com a regressão logística, uma alteração de uma unidade em é associada a uma alteração nas chances de log de 'sucesso' (como alternativa, uma vezes nas probabilidades), sendo todas as demais iguais. Com um probit, isso seria uma alteração de 's. (Pense em duas observações em um conjunto de dados com escores de 1 e 2, por exemplo.) Para convertê-las em probabilidades previstas , você pode passá-las pelo CDF normal, ou procure-os em uma tabela .
(+1 para @vinux e @Elvis. Aqui, tentei fornecer uma estrutura mais ampla para pensar sobre essas coisas e depois usá-la para abordar a escolha entre logit e probit.)
Além da resposta do vinux, que já conta o mais importante:
os coeficientes na regressão logit têm interpretações naturais em termos de razão de chances;
a regressão probística é o modelo natural quando você pensa que seu resultado binário depende de uma variável gaussiana oculta [eq. 1] com maneira determinística: exatamente quando .
De maneira mais geral e mais natural, a regressão probística é o modelo mais natural se você acha que o resultado é exatamente quando algum excede o limite , com . É fácil ver que isso pode ser reduzido ao caso mencionado: apenas redimensione como ; é fácil verificar essa equação [eq. 1] ainda mantém (redimensionar os coeficientes e traduzir a interceptação). Esses modelos foram defendidos, por exemplo, em contextos médicos, onde seria uma variável contínua não observada e por exemplo, uma doença que aparece quando excede algum "limiar patológico".
Os modelos logit e probit são apenas modelos . "Todos os modelos estão errados, alguns são úteis", como Box disse uma vez! Ambos os modelos permitirão detectar a existência de um efeito de no resultado ; exceto em alguns casos muito especiais, nenhum deles será "realmente verdadeiro", e sua interpretação deve ser feita com cautela.
Em relação à sua declaração
Estou mais interessado aqui em saber quando usar a regressão logística e quando usar probit
Já existem muitas respostas que trazem coisas a serem consideradas na escolha entre as duas, mas há uma consideração importante que ainda não foi declarada: quando seu interesse é examinar associações dentro do cluster em dados binários usando efeitos logísticos de efeitos mistos ou modelos probit, existe uma fundamentação teórica para a preferência do modelo probit. Obviamente, isso pressupõe que não há uma razão a priori para preferir o modelo logístico (por exemplo, se você está fazendo uma simulação e sabe que é o verdadeiro modelo).
Primeiro , para entender por que isso é verdade, observe que esses dois modelos podem ser vistos como modelos de regressão contínua com limite. Como um exemplo, considere o modelo linear simples de efeitos mistos para a observação no cluster :
onde é o efeito aleatório do cluster e é o termo do erro. Em seguida, os modelos de regressão logística e de probit são equivalentemente formulados como sendo gerados a partir desse modelo e com limiar em 0:
Se o for normalmente distribuído, você terá uma regressão probit e, se for distribuído logisticamente, terá um modelo de regressão logística. Como a escala não é identificada, esses erros residuais são especificados como padrão normal e logística padrão, respectivamente.
Pearson (1900) mostrou que, se dados normais multivariados eram gerados e limitados para serem categóricos, as correlações entre as variáveis subjacentes ainda eram estatisticamente identificadas - essas correlações são denominadas correlações policóricas e, específicas para o caso binário, são denominadas correlações tetracóricas . Isso significa que, em um modelo probit, o coeficiente de correlação intraclasse das variáveis normalmente distribuídas subjacentes:
é identificado, o que significa que, no caso probit, você pode caracterizar completamente a distribuição conjunta das variáveis latentes subjacentes .
No modelo logístico, a variação de efeito aleatório no modelo logístico ainda é identificada, mas não caracteriza totalmente a estrutura de dependência (e, portanto, a distribuição conjunta), uma vez que é uma mistura entre uma variável aleatória normal e uma logística que não possui a propriedade que é totalmente especificada por sua matriz de média e covariância. Observar essa suposição paramétrica ímpar para as variáveis latentes subjacentes torna menos clara a interpretação dos efeitos aleatórios no modelo logístico.
Um ponto importante que não foi abordado nas respostas anteriores (excelentes) é a etapa de estimativa real. Os modelos de logit multinacionais têm um PDF fácil de integrar, levando a uma expressão de forma fechada da probabilidade de escolha. A função de densidade da distribuição normal não é tão facilmente integrada, portanto os modelos probit geralmente requerem simulação. Portanto, embora ambos os modelos sejam abstrações de situações do mundo real, o logit geralmente é mais rápido para problemas maiores (várias alternativas ou grandes conjuntos de dados).
Para ver isso mais claramente, a probabilidade de um resultado específico ser selecionado é uma função das variáveis preditoras e do
Não existe uma forma conveniente para esses modelos.
O que vou dizer de maneira alguma invalida o que foi dito até agora. Quero apenas ressaltar que os modelos probit não sofrem com as premissas do IIA (independência de alternativas irrelevantes), e o modelo logit.
Para usar um exemplo do excelente livro do Train. Se eu tiver um logit que preveja se eu vou pegar o ônibus azul ou dirigir no meu carro, a adição de ônibus vermelho atrai proporcionalmente o carro e o ônibus azul. Mas, usando um modelo probit, você pode evitar esse problema. Em essência, em vez de desenhar de ambos proporcionalmente, você pode desenhar mais do ônibus azul, pois eles são substitutos mais próximos.
O sacrifício que você faz é que não há soluções de forma fechada, como apontado acima. Probit tende a ser meu objetivo quando estou preocupado com os problemas do IIA. Isso não quer dizer que não há maneiras de contornar o IIA em uma estrutura de logit (distribuições GEV). Mas sempre vi esses tipos de modelos como uma maneira desajeitada de contornar o problema. Com as velocidades computacionais que você pode obter, eu diria que vá com probit.
Uma das diferenças mais conhecidas entre logit e probit é a distribuição de resíduos de regressão (teórica): normal para probit, logística para logit (consulte: Koop G. Uma Introdução à Econometria Chichester, Wiley: 2008: 280).
Ofereço uma resposta prática à pergunta, que se concentra apenas em "quando usar a regressão logística e quando usar probit", sem entrar em detalhes estatísticos, mas focando nas decisões baseadas em estatísticas. A resposta depende de duas coisas principais: você tem uma preferência disciplinar e só se importa com o modelo que melhor se ajusta aos seus dados?
Diferença básica
Os modelos logit e probit fornecem modelos estatísticos que dão a probabilidade de que uma variável de resposta dependente seja 0 ou 1. Eles são muito semelhantes e geralmente apresentam resultados praticamente idênticos, mas como eles usam funções diferentes para calcular as probabilidades, seus resultados às vezes são levemente diferente.
Preferência disciplinar
Algumas disciplinas acadêmicas geralmente preferem uma ou outra. Se você vai publicar ou apresentar seus resultados em uma disciplina acadêmica com uma preferência tradicional específica, deixe que dite sua escolha, para que suas descobertas sejam mais facilmente aceitáveis. Por exemplo (dos consultores de métodos ),
O Logit - também conhecido como regressão logística - é mais popular nas ciências da saúde como epidemiologia, em parte porque os coeficientes podem ser interpretados em termos de odds ratio. Modelos probit podem ser generalizados para dar conta de variações não constantes de erro em configurações econométricas mais avançadas (conhecidas como modelos probit heterocedásticos) e, portanto, são usadas em alguns contextos por economistas e cientistas políticos.
O ponto é que as diferenças nos resultados são tão pequenas que a capacidade do público em geral de entender seus resultados supera as pequenas diferenças entre as duas abordagens.
Se tudo o que lhe interessa se encaixa melhor ...
Se sua pesquisa está em uma disciplina que não prefere uma ou outra, meu estudo dessa questão (que é melhor, logit ou probit) me levou a concluir que geralmente é melhor usar probit , já que quase sempre dê um ajuste estatístico aos dados iguais ou superiores aos do modelo de logit. A exceção mais notável quando os modelos de logit se ajustam melhor é no caso de "variáveis independentes extremas" (que explico abaixo).
Minha conclusão baseia-se quase inteiramente (depois de pesquisar várias outras fontes) em Hahn, ED & Soyer, R., 2005. Modelos de probit e logit: diferenças no domínio multivariado. Disponível em: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.329.4866&rep=rep1&type=pdf . Aqui está o meu resumo das conclusões práticas da decisão deste artigo sobre se os modelos multivariados logit versus probit fornecem um melhor ajuste aos dados (essas conclusões também se aplicam a modelos univariados, mas apenas simulam efeitos para duas variáveis independentes):
Na maioria dos cenários, os modelos logit e probit ajustam os dados igualmente bem, com as duas exceções a seguir.
O Logit é definitivamente melhor no caso de "variáveis independentes extremas" . Essas são variáveis independentes, nas quais um valor particularmente grande ou pequeno determinará com esmagadora maioria se a variável dependente é 0 ou 1, substituindo os efeitos da maioria das outras variáveis. Hahn e Soyer definem formalmente assim (p. 4):
Um nível variável extremamente independente envolve a influência de três eventos. Primeiro, um nível de variável independente extrema ocorre no extremo superior ou inferior de uma variável independente. Por exemplo, digamos que a variável independente x deva assumir os valores 1, 2 e 3,2. O nível variável independente extrema envolveria os valores em x = 3,2 (ou x = 1). Segundo, uma proporção substancial (por exemplo, 60%) do total de n deve estar nesse nível. Terceiro, a probabilidade de sucesso nesse nível deve ser extrema (por exemplo, superior a 99%).
Com base na análise de Hahn e Soyer, minha conclusão é sempre usar modelos probit, exceto no caso de variáveis independentes extremas, caso em que o logit deve ser escolhido . Variáveis independentes extremas não são tão comuns e devem ser fáceis de reconhecer. Com essa regra, não importa se o modelo é um modelo de efeitos aleatórios ou não. Nos casos em que um modelo é um modelo de efeitos aleatórios (onde probit é preferido), mas existem variáveis independentes extremas (onde logit é preferido), embora Hahn e Soyer não tenham comentado sobre isso, minha impressão no artigo deles é que o efeito de variáveis independentes extremas são mais dominantes e, portanto, o logit seria preferido.
Abaixo, explico um estimador que aninha probit e logit como casos especiais e onde é possível testar qual é o mais apropriado.
Probit e logit podem ser aninhados em um modelo de variável latente,
onde o componente observado é
Em Klein & Spady, a função de critério é
Eles são muito parecidos.
Ou equivalente :
As diferenças entre logística e probit estão na diferença entre as distribuições logística e normal. Não há muito. Uma vez ajustados, eles se parecem com:
Logística tem cauda mais pesada. Isso pode afetar um pouco a forma como os eventos de probabilidade pequena (<1%) ou alta (> 99%) são ajustados. Praticamente, a diferença nem é perceptível na maioria das situações: logit e probit preveem essencialmente a mesma coisa. Veja http://scholarworks.rit.edu/cgi/viewcontent.cgi?article=2237&context=article
"Filosoficamente", a regressão logística pode ser justificada por ser equivalente ao princípio da entropia máxima: http://www.win-vector.com/blog/2011/09/the-equivalence-of-logistic-regression-and-maximum -entropy-models /
Em termos de cálculo: a logística é mais simples, pois a distribuição cumulativa da distribuição logística tem uma fórmula fechada, diferente da distribuição normal. Porém, as distribuições normais têm boas propriedades quando você passa para a multidimensional; é por isso que o probit é geralmente preferido em casos avançados.