Regressão para um resultado (razão ou fração) entre 0 e 1


42

Estou pensando em construir um modelo de previsão de uma relação , onde e e . Portanto, a proporção estaria entre e .a b a > 0 b > 0 0 1a/baba>0b>001

Eu poderia usar regressão linear, embora isso não se limite naturalmente a 0..1. Não tenho motivos para acreditar que o relacionamento seja linear, mas é claro que geralmente é usado de qualquer maneira, como um primeiro modelo simples.

Eu poderia usar uma regressão logística, embora normalmente seja usada para prever a probabilidade de um resultado de dois estados, não para prever um valor contínuo do intervalo 0..1.

Sabendo nada mais, você usaria regressão linear, regressão logística ou opção oculta c ?


4
Você já pensou em regressão beta?
Peter Flom - Restabelece Monica

Muito obrigado a todos que responderam. Vou ter que estudar e escolher. Parece que um beta é um lugar decente para começar, especialmente se eu puder observar um bom ajuste (talvez a olho nu).
Dfrankow

Eu já vi isso feito usando GLM (função de ligação de poisson). O numerador a seria os dados da contagem (o resultado) e o denominador b seria a variável de deslocamento. Você, então, precisa separar um e b valores para cada disciplina / observação. Só não tenho certeza se esta é a opção mais válida. Acho a distribuição Beta uma opção interessante - uma que eu nunca tinha ouvido falar. No entanto, acho difícil entender, sendo um não estatístico.
amigos estão dizendo sobre megpophealth

Obrigado a todos por sua análise profunda e útil, atualmente estou enfrentando quase o mesmo desafio, mas, em vez de prever uma faixa de proporção contínua entre 0-1, prefiro criar um modelo de regressão para prever a faixa de utilidade dos pacientes entre -1 e 1. Isso é bastante complicado, não consegui encontrar nenhuma função de link apropriada para construir um modelo de regressão com um intervalo dependente contínuo entre -1 e 1. Então, os caras só querem ter uma idéia do que poderia ser feito. Obrigado,

11
No momento, há uma resposta trivial: redimensionar a resposta por traz qualquer link para no intervalo, após o qual você pode fazer nova escala para reportar previsões, se assim o desejar. ( y + 1 ) / 2 [ 0 , 1 ]y(y+1)/2[0,1]
Nick Cox

Respostas:


34

Você deve escolher "opção oculta c", onde c é regressão beta. Este é um tipo de modelo de regressão apropriado quando a variável de resposta é distribuída como Beta . Você pode pensar nisso como análogo a um modelo linear generalizado . É exatamente o que você está procurando. Existe um pacote Rchamado betareg que lida com isso. Não sei se você usa R, mas mesmo se não conseguir ler as 'vinhetas', elas fornecerão informações gerais sobre o tópico, além de como implementá-lo R(das quais você não precisaria). Aquele caso).


Editar (muito mais tarde): deixe-me fazer um esclarecimento rápido. Interpreto a pergunta como sendo sobre a razão de dois valores positivos e reais. Nesse caso, (e eles são distribuídos como Gammas), essa é uma distribuição Beta. No entanto, se é uma contagem de 'sucessos' de um total conhecido, , de 'tentativas', essa seria uma proporção de contagem , não uma proporção contínua, e você deve usar GLM binomial (por exemplo, logística regressão). Para saber como fazê-lo em R, consulte, por exemplo, Como fazer regressão logística em R quando o resultado é fracionário (uma razão de duas contagens)?b a / baba/b

Outra possibilidade é usar a regressão linear se as relações puderem ser transformadas de modo a atender às premissas de um modelo linear padrão, embora eu não seja otimista quanto ao fato de realmente funcionar.


11
Você se importaria em explicar por que as regressões beta seriam preferíveis nesse caso? Essa é uma recomendação que vejo com bastante frequência aqui, mas não vejo ninguém elaborando a lógica - seria bom ter isso!
Matt Parker

4
@MattParker, Beta é a distribuição de proporções contínuas - se é isso que você tem como variável de resposta, então Beta é a distribuição apropriada a ser usada. É realmente assim tão simples. O valor ajustado de uma regressão logística é uma probabilidade (que é obviamente contínua), mas a distribuição é binomial (algum número de ensaios de Bernoulli com probabilidade de sucesso ) se sua variável de resposta não for um conjunto de ensaios de Bernoulli, então LR não será apropriado. p
gung - Restabelece Monica

3
Eu seria cuidadoso ao dizer que uma versão beta é "a" distribuição apropriada a ser usada. É bastante flexível e pode ser apropriado, mas não abrange todos os casos. Assim, embora seja uma boa sugestão e pode muito bem ser o que eles querem - você realmente não pode dizer que é a distribuição apropriada unicamente no fato de que é uma resposta contínua entre 0 e 1.
Dason

11
Uma distribuição triangular em [0,1] representa uma distribuição contínua em proporções que não são beta. Poderia haver muitos outros. A versão beta é uma família flexível, mas não há nada de mágico nisso. Você faz um bom argumento sobre a regressão logística, porque ela é geralmente aplicada a dados binários.
Michael Chernick 24/05

2
Talvez eu deva tentar parecer menos dogmático. O que eu quis dizer é que você examina seu DV e usa a distribuição a seguir. É verdade que existem outras distribuições de proporções contínuas. Tecnicamente, Beta é a proporção de um Gamma sobre a soma dele + outro Gamma. Em uma dada situação, uma distribuição diferente poderia ser superior; por exemplo, Beta não pode assumir os valores 0 ou 1, apenas (0, 1). No entanto, o Beta é bem compreendido e muito flexível, com apenas 2 parâmetros adequados. Argumento que, ao lidar com um DV que é uma proporção contínua, normalmente é o melhor lugar para começar.
gung - Restabelece Monica

2

São amostras emparelhadas ou duas populações independentes?

Se populações independentes, você pode considerar log (M) = log (B) + * log (razão)Xi . M é sua medida (um vetor contendo todos os valores de A e B) e X é um vetor = 1 se for um valor de A, = 0 se for um valor de B.M i X i M iXiMiXiMi

Sua interceptação dessa regressão será log (B) e sua inclinação será log (razão).

Veja mais aqui:

Beyene J, Moineddin R. Métodos para estimativa do intervalo de confiança de um parâmetro de razão com aplicação aos quocientes de localização. Metodologia de pesquisa médica da BMC. 2005; 5 (1): 32.

Edição: Eu escrevi um addon SPSS para fazer exatamente isso. Eu posso compartilhar se você estiver interessado.


11
Por curiosidade, qual método você usou (delta, Fieller ou GLM)? Parece-me um pouco que o artigo da BMC não fez algumas simulações da cobertura dos diferentes estimadores (embora sonhar com uma simulação realista seria irritante). Fui lembrado porque me deparei recentemente com um artigo que faz o método delta (sem justificativa real), embora cite o artigo da BMC.
Andy W

11
Quando escrevi esse comentário, usei REGRESSIONapós a transformação dos dados no log. Desde então, eu escrevi uma versão mais sofisticada que usa GLM. Lido com medições de emissão de luz e meus testes sugeriram que a regressão gama com um link de log era a menos propensa a incertezas nos parâmetros. Para a maioria dos meus dados reais, as respostas usando normal, negativo-binomial e gama com log-link eram todos muito semelhantes (pelo menos com a precisão que eu precisava)
DocBuckets

0

Não é verdade. Os dados para a regressão logística são binários 0 ou 1, mas o modelo prevê p dizer a probabilidade de sucesso, dados os preditores , onde é o número de variáveis ​​preditivas no modelo. Na verdade, devido à função logit, o modelo linear prediz o valor do log ( ). Portanto, para obter a previsão para p, basta fazer a transformação inversa que é o logit previsto. i = 1 , 2 , . . , k k pXii=1,2,..,kk p=exp(x)p1p xp=exp(x)[1+exp(x)]x


-1. Não vejo como isso responde à pergunta (e, além disso, é usado para se referir a duas coisas diferentes nesta resposta). p
ameba diz Reinstate Monica

2
-1. Eu concordo com @amoeba. Estou intrigado por isso ter sido votado. Ele não se aplica à questão, que não assume dados binários 0 ou 1, mas se concentra nas proporções medidas entre 0 e 1, inclusive.
Nick Cox
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.