Como calcular o tempo médio de adesão ao vegetarianismo quando temos apenas dados de pesquisas sobre vegetarianos atuais?

Uma amostra populacional aleatória foi pesquisada. Eles foram perguntados se eles comem dieta vegetariana. Se eles responderam que sim, também foram solicitados a especificar por quanto tempo eles seguem a dieta vegetariana sem interrupção. Eu quero usar esses dados para calcular o tempo médio de adesão ao vegetarianismo. Em outras palavras, quando alguém se torna vegetariano, quero saber por muito tempo, em média, que eles permanecem vegetarianos. Vamos supor que:

Todos os entrevistados deram respostas corretas e precisas
O mundo é estável: a popularidade do vegetarianismo não está mudando, a duração média da adesão também não está mudando.

Meu raciocínio até agora

Achei útil analisar um modelo de brinquedo do mundo, onde no início de cada ano duas pessoas se tornam vegetarianas. Toda vez, um deles permanece vegetariano por 1 ano e outro por 3 anos. Obviamente, a duração média de adesão neste mundo é (1 + 3) / 2 = 2 anos. Aqui está um gráfico que ilustra o exemplo. Cada retângulo representa um período do vegetarianismo:

uma ilustração

Digamos que façamos uma pesquisa no meio do ano 4 (linha vermelha). Obtemos os seguintes dados:

uma mesa

Obteríamos os mesmos dados se fizéssemos a pesquisa a qualquer ano, a partir do ano 3. Se fizermos a média das respostas, obtemos:

(2 * 0,5 + 1,5 + 2,5) / 4 = 1,25

Subestimamos porque assumimos que todos deixaram de ser vegetarianos logo após a pesquisa, o que é obviamente incorreto. Para obter uma estimativa mais próxima dos tempos médios reais em que esses participantes permaneceriam vegetarianos, podemos supor que, em média, eles relataram um tempo na metade do período do vegetarianismo e multiplicaram as durações relatadas por 2. Em uma grande pesquisa realizada aleatoriamente da população (como a que estou analisando), acho que essa é uma suposição realista. Pelo menos, daria um valor esperado correto. No entanto, se dobrar é a única coisa que fazemos, obtemos uma média de 2,5, o que é uma superestimação. Isso ocorre porque, quanto mais a pessoa permanecer vegetariana, maior a probabilidade de pertencer à amostra de vegetarianos atuais.

Eu então pensei que a probabilidade de alguém estar na amostra de vegetarianos atuais é proporcional à sua duração do vegetarianismo. Para explicar esse viés, tentei dividir o número de vegetarianos atuais pela duração prevista de adesão:

mais uma mesa

No entanto, isso também fornece uma média incorreta:

(2 * 1 + ⅓ * 3 + ⅕ * 5) / (2 + ⅓ + ⅕) = 4 / 2,533333 = 1,579 anos

Daria a estimativa correta se o número de vegetarianos fosse dividido pelos comprimentos corretos de adesão:

(1 + ⅓ * (1 + 3 + 5)) / (1 + ⅓ * 3) = 2 anos

Mas não funciona se eu usar comprimentos previstos de aderência e eles são tudo o que tenho na realidade. Não sei mais o que tentar. Eu li um pouco sobre análise de sobrevivência, mas não tenho certeza de como aplicá-la neste caso. Idealmente, eu também gostaria de poder calcular um intervalo de confiança de 90%. Quaisquer dicas seriam extremamente apreciadas.

EDIT: Pode ser possível que a pergunta acima não tenha resposta. Mas também houve outro estudo que perguntou a uma amostra aleatória de pessoas se elas eram / eram vegetarianas e quantas vezes foram vegetarianas no passado. Eu também sei a idade de todos em ambos os estudos e algumas outras coisas. Talvez essa informação possa ser usada em conjunto com a pesquisa de vegetarianos atuais para obter a média de alguma forma. Na realidade, o estudo sobre o qual falei é apenas uma peça do quebra-cabeça, mas muito importante e quero tirar mais proveito disso.

— Saulius Šimčikas
fonte

Essa não é uma opção de caixa eletrônico. Esses dados definitivamente fornecem algumas evidências para a duração da adesão, eu simplesmente não sei como usá-los.

— Saulius Šimčikas

Pelo menos uma de suas imagens parece ter desaparecido (erro 403 quando uso o URL).

— barrycarter

@kjetilbhalvorsen O problema não importa se os vegetarianos continuam sendo vegetarianos por toda a vida. Em algum momento, eles deixarão de ser vegetarianos, comendo carne ou morrendo.

— Pere

@kjetil O seu comentário "vegetarianos de verdade" soa um pouco como um escocês sem verdade . A definição comum de vegetariano não diz nada sobre o que pode acontecer no futuro, nem sobre por que alguém é vegetariano, mas apenas sobre seu comportamento no momento em que o atributo está sendo considerado. Se alguém é vegetariano agora, agora é vegetariano, por qualquer motivo que seja. Eu não acho que nossos sentimentos pessoais sobre a idéia de comer carne ou as razões pelas quais podemos sentir que o fazemos estejam no tópico aqui; eles pertencem a outro lugar.

— Glen_b -Reinstala Monica

Como as pessoas vegetarianas por mais tempo têm maior probabilidade de serem selecionadas para aparecer na sua amostra, isso significa que a função de densidade de probabilidade dos dados da amostra é proporcional a um menos a função de distribuição cumulativa dos comprimentos de aderência. Para fazer um exemplo, a distribuição dos comprimentos é [0, 0,5, 0, 0,5] (50% duram 1 ano, 50% por 3 anos), fornecendo um CDF de [0, 0,5, 0,5, 1 ], com um menos que seja [1, 0,5, 0,5, 0] proporcional às contagens [2, 1, 1, 0] da sua amostra.

— PhiNotPi 20/08/19

Respostas:

Seja denotado o pdf do comprimento de aderência do vegetarianismo na população. O nosso objectivo é o de estimar . $f_X(x)$ $X$ $EX=\int_0^\infty xf_X(x)dx$

Supondo que a probabilidade de ser incluída na pesquisa (o evento ) seja proporcional a , o pdf do comprimento de adesão entre os incluídos na pesquisa é $S$ $X$ $X$ No momento de ser incluído na pesquisa, apenas um tempopassou. Condicional em(e), o tempo relatado como vegetariano é uniforme com pdf

f_{X | S} (x) = \frac{x f_{X} (x)}{\int x f_{X} (x) d x} = \frac{x f_{X} (x)}{E X} .

$f_{X|S}(x) = \frac{xf_X(x)}{\int x f_X(x) dx}=\frac{xf_X(x)}{EX}.$

Z

$Z$

X

$X$

S

$S$

Portanto, usando a lei da probabilidade total, a distribuição geral do tempo

passado como vegetariano entre os incluídos na pesquisa se torna

f_{Z | X = x} (z) = \frac{1}{x}, 0 < z < x .

$f_{Z|X=x}(z) = \frac1x, 0<z<x.$

Z

$Z$

onde

é a CDF de

. Uma vez que

é uma variável positiva

e de modo

\begin{aligned} f_{Z} (z) & = \int_{z}^{\infty} f_{Z | X = x} (z) f_{X | S} (x) d x \\ = \int_{z}^{\infty} \frac{1}{x} \frac{x f_{X} (x)}{E X} d x \\ = \frac{1 - F_{X} (z)}{E X}, \end{aligned}

$\begin{align} f_Z(z) &= \int_z^\infty f_{Z|X=x}(z)f_{X|S}(x)dx \\&= \int_z^\infty \frac1x \frac{xf_X(x)}{EX}dx \\&= \frac{1-F_X(z)}{EX}, \end{align}$

F_{X} (z)

$F_X(z)$

X

$X$

X

$X$

F_{X} (0) = P (X \leq 0) = 0

$F_X(0)=P(X\le 0)=0$

f_{Z} (0) = 1 / E X

$f_Z(0)=1/EX$

$EX$ $f_Z(z)$ $z_1,z_2,\dots,z_n$ $z=0$ $f_Z(z)$ $z=0$ $\hat f_Z(0)$ $f_Z(z)$ $z=0$ $EX$ $\widehat{EX}=1/\hat f_Z(0)$

$f_Z(z)$ $f_X(0)=F_X'(0)>0$ $f_Z(0)$ $EX$ $EX$ nessas situações, sem fazer mais suposições, parece difícil, essencialmente porque os tempos de adesão curtos presentes nessa situação dificilmente aparecem nos dados observados como resultado da amostragem tendenciosa.

$f_X(x)$

L (θ) = \prod_{i = 1}^{n} \frac{1 - F_{X} (z_{i}; θ)}{E X (θ)}

$L(\theta)=\prod_{i=1}^n \frac{1-F_X(z_i;\theta)}{EX(\theta)}$

Código R simulando dados e implementando os dois métodos:

# Simulate lognormal duration length in population
set.seed(1)
n <- 1e+4
x <- rlnorm(n,mean=2,sd=.2)
# Biased sampling
x.given.S <- sample(x, size=n/10, prob=x, replace=TRUE)
# Duration at time of sampling
z <- runif(length(x.given.S),min=0, max=x.given.S)
hist(z,prob=TRUE,main="")

# Compute kernel density estimate with reflection around z=0
to <- max(x) + 3
fhat <- density(z,from = -to, to=to)
m <- length(fhat$y)
fhat$y <- fhat$y[(m/2+1):m] + fhat$y[(m/2):1]
fhat$x <- fhat$x[(m/2+1):m]
lines(fhat,col="red")
# Estimate of EX
1/fhat$y[1]
# True value (mean of above lognormal)
exp(2+.2^2/2)

# Maximum likelihood
nll <- function(theta, z) {
  - sum(plnorm(z, theta[1], theta[2], log.p=TRUE, lower.tail = FALSE)) + length(z)*(theta[1] + theta[2]^2/2)
}
fit <- optim(c(0,1),nll,z=z)
fit$par
EXhat <- exp(fit$par[1]+fit$par[2]^2/2) # MLE of EX
EXhat
curve(plnorm(z, fit$par[1], fit$par[2], lower.tail=FALSE)/EXhat, xname="z", col="blue",add=TRUE)

— Jarle Tufto
fonte

Ei, muito obrigado por responder, ainda não tirei um tempo para entender tudo, só queria acrescentar que conheço a distribuição geral desse outro estudo. (o único problema com o outro estudo foi o de que as pessoas escolhem entre as opções há quanto tempo são vegetarianas e uma delas é "Mais de 10 anos" e a média depende quase inteiramente de quanto mais de 10 anos as pessoas permanecer vegetariano)

— Saulius Šimčikas

Ok, espero que não haja grandes falhas no meu raciocínio. Vejo que @PhiNotPi chega ao mesmo pdf em seu comentário ao OP.

— Jarle Tufto

@Saulius Se você tiver acesso ao segundo conjunto de dados censurados à direita e se puder presumir que as distribuições subjacentes são idênticas, a solução ideal seria combinar a probabilidade desse conjunto de dados (que é fácil de anotar se for apenas amostragem censurada à direita) e, em seguida, maximize a probabilidade conjunta.

— precisa saber é o seguinte

que não é certo censurado: imgur.com/U8ofZ3A agora percebo que eu tinha que falar isso no início, mas eu pensei que o meu problema tinha alguma solução mais simples ...

— Saulius Šimčikas

@ Saulius Esses dados são censurados por intervalo. Novamente, é fácil calcular a probabilidade.

— precisa saber é o seguinte

(Eu hesitei em adicionar isso, como parece que @JarleTufto já deu uma boa abordagem matemática; no entanto, não sou inteligente o suficiente para entender sua resposta, e agora estou curioso para saber se é exatamente a mesma abordagem ou se a abordagem que descrevo abaixo sempre tem seus usos.)

O que eu faria é adivinhar um comprimento médio, e adivinhar algumas distribuições em torno dele e, em seguida, para cada um, fazer uma simulação da minha população e fazer uma amostra regularmente.

Você disse que presume que a população total de vegetarianos não está mudando; portanto, toda vez que meu modelo faz alguém parar, um novo vegetariano é criado. Precisamos executar o modelo por vários anos simulados para garantir que ele se estabeleceu antes que possamos começar a amostrar. Depois disso, acho que você pode colher amostras todos os meses simulados (*) até ter o suficiente para formar seu intervalo de confiança de 90%.

*: ou qualquer resolução que funcione com seus dados. Se as pessoas responderem ao ano mais próximo, a amostragem a cada 6 meses é boa o suficiente.

De todas as suas suposições, você escolhe a média e a distribuição que (em média todas as amostras que você tirou) oferecem o resultado mais próximo do que sua pesquisa na vida real deu.

Eu repetia minhas suposições algumas vezes, para me concentrar na melhor partida.

A melhor distribuição pode não ter um pico. Os ex-vegetarianos em quem consigo pensar pararam por causa de grandes mudanças no estilo de vida (normalmente casando / morando com um país não-vegetariano, ou em movimento, ou ficando gravemente doente e um médico sugerindo que pode ser dieta); do outro lado, está o poder do hábito: quanto mais você é vegetariano, maior a probabilidade de continuar sendo um. Se seus dados solicitassem idade e status de relacionamento, também poderíamos incluí-lo na simulação acima.

— Darren Cook
fonte