Por que se supõe que os tempos de sobrevivência sejam distribuídos exponencialmente?

36

Estou aprendendo a análise de sobrevivência deste post na UCLA IDRE e fui enganado na seção 1.2.1. O tutorial diz:

... se se sabia que os tempos de sobrevivência eram distribuídos exponencialmente , então a probabilidade de observar um tempo de sobrevivência ...

Por que se supõe que os tempos de sobrevivência sejam distribuídos exponencialmente? Parece muito antinatural para mim.

Por que não normalmente distribuído? Digamos que suponha que estamos investigando a vida útil de uma criatura sob certas condições (digamos, número de dias), ela deve estar mais centrada em algum número com alguma variação (digamos, 100 dias com variação de 3 dias)?

Se queremos que o tempo seja estritamente positivo, por que não fazer uma distribuição normal com média mais alta e variação muito pequena (quase não haverá chance de obter um número negativo)?

— Haitao Du
fonte

9

Heuristicamente, não consigo pensar na distribuição normal como uma maneira intuitiva de modelar o tempo de falha. Ele nunca aparece em nenhum dos meus trabalhos aplicados. Eles estão sempre inclinados para a direita. Penso que as distribuições normais ocorrem heuristicamente como uma questão de médias, enquanto os tempos de sobrevivência ocorrem heuristicamente como uma questão de extremos, como o efeito de um risco constante sendo aplicado a uma sequência de componentes paralelos ou em série.

— 21817 AdamO em 17/03

6

Concordo com o @AdamO sobre as distribuições extremas inerentes à sobrevivência e o tempo até o fracasso. Como outros observaram, as premissas exponenciais têm a vantagem de serem tratáveis. O maior problema com eles é a suposição implícita de uma taxa constante de deterioração. Outras formas funcionais são possíveis e vêm como opções padrão, dependendo do software, por exemplo, gama generalizada. Testes de qualidade de ajuste podem ser empregados para testar diferentes formas e suposições funcionais. O melhor texto sobre modelagem de sobrevivência é Survival Analysis Using SAS, de Paul Allison , 2ª ed. Esqueça SAS-é uma excelente revisão

— Mike Hunter

8

Gostaria de observar que a primeira palavra em sua cotação é " se "

— fomite

41

Distribuições exponenciais são frequentemente usadas para modelar tempos de sobrevivência, porque são as distribuições mais simples que podem ser usadas para caracterizar dados de sobrevivência / confiabilidade. Isso ocorre porque eles não têm memória e, portanto, a função de perigo é constante w / r / t de tempo, o que torna a análise muito simples. Esse tipo de suposição pode ser válido, por exemplo, para alguns tipos de componentes eletrônicos, como circuitos integrados de alta qualidade. Tenho certeza de que você pode pensar em mais exemplos em que o efeito do tempo no risco pode ser considerado insignificante.

No entanto, você está correto ao observar que isso não seria uma suposição apropriada a ser feita em muitos casos. As distribuições normais podem ser boas em algumas situações, embora os tempos de sobrevivência obviamente negativos sejam sem sentido. Por esse motivo, as distribuições lognormal são frequentemente consideradas. Outras opções comuns incluem Weibull, Menor Valor Extremo, Maior Valor Extremo, Logística etc. Uma escolha sensata para o modelo seria informada pela experiência na área de assunto e pela plotagem de probabilidade . Você também pode, é claro, considerar a modelagem não paramétrica.

Uma boa referência para modelagem paramétrica clássica na análise de sobrevivência é: William Q. Meeker e Luis A. Escobar (1998). Métodos estatísticos para dados de confiabilidade , Wiley

— Klumbard
fonte

você poderia elaborar mais sobre "a função de risco é constante w / r / t time"?

— Haitao Du

4

@ hxd1011: Presumivelmente, por "função de risco", o autor está se referindo à função dada por , onde é o pdf de e é a cauda de ( ). Isso também é chamado de taxa de falha . A observação é que, para , a taxa de falha é , que é constante. Além disso, não é difícil mostrar que apenas a distribuição exponencial possui essa propriedade.

r_{X}

$r_X$

r_{X} (t) = f_{X} (t) / {\bar{F}}_{X} (t)

$r_X(t) = f_X(t) / \bar F_X(t)$

f_{X}

$f_X$

X

$X$

{\bar{F}}_{X}

$\bar F_X$

X

$X$

{\bar{F}}_{X} (t) = 1 - F_{X} (t) = \int_{t}^{\infty} f_{X} (x) d x

$\bar F_X(t) = 1 - F_X(t) = \int_t^\infty f_X(x) \, dx$

Exp (λ)

$\operatorname{Exp}(\lambda)$

r (t) = (λ e^{- λ t}) / (e^{- λ t}) = λ

$r(t) =(\lambda e^{-\lambda t}) / (e^{-\lambda t}) = \lambda$

— wchargin

22

Para adicionar um pouco de intuição matemática por trás de como os expoentes surgem nas distribuições de sobrevivência:

A densidade de probabilidade de uma variável de sobrevivência é , onde é o risco atual (risco de uma pessoa "morrer" hoje) e é o probabilidade de que uma pessoa tenha sobrevivido até . pode ser expandido como a probabilidade de uma pessoa sobreviver ao dia 1 e ao dia 2, ... até o dia . Então: Com risco constante e pequeno , podemos usar: para aproximar maneira simples $f(t) = h(t)S(t)$ $h(t)$ $S(t)$ $t$ $S(t)$ $t$

P (s você r v Eu v e d d uma y t) = 1 - h (t)

$P(survived\ day\ t)=1-h(t)$

P (s u r v i v e d d a y s 1, 2, . . ., t) = (1 - h (t))^{t}

$P(survived\ days\ 1, 2, ..., t) = (1-h(t))^t$

λ

$\lambda$

e^{- λ} \approx 1 - λ

$e^{-\lambda} \approx 1-\lambda$

S (t)

$S(t)$

(1 - λ)^{t} \approx e^{- λ t}

$(1-\lambda)^t \approx e^{-\lambda t}$ , e a densidade de probabilidade é então

f (t) = h (t) S (t) = λ e^{- λ t}

$f(t) = h(t)S(t) = \lambda e^{-\lambda t}$

Isenção de responsabilidade: isso não é de forma alguma uma tentativa de derivação adequada do pdf - imaginei que isso é uma pura coincidência e agradeço qualquer comentário sobre por que isso está correto / incorreto.

EDIT: alterou a aproximação por conselho por @SamT, ver comentários para discussão.

— juod
fonte

1

+1 isso me ajudou a entender mais sobre as propriedades da distribuição exponencial.

— Haitao Du

1

Você poderia explicar sua penúltima linha? Diz , então o lado esquerdo é função de ; além disso, também é o certo. No entanto, os dois termos do meio são funções de (como é o lado direito), mas não funções de . Além disso, a aproximação é válida apenas para . Certamente não é verdade que - isso não é verdade aproximadamente para grande . Acho que esse é apenas um erro notável que você cometeu ...?

S (t) = . . .

$S(t) = ...$

t

$t$

λ

$\lambda$

t

$t$

(1 + x / n)^{n} e^{x}

$(1+x/n)^n ~ e^{x}$

x = o (\sqrt{n})

$x = o(\sqrt{n})$

lim_{t \to \infty} (1 - λ t / t)^{t} = e^{- λ t}

$\lim_{t \to \infty} (1-\lambda t/t)^t = e^{-\lambda t}$

t

$t$

— Sam T

@ SamT - obrigado pelo comentário, editado. Vindo de um plano de fundo aplicado, congratulo-me com todas as correções, esp. na notação. Passando ao limite wrt certamente não era necessário lá, mas eu ainda acredito que a aproximação segura para pequenas , como são normalmente encontradas em modelos de sobrevivência. Ou você diria que há algo mais que coincidentemente faz essa aproximação valer?

t

$t$

λ

$\lambda$

— juod 17/03/19

1

Parece melhor agora :) - a questão é que, embora possa ser pequeno, não é verdade que seja necessariamente pequeno; como tal, você não pode usar a aproximação (diretamente): não é nem "você pode na matemática aplicada, mas na pura"; simplesmente não se sustenta. No entanto , podemos contornar isso: temos que é pequeno, para que possamos chegar lá diretamente, escrevendoNaturalmente, , para que possamos deduzir que

λ

$\lambda$

λ t

$\lambda t$

(1 + x / n)^{n} \approx e^{x}

$(1+x/n)^n \approx e^x$

λ

$\lambda$

e^{- λ t} = (e^{- λ})^{t} \approx (1 - λ)^{t} .

$e^{-\lambda t} = \big(e^{-\lambda}\big)^t \approx \big(1-\lambda)^t.$

λ = λ t / t

$\lambda = \lambda t / t$

e^{- λ t} \approx (1 - λ t / t)^{t} .

$e^{-\lambda t} \approx \big(1 - \lambda t / t\big)^t.$

— Sam T

Ao ser aplicado, você pode achar que isso é um pouco exigente, mas o ponto é que o raciocínio não era válido; etapas inválidas semelhantes podem não ser verdadeiras. É claro que, como alguém se inscreveu, você pode ficar feliz em dar esse passo, descobrir que ele é válido na maioria dos casos e não se preocupar com os detalhes! Como alguém que faz matemática pura, isso está fora de questão para mim, mas entendo que precisamos de pura e aplicada! (E particularmente nas estatísticas é bom para não se atolar em detalhes técnicos puros.)

— Sam T

11

Você quase certamente desejará examinar as previsões e a engenharia de confiabilidade para análises completas dos tempos de sobrevivência. Dentro disso, existem algumas distribuições que são usadas com frequência:

A distribuição Weibull (ou "banheira") é a mais complexa. É responsável por três tipos de modos de falha, que dominam em diferentes idades: mortalidade infantil (onde as peças defeituosas quebram desde o início), falhas induzidas (onde as peças quebram aleatoriamente durante a vida útil do sistema) e se desgastam (de onde as peças quebram) usar). Como usado, ele possui um PDF parecido com "\ __ /". Especialmente para alguns eletrônicos, você pode ouvir sobre os tempos de gravação, o que significa que essas peças já foram operadas na parte "\" da curva e as falhas iniciais foram filtradas (idealmente). Infelizmente, a análise Weibull se decompõe rapidamentese suas peças não forem homogêneas (incluindo o ambiente de uso!) ou se você as estiver usando em escalas de tempo diferentes (por exemplo, se algumas peças forem usadas diretamente e outras forem armazenadas primeiro, a taxa de "falha aleatória" será reduzida. ser significativamente diferente, devido à mistura de duas medições de tempo (horas de operação x horas de uso).

Distribuições normais quase sempre estão erradas. Toda distribuição normal tem valores negativos, nenhuma distribuição de confiabilidade possui. Às vezes, elas podem ser uma aproximação útil, mas, quando isso é verdade, você quase sempre está olhando para um log normal de qualquer maneira, portanto, pode usar a distribuição correta. As distribuições normais de log são usadas corretamente quando você tem algum tipo de desgaste e falhas aleatórias desprezíveis e em nenhuma outra circunstância! Como a distribuição Normal, eles são flexíveis o suficiente para que você possa forçá-los a caber na maioria dos dados; você precisa resistir a esse desejo e verificar se as circunstâncias fazem sentido.

Finalmente, a distribuição exponencial é o verdadeiro cavalo de batalha. Muitas vezes, você não sabe quantas peças antigas são (por exemplo, quando as peças não são serializadas e têm momentos diferentes quando entram em serviço); portanto, qualquer distribuição baseada em memória está esgotada. Além disso, muitas partes têm um tempo de desgaste tão arbitrariamente longo que é completamente dominado por falhas induzidas ou fora do período útil da análise. Portanto, embora possa não ser um modelo tão perfeito quanto outras distribuições, ele simplesmente não se importa com as coisas que os atrapalham. Se você possui um MTTF (tempo de população / contagem de falhas), possui uma distribuição exponencial. Além disso, você não precisa de nenhum entendimento físico do seu sistema. Você pode fazer estimativas exponenciais apenascom base nas MTTFs observadas da parte (assumindo uma amostra grande o suficiente), e elas saem bem perto. Também é resiliente a causas: se a cada dois meses alguém fica entediado e joga croquet com alguma parte até que ela se quebre, isso é explicado exponencialmente (ele entra no MTTF). O exponencial também é simples o suficiente para que você possa fazer cálculos diretos da disponibilidade de sistemas redundantes e outros, o que aumenta significativamente sua utilidade.

— Monica livre de fectina
fonte

3

Esta é uma boa resposta, mas observe que a distribuição Weibull não é a distribuição paramétrica "mais complexa" para os modelos de sobrevivência. Não tenho certeza se isso poderia acontecer, mas certamente em relação ao Weibull existe a distribuição Gamma generalizada e a distribuição F generalizada , que podem levar o Weibull como um caso especial, definindo parâmetros como 0.

— restabelecer Monica

É o mais complexo comumente usado em engenharia de confiabilidade (primeiro parágrafo :) Não discordo do seu argumento, mas também nunca vi nenhum deles ser realmente usado (descrições de como eles poderiam ser usados, sim. Implementação real, não )

— fectin - free Monica

9

Para responder sua pergunta explícita, você não pode usar a distribuição normal para sobrevivência porque a distribuição normal vai para o infinito negativo e a sobrevivência é estritamente não negativa. Além disso, não acho que seja verdade que "os tempos de sobrevivência sejam distribuídos exponencialmente" por qualquer pessoa na realidade.

$z$ $t$

$>1$ $<1$

Mais comumente, as distribuições de sobrevivência são complexas e não se encaixam em nenhuma distribuição nomeada. As pessoas normalmente nem se importam em tentar descobrir qual distribuição pode ser. É isso que torna o modelo de riscos proporcionais de Cox tão popular: é semi-paramétrico, pois o risco da linha de base pode ser deixado completamente não especificado, mas o restante do modelo pode ser paramétrico em termos de sua relação com a linha de base não especificada.

— - Reinstate Monica
fonte

4

"Além disso, não acho que seja verdade que" os tempos de sobrevivência sejam distribuídos exponencialmente "por qualquer pessoa na realidade". Na verdade, eu achei bastante comum em epidemiologia, geralmente implicitamente.

— fomite

1

@gung, você poderia gentilmente explicar - é semi-paramétrico em que o perigo de linha de base pode ser deixado completamente não especificado, mas o resto do modelo pode ser paramétrico em termos de sua relação com a linha de base não especificado

— Gaurav Singhal

7

Alguma ecologia pode ajudar a responder ao "Por que" por trás dessa pergunta.

A razão pela qual a distribuição exponencial é usada para modelar a sobrevivência se deve às estratégias de vida envolvidas nos organismos que vivem na natureza. Existem essencialmente dois extremos no que diz respeito à estratégia de sobrevivência, com algum espaço para o meio termo.

Aqui está uma imagem que ilustra o que quero dizer (cortesia da Khan Academy):

Este gráfico representa os indivíduos sobreviventes no eixo Y e a "porcentagem da expectativa máxima de vida" (também conhecida como aproximação da idade do indivíduo) no eixo X.

O tipo I são os seres humanos, que modelam organismos que têm um nível extremo de cuidado com seus filhos, garantindo uma mortalidade infantil muito baixa. Freqüentemente, essas espécies têm muito poucos filhos, porque cada uma delas dedica grande parte do tempo e esforço dos pais. A maioria do que mata os organismos do Tipo I é o tipo de complicações que surgem na velhice. A estratégia aqui é o alto investimento para altos retornos em vidas longas e produtivas, se ao custo de grandes números.

Por outro lado, o Tipo III é modelado por árvores (mas também pode ser plâncton, corais, peixes reprodutores, muitos tipos de insetos etc.), onde os pais investem relativamente pouco em cada filhote, mas produz uma tonelada deles na esperança de que alguns sobreviver. A estratégia aqui é "borrifar e rezar", esperando que, enquanto a maioria dos filhotes seja destruída relativamente rapidamente por predadores que tiram proveito de colheitas fáceis, os poucos que sobreviverem o tempo suficiente para crescer se tornem cada vez mais difíceis de matar, tornando-se (praticamente) impossíveis de serem comido. Enquanto isso, esses indivíduos produzem um grande número de filhos, esperando que alguns também sobrevivam até a sua idade.

O tipo II é uma estratégia intermediária, com investimento moderado dos pais, para capacidade de sobrevivência moderada em todas as idades.

Eu tive um professor de ecologia que colocou desta maneira:

"O tipo III (árvores) é a 'Curva da Esperança', porque quanto mais um indivíduo sobreviver, maior será a probabilidade de continuar a sobreviver. Enquanto isso, o Tipo I (humanos) é a 'Curva do Desespero', porque quanto mais tempo você vive, maior a probabilidade de você morrer ".

— Especialista em cafeína
fonte

Isso é interessante, mas observe que, para os seres humanos, antes da medicina moderna (e ainda hoje em alguns lugares do mundo), a mortalidade infantil é muito alta. A sobrevivência humana de base é frequentemente modelada com " risco de banheira ".

— gung - Restabelece Monica

@gung Absolutamente, essa é uma ampla generalização e há variações dentro dos seres humanos de diferentes regiões e períodos de tempo. A principal diferença é mais clara quando se compara extremos, ou seja, famílias humanas ocidentais (~ 2,5 crianças por par, a maioria das quais não morre na infância) versus corais ou peixes reprodutores (milhões de ovos liberados por ciclo de acasalamento, a maioria dos quais devido a ser comido, fome, química perigosa da água ou simplesmente não ter conseguido chegar a um destino habitável)

— CaffeineConnoisseur

1

Embora eu seja a favor de explicações sobre ecologia, observarei suposições como essas também são feitas para coisas como discos rígidos e motores de aeronaves.

— Fomite 17/03

6

Isso não responde diretamente à pergunta, mas acho muito importante notar e não se encaixa muito bem em um único comentário.

Embora a distribuição exponencial tenha uma derivação teórica muito boa e, portanto, supondo que os dados produzidos sigam os mecanismos assumidos na distribuição exponencial, teoricamente ela deve fornecer estimativas ótimas, na prática ainda não encontrei um conjunto de dados em que a distribuição exponencial produza perto de resultados aceitáveis (é claro, isso depende dos tipos de dados que analisei, quase todos os dados biológicos). Por exemplo, eu apenas olhei para ajustar um modelo a uma variedade de distribuições usando o primeiro conjunto de dados que pude encontrar no meu pacote R. Para a verificação do modelo da distribuição da linha de base, geralmente comparamos com o modelo semi-paramétrico. Veja os resultados.

Na distribuição Weibull, log-logistic e log-normal, não há um vencedor absoluto em termos de ajuste apropriado. Mas há um perdedor claro: a distribuição exponencial! Foi minha experiência que essa magnitude de desajustamento não é excepcional, mas a norma para a distribuição exponencial.

Por quê? Porque a distribuição exponencial é uma família de parâmetros únicos. Portanto, se eu especificar a média dessa distribuição, eu especificarei todos os outros momentos da distribuição. Essas outras famílias são todas as duas famílias de parâmetros. Portanto, há muito mais flexibilidade nessas famílias para se adaptar aos próprios dados.

Agora, lembre-se de que a distribuição Weibull tem a distribuição exponencial como um caso especial (ou seja, quando o parâmetro de forma = 1). Portanto, mesmo que os dados sejam realmente exponenciais, apenas adicionamos um pouco mais de ruído às nossas estimativas usando uma distribuição Weibull em vez de uma distribuição exponencial. Como tal, eu nunca recomendaria o uso da distribuição exponencial para modelar dados reais (e estou curioso para saber se algum leitor tem um exemplo de quando é realmente uma boa ideia).

— Cliff AB
fonte

1

Não estou convencido dessa resposta: 1) "usando o primeiro conjunto de dados que pude encontrar no meu pacote R" ... Sério? ... em stats.stackexchange? Uma amostra aleatória e tiramos conclusões gerais? 1b) Para modelos em que o tempo de falha tende a ser distribuído em torno de um determinado valor (como a vida das pessoas), claramente as distribuições como Gamma, Weibull etc. são mais adequadas; quando os eventos são igualmente prováveis, uma distribuição exponencial é mais adequada. Aposto que seu "primeiro conjunto de dados" acima é do primeiro tipo. 2) Todos os outros modelos possuem 2 parâmetros, deve-se usar, por exemplo, o fator Bayes para comparar os modelos.

— Luca Citi

2

@LucaCiti: "o primeiro conjunto de dados no meu pacote R" significa o primeiro conjunto de dados no pacote R que publiquei (icenReg). E notei que minha experiência com a distribuição exponencial sempre tendo um ajuste inadequado dependia do tipo de dados que analisei; quase exclusivamente dados biológicos. Finalmente, como afirmei no final, estou muito curioso para ouvir exemplos reais aplicados, onde há uma razão convincente para usar a distribuição exponencial; portanto, se você tiver uma, compartilhe.

— Cliff AB

1

Um cenário em que você pode querer usar a distribuição exponencial seria quando (a) você tinha muitos dados históricos que mostravam que os dados realmente eram bem aproximados com uma distribuição exponencial e (b) você precisava fazer inferência com amostras pequenas ( ou seja, n <10). Mas não conheço aplicativos reais como esse. Talvez em algum tipo de problema de controle de qualidade de fabricação?

— Cliff AB

1

Olá Cliff, obrigado por reservar um tempo para responder ao meu comentário. Penso que, grosso modo, uma distribuição como o Weibull se encaixa em situações melhores que correspondem a perguntas como "qual é o tempo de vida do indivíduo x na minha amostra" ou "quando o neurônio x vai disparar novamente" ou "quando o vaga-lume x pisca novamente " Por outro lado, uma distribuição exponencial modela perguntas como "quando é esperado que a próxima morte aconteça na minha população", "quando é que o próximo neurônio vai disparar" ou "quando é que um vaga-lume no enxame pisca"

— Luca Citi

@LucaCiti; ha, acabei de perceber que seu puxão anterior era uma piada sobre fazer uma inferência com n = 1. Não sei como eu perdi isso da primeira vez. Em minha defesa, se tivermos uma teoria que diz que o estimador deve ser assintoticamente normal e, ainda assim, estar com mais de 4 desvios-padrão das outras estimativas assintoticamente normais, então podemos! Mas, com toda a seriedade, não é esse enredo que me convenceu, mas ver o mesmo nível de desvio de forma consistente. Eu posso ficar bloqueado se enviar mais de 20 parcelas de ajustes exponenciais ruins.

— Cliff AB

4

Outro motivo pelo qual a distribuição exponencial surge frequentemente para modelar o intervalo entre os eventos é o seguinte.

É sabido que, sob algumas suposições, a soma de um grande número de variáveis aleatórias independentes estará próxima de uma distribuição gaussiana. Um teorema semelhante é válido para processos de renovação , ou seja, modelos estocásticos para eventos que ocorrem aleatoriamente no tempo com intervalos entre eventos da IID. De fato, o teorema de Palm – Khintchine afirma que a superposição de um grande número de processos de renovação (não necessariamente poissonianos) se comporta assintoticamente como um processo de Poisson . Os intervalos entre eventos de um processo de Poisson são distribuídos exponencialmente.

— Luca Citi
fonte

3

tl; dr - Uma distribuição expontencial é equivalente a assumir que indivíduos têm a mesma probabilidade de morrer a qualquer momento do que qualquer outro.

Derivação

Suponha que um indivíduo vivo tenha a mesma probabilidade de morrer a qualquer momento do que em qualquer outro.
$-\frac{\text{d}P}{\text{d}t}$ $P$

- \frac{d P}{d t} \propto P

$-\frac{\text{d}P}{\text{d}t}{\space}{\propto}{\space}P$

Resolvendo em WolframAlpha mostra:

P (t) = c_{1} e^{- t}

$P\left(t\right)={c_1}{e^{-t}}$

Assim, a população segue uma distribuição exponencial.

Nota matemática

$c_0$ $P\left(t_0\right)$ $t_0$

P (t) = e^{- t} P (t_{0 0}) .

$P\left(t\right)={e^{-t}}P\left({t_0}\right).$

Verificação da realidade

A distribuição exponencial assume que as pessoas da população tendem a morrer na mesma taxa ao longo do tempo. Na realidade, as taxas de mortalidade tenderão a variar para populações finitas.

Criar melhores distribuições envolve equações diferenciais estocásticas . Então, não podemos dizer que há uma probabilidade constante de morte; em vez disso, temos que apresentar uma distribuição para as chances de cada indivíduo morrer em um determinado momento, depois combinar essas várias árvores de possibilidades para toda a população e resolver essa equação diferencial ao longo do tempo.

Não me lembro de ter visto isso feito em algo online antes, então você provavelmente não vai se deparar com isso; mas, esse é o próximo passo da modelagem, se você quiser melhorar a distribuição exponencial.

— Nat
fonte

3

(Observe que, na parte que você citou, a declaração era condicional; a sentença em si não assumiu sobrevivência exponencial, explicou uma conseqüência disso. No entanto, a assunção de sobrevivência exponencial é comum, por isso vale a pena lidar com a pergunta "por que exponencial "e" por que não normal "- já que o primeiro já está bem coberto, vou me concentrar mais na segunda coisa)

Os tempos de sobrevivência normalmente distribuídos não fazem sentido porque têm uma probabilidade diferente de zero de o tempo de sobrevivência ser negativo.

Se você restringir sua consideração a distribuições normais que quase não têm chance de chegar perto de zero, não poderá modelar dados de sobrevivência com probabilidade razoável de um tempo de sobrevivência curto:

Talvez de vez em quando tempos de sobrevivência que quase não têm chance de tempos curtos de sobrevivência sejam razoáveis, mas você precisa de distribuições que façam sentido na prática - geralmente você observa tempos de sobrevivência curtos e longos (e qualquer coisa intermediária), normalmente com uma distorção distribuição dos tempos de sobrevivência). Uma distribuição normal não modificada raramente será útil na prática.

[Um normal truncado pode ser mais uma aproximação aproximada do que o normal, mas outras distribuições costumam se sair melhor.]

O risco constante da exponencial às vezes é uma aproximação razoável dos tempos de sobrevivência. Por exemplo, se "eventos aleatórios", como acidentes, contribuem muito para a taxa de mortalidade, a sobrevivência exponencial funcionará razoavelmente bem. (Entre as populações de animais, por exemplo, às vezes tanto a predação quanto a doença podem agir pelo menos aproximadamente como um processo casual, deixando algo exponencial como uma primeira aproximação razoável aos tempos de sobrevivência.)

Uma pergunta adicional relacionada ao normal truncado: se normal não é apropriado, por que não ao quadrado normal (chi sq com df 1)?

Na verdade, isso pode ser um pouco melhor ... mas observe que isso corresponderia a um risco infinito em 0, portanto, ocasionalmente, seria útil. Embora possa modelar casos com uma proporção muito alta de tempos muito curtos, ele tem o problema inverso de poder modelar casos com sobrevida tipicamente muito menor que a média (25% dos tempos de sobrevivência são inferiores a 10,15% do tempo médio de sobrevivência e metade dos tempos de sobrevivência é inferior a 45,5% da média; ou seja, a sobrevida mediana é inferior a metade da média.)

$χ^2_1$ $\frac12$

$χ^2_1$ $χ^2$

— Glen_b -Reinstate Monica
fonte

obrigado, eu tenho esperado sua resposta desde ontem :). Uma pergunta adicional relacionada ao normal truncado: se normal não é apropriado, por que não ao quadrado normal (chi sq com df 1)?

— Haitao Du

Na verdade, isso pode ser um pouco melhor ... mas observe que isso corresponderia a um risco infinito em 0 - portanto, apenas ocasionalmente seria útil. Ele tem o problema inverso de modelar apenas casos com sobrevida tipicamente muito menor que a média (25% dos tempos de sobrevivência são inferiores a 10,15% do tempo médio de sobrevivência e metade dos tempos de sobrevivência são inferiores a 45,5% da média). dois desses

χ_{1}^{2}

$\chi^2_1$ variáveis, você pode obter uma função de risco menos surpreendente. . .; P

— Glen_b -Reinstala Monica 19/03

mais uma vez obrigado pela educação minha intuição por trás das coisas. Eu já vi muitos tutoriais de nível de receita e pessoas fazendo coisas sem saber o porquê. O CV é um ótimo lugar para aprender.

— Haitao Du

1

Se queremos que o tempo seja estritamente positivo, por que não fazer uma distribuição normal com média mais alta e variação muito pequena (quase não haverá chance de obter um número negativo)?

Porque

que ainda tem uma probabilidade diferente de zero de ser negativo, por isso é não estritamente positivo;
a média e a variação são algo que você pode medir a partir da população que você está tentando modelar. Se sua população tiver média 2 e variância 1, e você a modelar com uma distribuição normal, essa distribuição normal terá massa substancial abaixo de zero; se você modelá-lo com uma distribuição normal com média 5 e variação 0,1, seu modelo obviamente tem propriedades muito diferentes da coisa que deveria modelar.

A distribuição normal tem uma forma particular, e essa forma é simétrica em relação à média. A única maneira de ajustar a forma é movê-la para a direita e esquerda (aumentar ou diminuir a média) ou torná-la mais ou menos espalhada (aumentar ou diminuir a variação). Isso significa que a única maneira de obter uma distribuição normal em que a maior parte da massa está entre dois e dez e apenas uma pequena quantidade da massa está abaixo de zero, você precisa colocar a média em, digamos, seis (o meio da faixa ) e defina a variação suficientemente pequena para que apenas uma pequena fração das amostras seja negativa. Mas então você provavelmente descobrirá que a maioria das suas amostras são 5, 6 ou 7, enquanto você deveria ter muitos 2s, 3s, 4s, 8s, 9s e 10s.

— David Richerby
fonte