Teste se 2 conjuntos de dados distribuídos exponencialmente são diferentes

Eu tenho 2 conjuntos de dados distribuídos exponencialmente e quero ter certeza de que eles são de diferentes distribuições. Infelizmente, um erro necessário na detecção dos dados me obriga a descartar todos os dados sob um determinado limite. Em cada conjunto, tenho cerca de 3000 pontos de dados e a plotagem dos dados me faz pensar que o valor lambda é diferente. O ajuste também gera valores diferentes para lambda.

Como posso ter certeza de que os dois conjuntos de dados são originários de uma distribuição diferente?

Aqui está um gráfico de como os conjuntos se parecem (observe que todos os valores em tempo de vida = 3seg precisam ser descartados):

ATUALIZAÇÃO: As distribuições acima são normalizadas em ambos os casos em N apenas para compará-las melhor em um gráfico porque o número total de pontos de dados N é diferente.

UPDATE2: Após o truncamento, tenho cerca de 150 valores vitalícios para o conjunto de dados vermelho e 350 para o conjunto de dados azul. Acontece que 3000 foi exagerado (me desculpe).

UPDATE3: Obrigado por me acompanhar. Aqui estão os dados brutos:

http://pastebin.com/raw.php?i=UaGZS0im

http://pastebin.com/raw.php?i=enjyW1uC

Até agora, ajustei uma função exponencial nos dois conjuntos de dados e comparei as inclinações. Como qualquer normalização não deve alterar a inclinação dos dados, diferentes inclinações devem implicar diferentes distribuições exponenciais subjacentes (minha experiência com análise estatística é muito limitada).

Os valores abaixo do limite são descartados porque a medição detecta muitos eventos com muita frequência nesse regime.

ATUALIZAÇÃO4: Acabei de perceber que meu problema é muito mais complicado do que eu pensava. Na verdade, eu deixei os dados censurados (não sei o início de alguns eventos) e os censos à direita (não sei o final de alguns eventos) E tenho que descartar todas as vidas abaixo de 3s (truncamento). Existe alguma maneira de incorporar tudo isso em uma análise? Até agora, encontrei alguma ajuda sobre como trabalhar com dados censurados (análise de sobrevivência), mas o que devo fazer com o truncamento?

hypothesis-testing exponential

— MaxJ
fonte

Como o gráfico parece mostrar densidades, como elas são estimadas?

— Yves

Isso soa como dados censurados. Você perde informações e potencialmente influencia os resultados descartando aqueles abaixo do limite. Em vez disso, você precisa informar qual é esse limite (3 segundos, pelo que vejo) e fornecer as contagens de valores descartados em cada grupo. Você também deve explicar todos os dados quantificados mostrados abaixo do limite (como o ponto marrom no canto inferior esquerdo). Rotular o eixo vertical como "densidade" é misterioso: certamente seus dados originais são apenas uma vida útil e esse gráfico fornece contagens em classes de vida útil estreita?

— whuber

Se você quiser comparar as duas distribuições condicionais (acima do limite), use um teste F para comparar as médias, conforme descrito por @Glen_b em stats.stackexchange.com/a/76695/10479

— Yves

Por favor: remova a normalização para que possamos ver os dados reais (a normalização destrói informações essenciais) e diga-nos quantos valores você normalmente joga fora nos dados.

— whuber

Eu adicionei os dados brutos à pergunta. No primeiro conjunto de dados, tenho que descartar 50% no segundo, cerca de 30%.

— MaxJ

Respostas:

As vidas exponencialmente distribuídas são um caso especialmente simples para a análise de sobrevivência . Analisá-los é frequentemente o primeiro exemplo trabalhado para iniciar os alunos antes de passar para situações mais complicadas. Além disso, a análise de sobrevivência é naturalmente adequada para dados censurados. Em resumo, sugiro que você use a análise de sobrevivência com um indicador de agrupamento para as duas distribuições como efeito do tratamento. Você pode usar um modelo paramétrico (por exemplo, o modelo Weibull, pois o exponencial é um caso especial do Weibull ) ou usar métodos não paramétricos, como o teste de classificação de log , se preferir.

— - Reinstate Monica
fonte

Isso também se aplica a dados truncados? Eu acho que meu problema é um pouco diferente de censurar ou?

— MaxJ

@ user3683367, o truncamento é diferente de censurar. Eles testariam as diferenças nas distribuições acima do limite de detecção.

— gung - Restabelece Monica

Livrei-me do truncamento (nova configuração exp) e apenas usei dados censurados à esquerda e à direita na caixa de ferramentas estatísticas do MATLABS. Usei a função Weibull com dados censurados à esquerda e à direita. Os meios ajustados são diferentes e seus limites de erro não se sobrepõem. Como posso calcular a probabilidade de minhas distribuições serem realmente iguais?

— precisa saber é

@ user3683367, você não pode calcular a probabilidade de as distribuições serem iguais. Essa probabilidade é ou e você não sabe qual. Em vez disso, você pode calcular a probabilidade de obter 2 grupos tão divergentes se eles vierem da mesma distribuição; esse é o valor p. Quanto a como o MATLAB fornecer isso a você, não sei - não utilizo o MATLAB há muito tempo, mas um valor p no contraste do tratamento deve vir com a saída do modelo padrão.

1

$1$

0

$0$

— gung - Restabelece Monica

Você está interessado no seguinte teste: que é o único parâmetro que identifica exclusivamente a distribuição exponencial com a qual você está lidando. Como também corresponde à média dessa distribuição, você está essencialmente interessado em testar a diferença de médias nessas duas distribuições. $H_0: \lambda_1 = \lambda_2$ $\lambda_i$ $\lambda$

Como você tem um tamanho de amostra grande, para testar isso, podemos recorrer ao teorema do limite central, que nos diz o seguinte:

Teorema do limite central: suponha que é uma sequência de variáveis aleatórias iid com . Então, quando aproxima do infinito, a variável aleatória converge na distribuição para uma distribuição normal de . $X_1, X_2, ...X_n$ $E[X_i] = \mu \text{ and } Var[X_i] = \sigma^2 < \infty$ $n$ $\sqrt{n}(\bar{X} − \mu)$ $N(0, σ^2)$

Em outras palavras, sua média de amostra para cada um dos dois grupos é distribuída aproximadamente normalmente. Como você não conhece o verdadeiro valor de , pode executar um teste t para obter uma diferença de médias. $\sigma^2$

— TrynnaDoStat
fonte

Como a distribuição exponencial é tão distorcida, é necessária uma pequena análise para justificar a aplicação do CLT. Se, de fato, esses dados não foram censurados, verifica-se que seria mais que suficiente para tornar boa a aproximação normal. (Prova: o CGF da média de exponenciais iid é , o que implica a assimetria é , que é pequeno para ) Mas isso poderia ser um erro sério se uma proporção substancial de qualquer conjunto de dados tivesse sido descartada.

n = 3000

$n=3000$

n

$n$

ψ (t) = t^{2} / (2 n) + i t^{3} / (3 n^{2}) + O (t^{4})

$\psi(t)=t^2/(2 n) + i t^3/(3n^2) + O(t^4)$

2 \sqrt{n}

$2\sqrt{n}$

n = 3000

$n=3000$

— whuber

Eu editei minha pergunta. Posso realmente aplicar o CLT para dados censurados à esquerda com N = 100-300?

— MaxJ

Corrija-me se estiver errado, mas acredito que o ponto de Whuber é que, se a distribuição exponencial estiver truncada, ela não será mais uma distribuição exponencial pura. Um ponto crucial do meu argumento é que a média da distribuição exponencial a identifica exclusivamente. Se essa nova distribuição truncada não for mais identificada exclusivamente por sua média, meu argumento poderá falhar. Quer os dados estejam ou não truncados, você ainda pode fazer uma diferença de média no teste t. Se os meios são diferentes, então as distribuições são diferentes.

— precisa saber é o seguinte

Se o ponto de Whuber é que o CLT não se aplica, terei de discordar dele. Quer seus dados venham ou não de uma distribuição exponencial pura ou truncada, você ainda tem uma amostra da mesma distribuição com alguma média e alguma variação finita .

μ

$\mu$

σ^{2}

$\sigma^2$

— precisa saber é o seguinte

O meu ponto não é que a CLT é inaplicável: é que, a fim de aplicá-lo você deve verificar que a aproximação assintótica é uma boa. O CLT não diz absolutamente nada sobre a distribuição da média de qualquer número finito específico de variáveis de variância finita iid. E, por favor, não confunda truncamento com censura: o problema criado pela censura é que alguns dados nem são números (são intervalos) - portanto, a fortiori o CLT não pode (diretamente) aplicar nessa situação.

— whuber