Enquadrando a distribuição binomial negativa para sequenciamento de DNA

16

A distribuição binomial negativa tornou-se um modelo popular para dados de contagem (especificamente o número esperado de leituras de seqüenciamento dentro de uma determinada região do genoma de um determinado experimento) em bioinformática. As explicações variam:

Alguns o explicam como algo que funciona como a distribuição de Poisson, mas tem um parâmetro adicional, permitindo mais liberdade para modelar a distribuição verdadeira, com uma variação não necessariamente igual à média
Alguns o explicam como uma mistura ponderada de distribuições de Poisson (com uma distribuição de mistura gama no parâmetro Poisson)

Existe uma maneira de enquadrar essas justificativas com a definição tradicional de uma distribuição binomial negativa como modelagem do número de sucessos dos ensaios de Bernoulli antes de observar um certo número de falhas? Ou devo pensar nisso como uma feliz coincidência que uma mistura ponderada de distribuições de Poisson com uma distribuição de mistura gama tenha a mesma função de massa de probabilidade que o binômio negativo?

— Michael Hoffman
fonte

2

Também é uma distribuição Poisson composta em que você soma um número distribuído por Poisson de variáveis aleatórias logarítmicas.

— Douglas Zare

8

IMOH, eu realmente acho que a distribuição binomial negativa é usada por conveniência.

Portanto, no RNA Seq, há uma suposição comum de que, se você realizar um número infinito de medições do mesmo gene em um número infinito de repetições, a verdadeira distribuição seria lognormal. Essa distribuição é então amostrada através de um processo de Poisson (com uma contagem), de modo que a verdadeira distribuição de leituras por gene entre as réplicas seria uma distribuição de Poisson-Lognormal.

Mas em pacotes que usamos como EdgeR e DESeq essa distribuição foi modelada como uma distribuição binomial negativa. Isso não é porque os caras que o escreveram não sabiam sobre uma distribuição Poisson Lognormal.

É porque a distribuição Poisson Lognormal é uma coisa terrível de se trabalhar, porque exige integração numérica para fazer os ajustes etc. Por isso, quando você realmente tenta usá-la, às vezes o desempenho é realmente ruim.

Uma distribuição binomial negativa tem uma forma fechada, portanto é muito mais fácil trabalhar com ela e a distribuição gama (a distribuição subjacente) se parece muito com uma distribuição lognormal, pois às vezes parece normal e às vezes tem uma cauda.

Mas neste exemplo (se você acredita na suposição), não pode ser teoricamente correto, porque a distribuição teoricamente correta é o lognormal de Poisson e as duas distribuições são aproximações razoáveis uma da outra, mas não são equivalentes.

Mas ainda acho que a distribuição binomial negativa "incorreta" geralmente é a melhor escolha, porque empiricamente ela fornecerá melhores resultados porque a integração é lenta e os ajustes podem ter um desempenho ruim, especialmente em distribuições com caudas longas.

— Michele
fonte

7

$r$ $\alpha$ $\beta$

$r$

$\frac{\alpha}{\alpha+\beta}$ $\text{NB}(r,\frac{\alpha}{\alpha+\beta})$
$t_r$ $r$ $\Gamma(r,1/\beta).$ $t_r = \lambda/\alpha$ $t_r$ $\text{Pois}(\lambda).$ $r$

Isso explica por que essas distribuições são iguais.

— Douglas Zare
fonte

2

Só posso oferecer intuição, mas a própria distribuição gama descreve tempos de espera (contínuos) (quanto tempo leva para que um evento raro ocorra). Portanto, o fato de uma mistura distribuída gama de distribuições discretas de poisson resultar em um tempo de espera discreto (tentativas até N falhas) não parece muito surpreendente. Espero que alguém tenha uma resposta mais formal.

Edit: Eu sempre justificava a distância binomial negativa. para seqüenciamento da seguinte maneira: O passo real de sequenciamento é simplesmente amostrar leituras de uma grande biblioteca de moléculas (poisson). No entanto, essa biblioteca é feita a partir da amostra original por PCR. Isso significa que as moléculas originais são amplificadas exponencialmente. E a distribuição gama descreve a soma de k variáveis aleatórias independentes exponencialmente distribuídas, isto é, quantas moléculas na biblioteca após amplificar k moléculas de amostra para o mesmo número de ciclos de PCR.

Daí os modelos binomiais negativos PCR seguidos de sequenciamento.

— Felix Schlesinger
fonte

Isso faz sentido, mas no contexto da medição do número de leituras de seqüenciamento em um genoma, existe uma explicação intuitiva para o que representa o período de espera na distribuição binomial negativa? Nesse caso, não há período de espera - ele está apenas medindo a contagem de leituras de seqüenciamento.

— precisa saber é o seguinte

Veja minha edição. Não vejo como pensar nisso em termos de tempo de espera se encaixa na configuração de seqüenciamento. A mistura gama-poisson é mais fácil de interpretar. Mas no final, eles são a mesma coisa.

— Felix Schlesinger

2

Ok - então talvez a verdadeira questão seja: por que coincidência a modelagem de sucessos k + fracassos r em ensaios de Bernoulli segue uma mistura gama de Poisson? Talvez uma modelagem binomial negativa k sucessos + r falhas possa ser vista como um db de Poisson superdisperso devido às muitas permutações possíveis de tentativas de sucesso e falha resultando nos exatamente k sucessos observados er r falhas observadas, que podem ser descritos como uma coleção de dbns separados?

— RobertF 21/09/12

2

Vou tentar dar uma interpretação mecanicista simplista que achei útil ao pensar sobre isso.

Suponha que tenhamos uma cobertura uniforme perfeita do genoma antes da preparação da biblioteca e observamos $\mu$ leituras que cobrem um site em média. Digamos que o seqüenciamento é um processo que escolhe um fragmento de DNA original, o coloca em um processo estocástico que passa por PCR, subamostragem etc., e cria uma base do fragmento na frequência $p$ e uma falha caso contrário. Se a sequência prosseguir até $\mu\frac{1-p}{p}$ falhas, pode ser modelado com uma distribuição binomial negativa, $NB(\mu\frac{1-p}{p}, p)$ .

Calculando os momentos dessa distribuição, obtemos o número esperado de sucessos $\mu\frac{1-p}{p}\frac{p}{1-p} = \mu$ como requerido. Para variação do número de sucessos, obtemos $\sigma^2 = \mu(1-p)^{-1}$ - a taxa na qual a preparação da biblioteca falha em um fragmento aumenta a variação na cobertura observada.

Embora o exposto acima seja uma descrição ligeiramente artificial do processo de seqüenciamento, e possa-se fazer um modelo generativo adequado das etapas de PCR, etc., acho que fornece algumas dicas sobre a origem do parâmetro de super-dispersão $(1-p)^{-1}$ diretamente da distribuição binomial negativa. Prefiro o modelo de Poisson com a taxa integrada como uma explicação geral.

— Peças Leopold
fonte