Essa é uma pergunta interessante. Meu grupo de pesquisa utiliza a distribuição a que se refere há alguns anos em nosso software de bioinformática disponível ao público. Até onde eu sei, a distribuição não tem um nome e não há literatura. Embora o artigo de Chandra et al (2012) citado por Aksakal esteja intimamente relacionado, a distribuição que eles consideram parece restrita a valores inteiros para e eles não parecem dar uma expressão explícita para o pdf.r
Para lhe dar algumas informações, a distribuição de RNs é muito usada em pesquisas genômicas para modelar dados de expressão gênica decorrentes de RNA-seq e tecnologias relacionadas. Os dados da contagem surgem à medida que o número de sequências de DNA ou RNA é extraído de uma amostra biológica que pode ser mapeada para cada gene. Normalmente, existem dezenas de milhões de leituras de cada amostra biológica que são mapeadas para cerca de 25.000 genes. Alternativamente, pode-se ter amostras de DNA a partir das quais as leituras são mapeadas para janelas genômicas. Nós e outros popularizamos uma abordagem pela qual os NB glms são ajustados às sequências lidas para cada gene, e os métodos empíricos de Bayes são usados para moderar os estimadores de dispersão genéticos (dispersãoϕ=1/r) Essa abordagem foi citada em dezenas de milhares de artigos de periódicos na literatura genômica, para que você possa ter uma idéia de quanto ela é usada.
Meu grupo mantém o pacote de softwares edgeR R. Alguns anos atrás, revisamos o pacote inteiro para que ele funcionasse com contagens fracionárias, usando uma versão contínua do NB pmf. Simplesmente convertemos todos os coeficientes binomiais no NB pmf em proporções de funções gama e o usamos como um pdf contínuo (misto). A motivação para isso foi que as contagens de leitura de sequência às vezes podem ser fracionárias devido a (1) mapeamento ambíguo de leituras para o transcriptoma ou genoma e / ou (2) normalização de contagens para corrigir efeitos técnicos. Portanto, às vezes, as contagens são esperadas ou estimadas, em vez de observadas. E é claro que as contagens de leitura podem ser exatamente zero, com probabilidade positiva. Nossa abordagem garante que os resultados de inferência de nosso software sejam contínuos nas contagens, correspondendo exatamente aos resultados discretos de NB quando as contagens estimadas forem inteiras.
Até onde eu sei, não há forma fechada para a constante de normalização no pdf, nem formas fechadas para a média ou variância. Quando se considera que não existe uma forma fechada para a integral
(a constante de Fransen-Robinson), fica claro que não pode haver para a integral da contínua NB pdf também. No entanto, parece-me que as fórmulas tradicionais de média e variância para o RN devem continuar sendo boas aproximações para o RN contínuo. Além disso, a constante de normalização deve variar lentamente com os parâmetros e, portanto, pode ser ignorada como tendo influência desprezível nos cálculos de máxima verossimilhança.
∫∞01Γ(x)dz
Pode-se confirmar essas hipóteses por integração numérica. A distribuição de NB surge na bioinformática como uma mistura gama de distribuições de Poisson (consulte o artigo binomial negativo da Wikipedia ou McCarthy et al abaixo). A distribuição NB contínua surge simplesmente substituindo a distribuição Poisson por seu analógico contínuo por pdf
para que é uma constante de normalização para garantir que a densidade se integre a 1. Suponha, por exemplo, que . A distribuição de Poisson tem pmf igual ao pdf acima nos números inteiros não negativos e, com
f(x;λ)=a(λ)e−λλxΓ(x+1)
x≥0a(λ)λ=10λ=10, a média e variância de Poisson são iguais a 10. A integração numérica mostra que e a média e variância da distribuição contínua são iguais a 10 a cerca de 4 números significativos. Portanto, a constante de normalização é praticamente 1 e a média e a variação são quase exatamente as mesmas da distribuição discreta de Poisson. A aproximação é melhorada ainda mais se adicionarmos uma correção de continuidade, integrando a vez de 0. Com a correção de continuidade, tudo está correto (a constante de normalização é 1 e os momentos concordam com Poisson discreto) a cerca de 6 figuras.
a(10)=1/0.999875−1/2∞
Em nosso pacote edgeR, não precisamos fazer nenhum ajuste pelo fato de haver massa em zero, porque sempre trabalhamos com probabilidade condicional de log ou com diferenças de probabilidade logarítmica e quaisquer funções delta são canceladas nos cálculos. Este é o BTW típico para glms com distribuições de probabilidade mista. Como alternativa, poderíamos considerar a distribuição sem massa em zero, mas com suporte começando em -1/2 em vez de em zero. Qualquer perspectiva teórica leva aos mesmos cálculos na prática.
Embora façamos uso ativo da distribuição NB contínua, não publicamos nada explicitamente. Os artigos citados abaixo explicam a abordagem do NB aos dados genômicos, mas não discutem explicitamente a distribuição contínua do NB.
Em resumo, não estou surpreso que o artigo que você está estudando tenha obtido resultados razoáveis de uma versão contínua do NB pdf, porque essa também é a nossa experiência. O principal requisito é que modelemos corretamente as médias e as variações, e isso será ótimo, desde que os dados, inteiros ou não, exibam a mesma forma de relação quadrática da média da variação da distribuição NB.
Referências
Robinson, M. e Smyth, GK (2008). Estimativa de amostra pequena de dispersão binomial negativa, com aplicações nos dados do SAGE . Bioestatística 9, 321-332.
Robinson, MD, e Smyth, GK (2007). Testes estatísticos moderados para avaliar diferenças na abundância de tags . Bioinformtics 23, 2881-2887.
McCarthy, DJ, Chen, Y, Smyth, GK (2012). A análise da expressão diferencial de multifactor experiências ARN-Seq com respeito à variação biológica . Nucleic Acids Research 40, 4288-4297.
Chen, Y, Lun, ATL e Smyth, GK (2014). Análise de expressão diferencial de experimentos complexos de RNA-seq usando edgeR. Em: Statistical Analysis of Next Generation Sequence Data, Somnath Datta e Daniel S Nettleton (eds), Springer, Nova York, páginas 51--74. Pré-impressão
Lun, ATL, Chen, Y e Smyth, GK (2016). É licencioso: uma receita para análises de expressão diferencial de experimentos de RNA-seq usando métodos de quase-probabilidade no edgeR. Methods in Molecular Biology 1418, 391-416. Pré-impressão
Chen Y, Lun ATL e Smyth, GK (2016). De leituras a genes e caminhos: análise de expressão diferencial de experimentos de RNA-Seq usando Rsubread e o pipeline de quase-probabilidade edgeR . F1000Research 5, 1438.