Teste de hipótese em dados contínuos inflados a zero


10

Eu gostaria muito de receber seu conselho sobre o seguinte problema:

Eu tenho um grande conjunto de dados contínuo com muitos zeros (~ 95%) e preciso encontrar a melhor maneira de testar se certos subconjuntos são "interessantes", ou seja, não parecem ser extraídos da mesma distribuição que o resto. A inflação zero vem do fato de que cada ponto de dados se baseia em uma medição de contagem com zeros verdadeiros e de amostragem, mas o resultado é contínuo, pois leva em consideração alguns outros parâmetros ponderados pela contagem (e, se a contagem for zero, o resultado também é zero).

Qual seria a melhor maneira de fazer isso? Sinto que Wilcoxon e até testes de permutação de força bruta são inadequados à medida que são distorcidos por esses zeros. O foco em medições diferentes de zero também remove zeros verdadeiros que são extremamente importantes. Modelos inflados a zero para dados de contagem são bem desenvolvidos, mas inadequados para o meu caso.

Eu considerei ajustar uma distribuição Tweedie aos dados e depois ajustar uma glm em response = f (subset_label). Teoricamente, isso parece viável, mas estou me perguntando se (a) isso é um exagero e (b) ainda assumirá implicitamente que todos os zeros são zeros de amostra, ou seja, seriam tendenciosos da mesma maneira (na melhor das hipóteses) como uma permutação?

Intuitivamente, parece ter algum tipo de design hierárquico que combina uma estatística binomial baseada na proporção de zeros e, digamos, uma estatística de Wilcoxon calculada com valores diferentes de zero (ou, melhor ainda, valores diferentes de zero suplementados com uma fração de zeros com base em alguns anteriores). Parece uma rede bayesiana ...

Espero que eu não seja o primeiro a ter esse problema, por isso ficaria muito grato se você pudesse me indicar técnicas existentes adequadas ...

Muito Obrigado!


Atualizar. Até agora, encontrei este artigo abordando um problema semelhante ao meu: maths.otago.ac.nz/home/downloads/david_fletcher/…
a11msp

Gostaria de saber se essa aproximação extremamente simplificada faria sentido, dado que os zeros formam a maioria absoluta: 1) encontre a proporção de zeros em cada subconjunto. 2) suponha que no subconjunto com o menor número de zeros todos os zeros sejam verdadeiros. 3) de cada subconjunto, remova a proporção de zeros igual à proporção de zeros no conjunto de dados mais "rico em zero". 4) execute estatísticas não paramétricas padrão neste conjunto de dados modificado.
A11msp

O hiperlink para o artigo em seu primeiro comentário parece estar morto. Você pode fornecer uma citação?
coip

11
Obrigado por apontar isso: doi.org/10.1007/s10651-005-6817-1
a11msp

Respostas:


9

@ msp, acho que você está procurando um modelo de dois estágios nesse anexo (não tive tempo de lê-lo), mas zero de dados contínuos inflados é o tipo com o qual trabalho muito. Para ajustar um modelo paramétrico a esses dados (para permitir testes de hipóteses), você pode ajustar um estágio de dois, mas então você tem dois modelos (Y é o alvo e X são covariáveis): P (Y = 0 | X) e P (Y | X; Y> 0). Você precisa usar a simulação para "reuni-las". O livro de Gelmans (e o pacote arm em R) mostra esse processo para esse modelo exato (usando regressão logística e regressão linear comum com um link de log).

A outra opção que eu já vi e que gosto mais é ajustar uma regressão gama inflada zero, que é a mesma que acima (mas gama como erro em vez de guassiano) e você pode reuni-las para testes de hipóteses em P (Y | X) . Eu não sei como fazer isso no R, mas você pode no SAS NLMIXED. Veja este post , ele funciona bem.


@B_Miner, muito obrigado pela sua resposta, desculpe não ter classificação suficiente para votar em você ... Vou dar uma olhada nos links! Minha única preocupação com modelos condicionais é que eles postulam que zeros não podem pertencer ao segundo componente (contínuo), estou certo? Minha configuração não parece um pouco mais com um modelo de mistura? O que você acha?
A11msp

Eu agora repliquei a abordagem em duas etapas proposta no livro Gelman. Se o subconjunto_fator (com 25 níveis) servir como rótulo do subconjunto, o primeiro passo será fit1 = glm (resposta ~ subconjunto_fator, família = binomial); e o segundo passo é fit2 = lm (resposta ~ subconjunto_fator, subconjunto = resposta> 0). Posso então executar simulações, conforme elas descrevem, para obter a distribuição dos valores de resposta ajustados para cada nível de fator. No entanto, ainda não tenho certeza de como traduzir isso para o que preciso, que é (a) a probabilidade de que os coeficientes não sejam zero e (b) significância da diferença entre os coeficientes em diferentes níveis de fatores.
a11msp

A abordagem em dois estágios (método Gelman de dois modelos separados) assume duas populações, aquelas em zero e aquelas acima.
B_Miner

... então seria apropriado dizer simplesmente que, se o impacto de algum nível de fator é significativo (e significativamente diferente do de outro nível de fator) em qualquer um dos dois modelos no método de Gelman, então é significativo em geral?
a11msp

11
Sim, a abordagem em dois estágios (método Gelman de dois modelos separados) assume duas populações, aquelas em zero e aquelas> 0. Em relação aos testes de hipóteses, você pode enquadrá-las em termos dos valores previstos para níveis variáveis ​​das entradas e construir empíricas intervalos de confiança relacionados às simulações para cada um? Para testes de hipótese para o coeficiente! = 0, é necessário testar isso separadamente para ambos os modelos.
B_Miner

2

Uma abordagem semelhante ao artigo de Fletcher é usada em testes de marketing, onde podemos arbitrariamente separar os efeitos de intervenções (como publicidade) em (a) uma mudança no número de compras da marca (ou seja, proporção de zeros) e (b) a mudança na frequência de compra da banda (as vendas, dadas as vendas, ocorrem de todo). Essa é uma abordagem sólida e conceitualmente significativa no contexto de marketing e no contexto ecológico que Fletcher discute. De fato, isso pode ser estendido para (c) uma alteração no tamanho de cada compra.


Obrigado! Gostaria de saber se você está ciente de uma implementação r existente disso?
a11msp

1

Você pode tratar o número exato de zeros desconhecido, mas restrito entre 0 e o número observado de zeros. Certamente, isso pode ser tratado usando uma formulação bayesiana do modelo. Talvez um método de imputação múltipla também possa ser ajustado para variar adequadamente os pesos (entre 0 e 1) das zero observações…

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.