Eu gostaria muito de receber seu conselho sobre o seguinte problema:
Eu tenho um grande conjunto de dados contínuo com muitos zeros (~ 95%) e preciso encontrar a melhor maneira de testar se certos subconjuntos são "interessantes", ou seja, não parecem ser extraídos da mesma distribuição que o resto. A inflação zero vem do fato de que cada ponto de dados se baseia em uma medição de contagem com zeros verdadeiros e de amostragem, mas o resultado é contínuo, pois leva em consideração alguns outros parâmetros ponderados pela contagem (e, se a contagem for zero, o resultado também é zero).
Qual seria a melhor maneira de fazer isso? Sinto que Wilcoxon e até testes de permutação de força bruta são inadequados à medida que são distorcidos por esses zeros. O foco em medições diferentes de zero também remove zeros verdadeiros que são extremamente importantes. Modelos inflados a zero para dados de contagem são bem desenvolvidos, mas inadequados para o meu caso.
Eu considerei ajustar uma distribuição Tweedie aos dados e depois ajustar uma glm em response = f (subset_label). Teoricamente, isso parece viável, mas estou me perguntando se (a) isso é um exagero e (b) ainda assumirá implicitamente que todos os zeros são zeros de amostra, ou seja, seriam tendenciosos da mesma maneira (na melhor das hipóteses) como uma permutação?
Intuitivamente, parece ter algum tipo de design hierárquico que combina uma estatística binomial baseada na proporção de zeros e, digamos, uma estatística de Wilcoxon calculada com valores diferentes de zero (ou, melhor ainda, valores diferentes de zero suplementados com uma fração de zeros com base em alguns anteriores). Parece uma rede bayesiana ...
Espero que eu não seja o primeiro a ter esse problema, por isso ficaria muito grato se você pudesse me indicar técnicas existentes adequadas ...
Muito Obrigado!