Eu tenho um problema que acho que deveria ser simples, mas não consigo entender direito. Eu estou olhando para a polinização das sementes, tenho plantas (n = 36) que florescem em cachos, provo 3 cachos de flores de cada planta e 6 vagens de cada cluster (18 vagens de sementes no total de cada planta). Uma vagem pode ter entre 0 e no máximo 4 sementes polinizadas. Portanto, os dados são contados, com um limite superior. Estou descobrindo que uma média de ~ 10% das sementes são polinizadas, mas entre 1 e 30% em uma determinada planta, portanto, com dados dispersos e, é claro, existem 4 réplicas de cluster ausentes em 3 plantas, portanto não são perfeitamente simétricas .
A pergunta que faço é se esses dados corroboram a ideia de que esta planta requer polinizadores para o conjunto de sementes.
Estou descobrindo que a distribuição do número de sementes em uma vagem parece que existem mais 0 vagens de sementes polinizadas (6-9 vagens de 16) e mais 3 e 4 vagens de sementes polinizadas (2-4 para cada) do que seria seria esperado se as sementes da população fossem polinizadas aleatoriamente. Basicamente, acho que este é um exemplo clássico de dados inflacionados zero, primeiro um inseto visita ou não a flor (um gerador zero) e, se o fizer, poliniza 0-4 das sementes em outra distribuição. A hipótese alternativa é que a planta é parcialmente egoísta, e seria de esperar que cada semente tivesse a mesma probabilidade de ser polinizada (esses dados sugerem uma chance de aproximadamente 0,1, o que significa 0,01 de chance para duas sementes na mesma vagem, etc.) .
Mas eu simplesmente quero demonstrar que os dados se encaixam melhor em uma ou outra distribuição, na verdade, NÃO FAZ UM ZIP ou ZINB nos dados. Eu acho que qualquer método que eu use deve levar em conta o número real de sementes polinizadas e o número de vagens amostradas em cada planta. A melhor coisa que inventei é fazer algum tipo de tira de bota, onde apenas aleatoriamente atribuo o número de sementes polinizadas para uma determinada planta ao número de vagens de amostras que eu amostramos, faça isso 10.000 vezes e veja qual é a probabilidade os dados experimentais para a planta em questão saíram dessa distribuição aleatória.
Eu apenas sinto que há algo sobre isso que deve ser muito mais fácil do que o bootstrap de força bruta, mas depois de dias de pensamento e pesquisa, estou desistindo. Não posso apenas comparar com uma distribuição Poisson porque é o limite superior, não é binomial porque preciso gerar a distribuição esperada de alguma maneira primeiro. Alguma ideia? E eu estou usando R, então conselhos (especialmente como gerar mais de 10.000 distribuições aleatórias de n bolas em 16 caixas que podem conter no máximo 4 bolas) seriam bem-vindos.
ADICIONADO 9/07/2012 Primeiro, obrigado a todos por todo o interesse e ajuda. Ler as respostas me fez pensar em reformular um pouco minha pergunta. O que estou dizendo é que tenho uma hipótese (que por enquanto estou pensando em nula) de que as sementes são polinizadas aleatoriamente entre as vagens, e minha hipótese alternativa é que uma vagem de sementes com pelo menos 1 semente polinizada tem mais probabilidade de possuem múltiplas sementes polinizadas do que seria esperado por um processo aleatório. Forneci dados reais de três plantas como exemplos para ilustrar o que estou falando. A primeira coluna é o número de sementes polinizadas em uma vagem, a segunda coluna é a frequência de vagens com essa contagem de sementes.
planta 1 (total de 3 sementes: 4% de polinização)
num.seeds :: pod.freq
0 :: 16
1 :: 1
2 :: 1
3 :: 0
4 :: 0
planta 2 (total de 19 sementes: 26% de polinização)
num.seeds :: pod.freq
0 :: 12
1 :: 1
2 :: 1
3 :: 0
4 :: 4
planta 3 (total de 16 sementes: 22% de polinização)
num.seeds :: pod.freq
0 :: 9
1 :: 4
2 :: 3
3 :: 2
4 :: 0
Na planta 1, apenas 3 sementes foram polinizadas em 18 vagens, uma vagem tinha uma semente e uma vagem tinha duas sementes. Pensando em um processo de adicionar uma semente às vagens aleatoriamente, as duas primeiras sementes entram em sua própria vagem, mas para a terceira semente, existem 6 manchas disponíveis nas vagens que já possuem uma semente, mas 64 manchas nas 16 vagens sem sementes, portanto, a maior probabilidade de uma vagem com 2 sementes aqui é 6/64 = 0,094. Isso é um pouco baixo, mas não muito extremo, então eu diria que esta planta se encaixa na hipótese de polinização aleatória em todas as sementes com uma chance de ~ 4% de ocorrer polinização. Mas a planta 2 parece muito mais extrema para mim, com 4 vagens completamente polinizadas, mas 12 vagens sem nada. Não tenho muita certeza de como calcular diretamente as chances dessa distribuição (daí a minha ideia de inicialização), mas acho que as chances dessa distribuição ocorrerem aleatoriamente se cada semente tiver uma chance de ~ 25% de polinização ser bastante baixa. Planta # 3 Eu realmente não tenho idéia, acho que existem mais 0 e 3 do que se poderia esperar para uma distribuição aleatória, mas meu pressentimento é que essa distribuição para esse número de sementes é muito mais provável que a distribuição para a planta # 2, e pode não ser tão improvável. Mas, obviamente, quero ter certeza, e em todas as plantas. Eu acho que existem mais 0 e 3 do que se poderia esperar para uma distribuição aleatória, mas meu pressentimento é que essa distribuição para esse número de sementes é muito mais provável que a distribuição para a planta nº 2, e pode não ser tão improvável. Mas, obviamente, quero ter certeza, e em todas as plantas. Eu acho que existem mais 0 e 3 do que se poderia esperar para uma distribuição aleatória, mas meu pressentimento é que essa distribuição para esse número de sementes é muito mais provável que a distribuição para a planta nº 2, e pode não ser tão improvável. Mas, obviamente, quero ter certeza, e em todas as plantas.
No final, estou procurando escrever uma declaração como “A distribuição de sementes polinizadas em vagens se encaixa (ou não) com a hipótese de que as plantas não são apenas parcialmente autocompatíveis, mas requerem a visita de um polinizador para efetuar o conjunto de sementes. (resultados do teste estatístico). ” Isso é realmente apenas parte da minha seção prospectiva, onde estou falando sobre quais experimentos realizar a seguir, então não estou desesperado para que isso seja uma coisa ou outra, mas quero saber por mim mesmo, se possível. Se não posso fazer o que estou tentando fazer com esses dados, também gostaria de saber!
Fiz uma pergunta bastante ampla a princípio, pois estou curioso para saber se existem ou não bons testes para mostrar se os dados devem entrar em um modelo inflado zero em primeiro lugar. Todos os exemplos que eu vi parecem dizer - "veja, há muitos zeros aqui e há uma explicação razoável para isso, então vamos usar um modelo inflado zero". É o que estou fazendo agora neste fórum, mas tive uma experiência no meu último capítulo em que usei um Poisson glm para dados de contagem e um dos meus supervisores disse: “Não, os glms são muito complexos e desnecessários, esses dados devem entrar em uma tabela de contingência ”e depois me enviou um despejo de dados da enorme tabela de contingência gerada pelo seu caro pacote de estatísticas que forneceu os mesmos valores de p para todos os meus fatores + interações com três dígitos significativos !! Então, estou tentando manter as estatísticas claras e simples, e certifique-se de entendê-las bem o suficiente para defender minhas escolhas com firmeza, o que não acho que possa fazer por um modelo inflado com zero no momento. Usei um quase -IBMOMIAL (para plantas inteiras se livrar da pesudoreplicação) e um modelo misto para os dados acima para comparar tratamentos e responder às minhas principais perguntas experimentais, ou parece fazer o mesmo trabalho, mas também vou brinque com o ZINB hoje à noite, para ver como é o desempenho. Estou pensando que, se puder demonstrar explicitamente que esses dados estão fortemente agrupados (ou inflados com zero) a princípio, depois forneça uma boa razão biológica para isso, estarei muito melhor configurado para retirar um ZINB do que para basta comparar um com um modelo quasibinomial / misto e argumentar, uma vez que fornece melhores resultados, é o que devo usar. o que acho que não posso fazer por um modelo inflado zero agora. Usei um quase -IBMOMIAL (para plantas inteiras se livrar da pesudoreplicação) e um modelo misto para os dados acima para comparar tratamentos e responder às minhas principais perguntas experimentais, ou parece fazer o mesmo trabalho, mas também vou brinque com o ZINB hoje à noite, para ver como é o desempenho. Estou pensando que, se puder demonstrar explicitamente que esses dados estão fortemente agrupados (ou inflados com zero) a princípio, depois forneça uma boa razão biológica para isso, estarei muito melhor configurado para retirar um ZINB do que para basta comparar um com um modelo quasibinomial / misto e argumentar, uma vez que fornece melhores resultados, é o que devo usar. o que acho que não posso fazer por um modelo inflado zero agora. Usei um quase -IBMOMIAL (para plantas inteiras se livrar da pesudoreplicação) e um modelo misto para os dados acima para comparar tratamentos e responder às minhas principais perguntas experimentais, ou parece fazer o mesmo trabalho, mas também vou brinque com o ZINB hoje à noite, para ver como é o desempenho. Estou pensando que, se puder demonstrar explicitamente que esses dados estão fortemente agrupados (ou inflados com zero) a princípio, depois forneça uma boa razão biológica para isso, estarei muito melhor configurado para retirar um ZINB do que para basta comparar um com um modelo quasibinomial / misto e argumentar, uma vez que fornece melhores resultados, é o que devo usar. Usei um quase -IBMOMIAL (para plantas inteiras se livrar da pesudoreplicação) e um modelo misto para os dados acima para comparar tratamentos e responder às minhas principais perguntas experimentais, ou parece fazer o mesmo trabalho, mas também vou brinque com o ZINB hoje à noite, para ver como é o desempenho. Estou pensando que, se puder demonstrar explicitamente que esses dados estão fortemente agrupados (ou inflados com zero) a princípio, depois forneça uma boa razão biológica para isso, estarei muito melhor configurado para retirar um ZINB do que para basta comparar um com um modelo quasibinomial / misto e argumentar, uma vez que fornece melhores resultados, é o que devo usar. Usei um quase -IBMOMIAL (para plantas inteiras se livrar da pesudoreplicação) e um modelo misto para os dados acima para comparar tratamentos e responder às minhas principais perguntas experimentais, ou parece fazer o mesmo trabalho, mas também vou brinque com o ZINB hoje à noite, para ver como é o desempenho. Estou pensando que, se puder demonstrar explicitamente que esses dados estão fortemente agrupados (ou inflados com zero) a princípio, depois forneça uma boa razão biológica para isso, estarei muito melhor configurado para retirar um ZINB do que para basta comparar um com um modelo quasibinomial / misto e argumentar, uma vez que fornece melhores resultados, é o que devo usar.
Mas não quero me distrair muito da minha pergunta principal. Como posso determinar se meus dados realmente são mais inflados em zero do que o esperado em uma distribuição aleatória? No meu caso, a resposta para isso é o que é de real interesse para mim, com o possível benefício da justificação de modelo sendo um bônus.
Obrigado novamente por todo o seu tempo e ajuda!
Saúde, BWGIA