Antecedentes Biológicos
Com o tempo, algumas espécies de plantas tendem a duplicar todo o seu genoma, ganhando uma cópia adicional de cada gene. Devido à instabilidade dessa configuração, muitos desses genes são excluídos e o genoma se rearranja e se estabiliza, pronto para duplicar novamente. Esses eventos de duplicação estão associados a eventos de especiação e invasão, e a teoria é que a duplicação ajuda as plantas a se adaptarem mais rapidamente aos novos ambientes.
Lupinus, um gênero de planta com flores, invadiu os Andes em um dos eventos de especiação mais rápidos já detectados e, além disso, parece ter mais cópias duplicadas em seu genoma do que o gênero mais relacionado, Baptisia.
E agora o problema matemático:
Os genomas de um membro de Lupinus e um membro de Baptisia foram seqüenciados, fornecendo dados brutos de cerca de 25.000 genes em cada espécie. Ao consultar um banco de dados de genes de função conhecida, agora tenho um "melhor palpite" para quais funções esse gene pode desempenhar - por exemplo, Gene1298 pode estar associado a "metabolismo da frutose, resposta ao estresse salino, resposta ao estresse frio". Quero saber, se houve um evento de duplicação entre Baptisia e Lupinus, se a perda de genes ocorreu aleatoriamente ou se os genes que desempenham funções específicas têm maior probabilidade de serem mantidos ou excluídos.
Eu tenho um script que produzirá uma tabela como a mostrada abaixo. L * é uma contagem de todos os genes de Lupinus associados à função. L 1+ é uma contagem de genes de lupino associados à função em que existe pelo menos uma cópia duplicada. Posso produzir L 2+, L 3+ etc., embora o L 1+ seja um grupo muito mais confiável que o L 2+ devido ao processo de sequenciamento.
Function | L * | L 1+ | B * | B 1+ |
fructose metabolism | 1000 | 994 | 1290 | 876 |
salt stress | 56 | 45 | 90 | 54 |
etc.
O que eu gostaria de fazer é testar, para cada função gênica, se há mais ou menos genes duplicados do que se poderia esperar puramente por acaso no Lupinus e no Baptisia, e se o Lupinus difere do Baptisia na proporção observada para o esperado.
A melhor coisa que tenho até agora
Estudos anteriores em diferentes espécies usaram a Análise de Enriquecimento, com Teste Exato de Fisher e correção de FDR para amostragem múltipla, para fazer um teste de contingência em cada linha.
Seria bom melhorar isso; Não sei se isso parece a melhor maneira de fazê-lo.
Glen_b sugeriu o uso de um GLM para analisar os dados; Eu brinquei com os GLMs no JMP8, o que tem sido interessante, mas admito que realmente não os entendo.
Dito isto, estou tentando usar o R agora.
Para que estou usando isso?
Originalmente, isso deveria ser parte de um pequeno projeto de pesquisa que estou fazendo na universidade, mas agora se transformou em um enorme projeto de anotação de genoma. Por quê? Porque a bioinformática é legal. Ser capaz de pegar uma série de A, T, C e G e usá-la para inferir informações sobre eventos que ocorreram milhões de anos atrás é incrível.
Desnecessário dizer que não tentarei enviar nenhuma resposta gentilmente fornecida como meu próprio trabalho. Ficaria feliz em incluir um reconhecimento no trabalho se eu usar um método sugerido aqui no trabalho enviado.