Esta é a minha primeira postagem no StackExchange, mas eu a uso como um recurso há um bom tempo, farei o possível para usar o formato apropriado e fazer as edições apropriadas. Além disso, esta é uma pergunta com várias partes. Eu não tinha certeza se deveria dividir a pergunta em várias postagens diferentes ou em apenas uma. Como as perguntas são todas de uma seção do mesmo texto, pensei que seria mais relevante postar como uma pergunta.
Estou pesquisando o uso de habitat de grandes espécies de mamíferos para uma tese de mestrado. O objetivo deste projeto é fornecer aos administradores florestais (que provavelmente não são estatísticos) uma estrutura prática para avaliar a qualidade do habitat nas terras que administram em relação a essa espécie. Este animal é relativamente evasivo, um especialista em habitat, e geralmente localizado em áreas remotas. Relativamente poucos estudos foram realizados com relação à distribuição das espécies, principalmente sazonalmente. Vários animais foram equipados com coleiras GPS por um período de um ano. Cem locais (50 verão e 50 inverno) foram selecionados aleatoriamente a partir dos dados de coleira GPS de cada animal. Além disso, 50 pontos foram gerados aleatoriamente dentro da área residencial de cada animal para servir como locais "disponíveis" ou "pseudo-ausentes".
Para cada local, várias variáveis de habitat foram amostradas no campo (diâmetros das árvores, cobertura horizontal, detritos lenhosos grossos, etc.) e várias foram amostradas remotamente através do SIG (elevação, distância à estrada, robustez, etc.). As variáveis são principalmente contínuas, exceto uma variável categórica que possui 7 níveis.
Meu objetivo é usar a modelagem de regressão para criar funções de seleção de recursos (RSF) para modelar a probabilidade relativa de uso de unidades de recursos. Eu gostaria de construir um RSF sazonal (inverno e verão) para a população de animais (tipo de desenho I) e para cada animal individual (tipo de desenho III).
Estou usando R para executar a análise estatística.
O texto principal que tenho usado é…
- "Hosmer, DW, Lemeshow, S., & Sturdivant, RX 2013. Regressão logística aplicada. Wiley, Chicester".
A maioria dos exemplos em Hosmer et al. STATA® utilização, também têm vindo a utilizar os 2 seguintes textos de referência com R .
- "Crawley, MJ 2005. Estatísticas: uma introdução usando RJ Wiley, Chichester, West Sussex, Inglaterra."
- "Plant, RE 2012. Análise de Dados Espaciais em Ecologia e Agricultura Utilizando R. CRC Press, Londres, GBR."
Atualmente, estou seguindo as etapas do capítulo 4 de Hosmer et al. para a "Seleção proposital de covariáveis" e tenha algumas perguntas sobre o processo. Descrevi os primeiros passos no texto abaixo para ajudar nas minhas perguntas.
- Etapa 1: Uma análise univariada de cada variável independente (usei uma regressão logística univariada). Qualquer variável cujo teste univariável tenha um valor-p menor que 0,25 deve ser incluída no primeiro modelo multivariável.
- Etapa 2: ajuste um modelo multivariável contendo todas as covariáveis identificadas para inclusão na etapa 1 e para avaliar a importância de cada covariável usando o valor p de sua estatística Wald. Variáveis que não contribuem nos níveis tradicionais de significância devem ser eliminadas e adequado um novo modelo. O modelo menor e mais novo deve ser comparado ao modelo maior e antigo usando o teste da razão de verossimilhança parcial.
- Etapa 3: compare os valores dos coeficientes estimados no modelo menor com seus respectivos valores no modelo grande. Qualquer variável cujo coeficiente tenha mudado acentuadamente em magnitude deve ser adicionada novamente ao modelo, pois é importante no sentido de fornecer um ajuste necessário do efeito das variáveis que permanecem no modelo. Percorra as etapas 2 e 3 até que todas as variáveis importantes sejam incluídas no modelo e as excluídas sejam clinicamente e / ou estatisticamente sem importância. Hosmer et al. use o " delta-beta-hat-percent " como uma medida da mudança na magnitude dos coeficientes. Eles sugerem uma mudança significativa como um delta-beta-hat-percent de> 20%. Hosmer et al. defina o delta-beta-hat-percent como . Onde é o coeficiente do modelo menor e é o coeficiente do modelo maior.
- Etapa 4: adicione cada variável não selecionada na Etapa 1 ao modelo obtido no final da etapa 3, uma de cada vez, e verifique sua significância pelo valor p da estatística Wald ou pelo teste da razão de verossimilhança parcial, se for uma categoria variável com mais de 2 níveis. Essa etapa é vital para identificar variáveis que, por si só, não estão significativamente relacionadas ao resultado, mas que dão uma contribuição importante na presença de outras variáveis. Nós nos referimos ao modelo no final da Etapa 4 como o modelo preliminar de efeitos principais .
- Etapas 5-7: Não progredi até este ponto, portanto deixarei essas etapas de lado por agora ou as salvarei para uma pergunta diferente.
Minhas perguntas:
- Na etapa 2, o que seria apropriado como um nível tradicional de significância, um valor-p <0,05, algo maior como <0,25?
- Na etapa 2 novamente, quero ter certeza de que o código R que estou usando para o teste de probabilidade parcial está correto e quero ter certeza de que estou interpretando os resultados corretamente. Aqui está o que eu tenho feito ...
anova(smallmodel,largemodel,test='Chisq')
Se o valor p for significativo (<0,05), adiciono a variável ao modelo, se for insignificante, prossigo com a exclusão? - Na etapa 3, tenho uma pergunta sobre a porcentagem de delta-beta-hat e quando é apropriado adicionar uma variável excluída ao modelo. Por exemplo, excluo uma variável do modelo e ela altera o para uma variável diferente em> 20%. No entanto, a variável com a alteração> 20% em parece insignificante e parece que será excluída do modelo nos próximos ciclos das etapas 2 e 3. Como posso determinar se as duas variáveis devem ser incluídas ou excluídas do modelo? Como continuo excluindo 1 variável de cada vez, excluindo as variáveis menos significativas primeiro, hesito em excluir uma variável fora de ordem.
Por fim, quero garantir que o código que estou usando para calcular esteja correto. Eu tenho usado o seguinte código. Se houver um pacote que faça isso por mim ou uma maneira mais simples de fazê-lo, estou aberto a sugestões.
100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])