Regressão múltipla com pequenos conjuntos de dados

Tenho um conjunto de dados de estudos de caso de projetos para um novo tipo de método de pesquisa para agências governamentais apoiarem as atividades de tomada de decisão. Minha tarefa é desenvolver um método de estimativa baseado em experiências passadas para projetos futuros para fins de estimativa.

Meu conjunto de dados é limitado a 50 casos. Tenho mais de 30 preditores (potenciais) registrados e uma variável de resposta (ou seja, horas necessárias para concluir o projeto).

Nem todos os preditores são significativos, usando técnicas de seleção passo a passo, espero que o número de variáveis de previsão provavelmente esteja na faixa de 5 a 10 variáveis. Embora eu esteja lutando para obter um conjunto de preditores usando as abordagens padrão em ferramentas como o PASW (SPSS).

Estou ciente de todo o material que fala sobre regras práticas para tamanhos de amostra e proporções de variáveis preditivas para casos. Meu dilema é que demorou quase 10 anos para coletar 50 casos, por isso é tão bom quanto possível.

Minha pergunta é o que devo fazer para tirar o máximo proveito deste pequeno conjunto de amostras?

Essa é uma boa referência para lidar com pequenos conjuntos de smaple? Mudanças na significância do valor-p? Alterações nas abordagens de seleção passo a passo? Uso de transformações como centralização ou registro?

Qualquer conselho é apreciado.

regression small-sample

— Shane
fonte

$L_1$ $n = 50$ $p=30$

Se você pode fornecer detalhes sobre a distribuição de suas variáveis, posso ser mais específico.

Eu não uso o SPSS, mas isso pode ser feito facilmente Rusando a glmnetfunção no pacote com o mesmo nome. Se você procurar no manual, ele contém um exemplo genérico (primeiro, para o caso gaussiano ) que resolverá o seu problema. Tenho certeza de que uma solução semelhante deve existir no SPSS.

— suncoolsu
fonte

A resposta é muito negativa. Com a grande quantidade de projetos, cerca de 2500 horas marcadas e uma cauda que se estende a alguns projetos de 10000-14000 horas. Os preditores contínuos (em escala) são uma mistura de distribuições, enquanto alguns preditores são categóricos (nominais). Que tipos de distribuição são necessários para o LASSO (ou o que mais você precisa saber de mim)? - btw obrigado pela resposta!

— Shane

| |

$||$ glmnetglmnetglm

L_{1}

$L_1$

A verificação do SPSS ajuda a falar sobre um recurso chamado "Regularização por Regressão Categórica" ou CATREG. Parece abordar os métodos Lasso e Ridge. Por algum motivo, ele não está ativado na minha versão. Se alguém sabe por que eu ficaria agradecido.

— Shane

@ Shane Se minha memória não me falha, vi @AndyW publicar um código SPSS sofisticado . Isso (código) me impressiona o tempo todo!

— suncoolsu

@ Shane, parece que o comando CATREG existe há algumas versões do SPSS, mas você provavelmente precisa de alguns módulos / licenças de regressão avançados para usá-lo. Na edição atual, você precisa do conjunto de estatísticas "premium" para obter essa funcionalidade. Gostaria apenas de sugerir que verifique os pacotes R que o suncoolsu menciona (é grátis!).

— 21711 Andy