Eu tenho um conjunto de dados de cerca de 5000 recursos. Para esses dados, usei o teste Chi Square para seleção de recursos; depois disso, obtive cerca de 1500 variáveis que mostraram relação de significância com a variável resposta.
Agora eu preciso ajustar a regressão logística nisso. Estou usando o pacote glmulti para R (o pacote glmulti fornece seleção eficiente de subconjuntos para vlm), mas ele pode usar apenas 30 recursos por vez; caso contrário, seu desempenho diminui à medida que o número de linhas no meu conjunto de dados é de cerca de 20000.
Existe alguma outra abordagem ou técnica para resolver os problemas acima? Se eu seguir o método acima, levará muito tempo para ajustar o modelo.
sklearn
é LogisticRegression
e ele resolve um 4000 recursos, problema 20.000 linhas em cerca de um minuto no meu laptop.