Atualmente, estou trabalhando em um modelo de regressão logística para genômica. Um dos campos de entrada que quero incluir como covariável é genes
. Existem cerca de 24.000 genes conhecidos. Existem muitos recursos com esse nível de variabilidade na biologia computacional e centenas de milhares de amostras são necessárias.
- Se eu
LabelEncoder()
esses genes 24K - e então
OneHotEncoder()
eles ...
As 24.000 colunas tornarão meus tempos de treinamento keras irracionais para uma CPU i7 quad-core de 2,2 GHz?
Em caso afirmativo, existe uma abordagem diferente para a codificação que eu possa usar com isso?
De alguma forma, devo tentar dedicar uma camada do meu modelo a esse recurso?
Isso significa que eu preciso de 24K nós de entrada?