Eu estava passando por uma solução da competição de preços da habitação no Kaggle ( o núcleo da Human Analog sobre preços da habitação : técnicas avançadas de regressão ) e me deparei com esta parte:
# Transform the skewed numeric features by taking log(feature + 1).
# This will make the features more normal.
from scipy.stats import skew
skewed = train_df_munged[numeric_features].apply(lambda x: skew(x.dropna().astype(float)))
skewed = skewed[skewed > 0.75]
skewed = skewed.index
train_df_munged[skewed] = np.log1p(train_df_munged[skewed])
test_df_munged[skewed] = np.log1p(test_df_munged[skewed])
Não sei ao certo qual é a necessidade de converter uma distribuição inclinada em uma distribuição normal. Por favor, alguém pode explicar em detalhes:
- Por que isso está sendo feito aqui? ou Como isso é útil?
- Como isso é diferente da escala de recursos?
- Esta é uma etapa necessária para a engenharia de recursos? O que provavelmente acontecerá se eu pular esta etapa?