Vi a normalização dos dados de entrada com média zero, variação de unidade muitas vezes no aprendizado de máquina. É uma boa prática a ser realizada o tempo todo ou há momentos em que não é apropriado ou não é benéfico?
Vi a normalização dos dados de entrada com média zero, variação de unidade muitas vezes no aprendizado de máquina. É uma boa prática a ser realizada o tempo todo ou há momentos em que não é apropriado ou não é benéfico?
Respostas:
Uma resposta detalhada para a pergunta pode ser encontrada aqui .
[...] há momentos em que não é apropriado ou não é benéfico?
Resposta curta: Sim e Não. Sim nos termos, que pode alterar significativamente sua saída, por exemplo, de algoritmos de cluster. Não , por outro lado, se essas mudanças são o que você deseja alcançar. Ou, para colocar nas palavras do autor da fonte mencionada:
Os recursos de dimensionamento para algoritmos de cluster podem alterar substancialmente o resultado. Imagine quatro grupos em torno da origem, cada um em um quadrante diferente, todos bem dimensionados. Agora, imagine o eixo y sendo esticado até dez vezes o comprimento do eixo x. em vez de quatro pequenos agrupamentos de quadrante, você terá a longa baguete esmagada de dados cortada em quatro pedaços ao longo de seu comprimento! (E, a parte importante é que você pode preferir um desses!)
O take-home-mensagem deste é: sempre pensar cuidadosamente sobre o que você quer alcançar e que tipo de dados a seus algoritmos preferir - que faz a matéria!