Estou estudando Data Scaling e, em particular, o método de padronização. Eu entendi a matemática por trás disso, mas não está claro para mim por que é importante dar aos recursos zero média e variação de unidade.
Você pode me explicar ?
Estou estudando Data Scaling e, em particular, o método de padronização. Eu entendi a matemática por trás disso, mas não está claro para mim por que é importante dar aos recursos zero média e variação de unidade.
Você pode me explicar ?
Respostas:
As questões sobre se e por que é importante dependem do contexto.
Para árvores de decisão impulsionadas por gradiente, por exemplo, isso não é importante - esses algoritmos de ML "não se importam" com transformações monótonas nos dados; eles apenas procuram pontos para dividi-lo.
Para preditores lineares, por exemplo, o dimensionamento pode melhorar a interpretabilidade dos resultados. Se você quiser pensar na magnitude dos coeficientes como uma indicação de quanto um recurso está afetando o resultado, os recursos precisam ser redimensionados de alguma forma para a mesma área.
Para alguns preditores, em particular NNs, o dimensionamento e, em particular, o dimensionamento para um intervalo específico, pode ser importante por razões técnicas. Algumas das camadas usam funções que efetivamente mudam apenas em alguma área (semelhante à família hiperbólica de funções ) e, se os recursos estiverem muito fora do intervalo, pode ocorrer saturação. Se isso acontecer, as derivadas numéricas funcionarão mal e o algoritmo pode não ser capaz de convergir para um bom ponto.
No caso de média zero, isso ocorre porque alguns modelos de aprendizado de máquina não incluem termo tendencioso em sua representação; portanto, temos que mover os dados pela origem antes de alimentá-los com o algoritmo para compensar a falta de termo tendencioso. No caso de variação de unidade, isso ocorre porque muitos algoritmos de aprendizado de máquina usam algum tipo de distância (por exemplo, euclidiano) para decidir ou prever. Se um recurso em particular tiver valores amplos (ou seja, grande variação), a distância será altamente afetada por esse recurso e o efeito de outros recursos será ignorado. A propósito, alguns algoritmos de otimização (incluindo descida em gradiente) têm melhor desempenho quando os dados são padronizados.
Portanto, sugere-se que todos os recursos sejam da mesma escala menores o suficiente para serem treinados com facilidade. O link abaixo também discute conceito semelhante. /stats/41704/how-and-why-do-normalization-and-feature-scaling-work