Concordo com os principais pontos do @Upper_Case, bem como responder. Eu gosto de apresentar uma perspectiva que enfatiza o lado do "aprendizado de máquina" da questão.
Para uma tarefa de classificação usando kNN, regressão logística, SVM do kernel ou redes neurais não lineares, a principal desvantagem com a qual estamos preocupados é a diminuição no desempenho do modelo , por exemplo, diminuição na pontuação da AUC em um conjunto de validação.
Outras desvantagens da assimetria são frequentemente investigadas quando é difícil avaliar o dano da assimetria na qualidade do resultado . No entanto, em um problema de classificação, podemos treinar e validar o modelo uma vez com o original (inclinado) e outra com o recurso transformado , e depois
- Se o desempenho diminuiu, não transformamos,
- Se o desempenho melhorar, nós nos transformamos.
Em outras palavras, o dano à assimetria pode ser avaliado de maneira fácil e objetiva, portanto, essas justificativas não afetam nossa decisão , apenas o desempenho.
Se examinarmos de perto as justificativas para o uso, digamos, da transformação de log, elas se mantêm verdadeiras quando são feitas algumas suposições sobre os recursos finais com os quais um modelo ou teste trabalha diretamente. Um recurso final é uma função do recurso bruto; essa função pode ser identidade. Por exemplo, um modelo (ou teste) pode assumir que uma característica final deve ser normal, ou pelo menos simétrica em torno da média, ou deve ser linearmente aditiva, etc. Então, nós, com o conhecimento (ou uma especulação) de que uma matéria-prima o recurso é inclinado para a esquerda, pode executar a transformação do log para alinhar o recurso final com a suposição imposta.
Uma complexidade importante aqui é que não alteramos e não podemos alterar a distribuição de nenhum recurso bruto; estamos apenas criando um recurso final (em função do recurso bruto) que possui uma distribuição diferente, mais alinhada às suposições impostas.
Para uma tarefa de classificação usando redes kNN, regressão logística, SVM do kernel ou redes neurais não lineares, não há normalidade ou suposição simétrica para a distribuição dos recursos finais; portanto, não há força nesses modelos nesse sentido. Embora possamos traçar uma sombra da suposição "adição linear" no modelo de regressão logística, ou seja,
e em redes neurais para soma ponderada de recursos na primeira camada, ou seja,P( y= 1 | x ) =1 11 +e- (W1 1x1 1+ . . +Wdxd)
yEu= f(Wi , .x + b ) =f(Wi , 1x1 1+Wi , 2x2+ . . . + b )
Digo "uma sombra" porque a variável de destino não é diretamente a adição linear dos recursos finais, a adição passa por uma ou mais transformações não lineares que poderiam tornar esses modelos mais robustos à violação dessa suposição. Por outro lado, a suposição de adição linear não existe no kNN ou no kernelSVM, pois eles trabalham com distâncias amostra-amostra em vez de interações de recursos.
Mas, novamente, essas justificativas vêm em segundo lugar em comparação com o resultado da avaliação do modelo, se o desempenho sofre, não transformamos.