Normalização vs. escala


45

Qual é a diferença entre 'Normalização' e 'Escalonamento' de dados? Até agora, pensei que os dois termos se referissem ao mesmo processo, mas agora percebo que há algo mais que não sei / entendo. Além disso, se houver uma diferença entre Normalização e Escalonamento, quando devemos usar a Normalização, mas não o Escalonamento e vice-versa?

Por favor, elabore com algum exemplo.


6
Normalizar normalmente significa transformar suas observações em (onde é uma função mensurável, normalmente contínua), de forma que elas pareçam normalmente distribuídas . Alguns exemplos de transformações para normalizar dados são transformações de energia . Escalar significa simplesmente , , isto é, multiplicando suas observações por uma constante que altera a escala (por exemplo, de nanômetros para quilômetros) . xf(x)ff(x)=cxcRc


normalização é também um método de escala, mesmo que a normalização

Não tenho reputação suficiente nas estatísticas para responder. Eu acho que o título da sua pergunta deve ser Normalização vs. Padronização, pois essas duas são abordagens diferentes de redimensionamento. A normalização está redimensionando os valores no intervalo de 0 e 1, enquanto a padronização está alterando a distribuição para ter 0 como média e 1 como desvio padrão.
Hamid Heydarian

Respostas:


23

Não conheço uma definição "oficial" e, mesmo que exista, você não deve confiar nela, pois a verá sendo usada inconsistentemente na prática.

Dito isto, escalar em estatística geralmente significa uma transformação linear da forma .f(x)=ax+b

Normalizar pode significar aplicar uma transformação para que os dados transformados sejam distribuídos normalmente, mas também pode significar simplesmente colocar variáveis ​​diferentes em uma escala comum. A padronização, que significa subtrair a média e dividir pelo desvio padrão, é um exemplo do uso posterior. Como você pode ver, também é um exemplo de dimensionamento. Um exemplo para o primeiro seria usar o log para dados distribuídos normais do log.

Mas o que você deve tirar é que, ao lê-lo, procure uma descrição mais precisa do que o autor fez. Às vezes você pode obtê-lo do contexto.


14

Escalar é uma escolha pessoal para fazer com que os números pareçam corretos, por exemplo, entre zero e um, ou um e cem. Por exemplo, converter dados fornecidos em milímetros em metros porque é mais conveniente ou imperial em métrica.

Embora a normalização seja sobre o dimensionamento para um 'padrão' externo - a norma local - como remover o valor médio e dividir pelo desvio padrão da amostra, por exemplo, para que seus dados classificados possam ser comparados com um normal cumulativo ou um Poisson cumulativo, ou tanto faz.

Portanto, se um palestrante ou gerente deseja que os dados sejam "normalizados", significa "redimensioná-lo do meu jeito " ;-)


9

Não sei se você quer dizer exatamente isso, mas vejo muitas pessoas se referindo à normalização, que significa padronização de dados. A padronização está transformando seus dados para que eles tenham média 0 e desvio padrão 1:

x <- (x - mean(x)) / sd(x)

Também vejo pessoas usando o termo Normalização para escalonamento de dados, como transformar seus dados em um intervalo de 0 a 1:

x <- (x - min(x)) / (max(x) - min(x))

Pode ser confuso!

Ambas as técnicas têm seus prós e contras. Ao dimensionar um conjunto de dados com muitos discrepantes, seus dados não discrepantes podem terminar em um intervalo muito pequeno. Portanto, se seu conjunto de dados tiver muitos discrepantes, convém padronizá-lo. No entanto, quando você fizer isso, você terminará com dados negativos (às vezes você não quer isso) e dados ilimitados (você também pode não querer isso).


3

Centrar significa subtrair a média da variável aleatória das variáveis. Ou seja x -xi

Escalar significa dividir a variável pelo seu desvio padrão. Ou seja, xi / s

A combinação dos dois é chamada normalização ou standization. Ou seja, x-xi / s


A questão é uma duplicata.
Michael Chernick
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.