Qual é a diferença entre Normalização e Padronização?


118

No trabalho, estávamos discutindo isso, pois meu chefe nunca ouviu falar em normalização. Em Álgebra Linear, Normalização parece se referir à divisão de um vetor por seu comprimento. E, em estatística, a padronização parece se referir à subtração de uma média e depois dividida por seu DP. Mas eles parecem intercambiáveis ​​com outras possibilidades também.

Ao criar algum tipo de pontuação universal, isso compõe 2 métricas diferentes, que têm diferentes meios e diferentes SDs, você normalizaria, padronizaria ou algo mais? Uma pessoa me disse que é apenas uma questão de pegar cada métrica e dividi-la pelo seu SD, individualmente. Então, somando os dois. E isso resultará em uma pontuação universal que pode ser usada para julgar as duas métricas.

Por exemplo, digamos que você tenha o número de pessoas que pegam o metrô para trabalhar (em Nova York) e o número de pessoas que dirigem para o trabalho (em Nova York).

Car y

Tremx
Carroy

Se você deseja criar uma pontuação universal para relatar rapidamente as flutuações de tráfego, não pode simplesmente adicionar e média ( y )significar(x)significar(y) porque haverá MUITO mais pessoas que viajam de trem. Há 8 milhões de pessoas vivendo em Nova York, além de turistas. São milhões de pessoas que tomam o trem todos os dias versus centenas de milhares de pessoas em carros. Portanto, eles precisam ser transformados em uma escala semelhante para serem comparados.

Se significar(x)=8,000,000

e significar(y)=800,000

Você normalizaria & y e somaria? Você padronizaria x & y e somaria? Ou você dividiria cada um pelo respectivo SD e depois somaria? Para chegar a um número que, quando flutua, representa flutuações totais no tráfego.xyxy

Qualquer artigo ou capítulos de livros para referência seria muito apreciado. OBRIGADO!

Também aqui está outro exemplo do que estou tentando fazer.

Imagine que você é um reitor da faculdade e está discutindo os requisitos de admissão. Você pode querer estudantes com pelo menos um determinado GPA e uma certa pontuação no teste. Seria bom se ambos estivessem na mesma escala, porque então você poderia adicionar os dois juntos e dizer: "qualquer pessoa com pelo menos 7,0 pode ser admitida". Dessa forma, se um aluno em potencial tiver um GPA 4.0, ele poderá obter uma pontuação baixa no teste 3.0 e ainda assim ser admitido. Inversamente, se alguém tivesse um GPA 3.0, ele ainda poderia ser admitido com uma pontuação no teste 4.0.

Mas não é assim. O ACT está em uma escala de 36 pontos e a maioria dos GPAs está em 4,0 (alguns são 4,3, sim irritantes). Como não posso simplesmente adicionar um ACT e GPA para obter algum tipo de pontuação universal, como posso transformá-los para que possam ser adicionados, criando assim uma pontuação de admissão universal. E então, como reitor, eu poderia aceitar automaticamente qualquer pessoa com uma pontuação acima de um determinado limite. Ou até mesmo aceitar automaticamente todos cuja pontuação está entre os 95% melhores ... esse tipo de coisa.

Isso seria normalização? estandardização? ou apenas dividindo cada um pelo seu SD e depois somando?


4
A última parte da pergunta parece que você está tentando criar uma avaliação com vários atributos. Para mais informações, consulte a pergunta e as respostas em stats.stackexchange.com/q/9137 e stats.stackexchange.com/q/9358 . Em particular, observe que nem a normalização nem a padronização têm relevância direta para o problema de Dean.
whuber

Respostas:


65

A normalização redimensiona os valores em um intervalo de [0,1]. Isso pode ser útil em alguns casos em que todos os parâmetros precisam ter a mesma escala positiva. No entanto, os outliers do conjunto de dados são perdidos.

Xchumanged=X-XmEunXmumax-XmEun

A padronização redimensiona os dados para ter uma média ( ) de 0 e desvio padrão ( σ ) de 1 (variação unitária).μσ

Xchumanged=X-μσ

Para a maioria dos aplicativos, a padronização é recomendada.


7
Você poderia explicar por que "os outliers do conjunto de dados foram perdidos" após a normalização dos dados?
aluno

3
discrepantes nesse caso de redimensionamento afetariam o resultado e não se perderiam.
Feras 14/10

@learner Imagine se você tiver [1 2 3 4 5 1000 2 4 5 2000 ...]. O valor normalizado de 1000 pontos de dados se tornaria menor porque temos 2000
COLD ICE

3
@ Coldice Eu acho que depende do algoritmo de normalização que você usa. Por exemplo, se você dividisse todos os números no seu conjunto de dados pelo valor máximo (por exemplo, 2000), eles variariam entre 0 e 1, e isso não afetaria os valores extremos.
Alisson

3
Eu acho que isso não afeta os valores extremos, caso contrário, isso não seria feito em softwares de detecção de anomalias.
Alisson

44

No mundo dos negócios, "normalização" normalmente significa que o intervalo de valores é "normalizado para ser de 0,0 a 1,0". "Padronização" normalmente significa que o intervalo de valores é "padronizado" para medir quantos desvios padrão o valor está da sua média. No entanto, nem todos concordariam com isso. É melhor explicar suas definições antes de usá-las.

De qualquer forma, sua transformação precisa fornecer algo útil.

No seu exemplo de trem / carro, você ganha alguma coisa ao saber quantos desvios padrão da média deles estão cada valor? Se você plotar essas medidas "padronizadas" umas contra as outras como um gráfico xy, poderá ver uma correlação (veja o primeiro gráfico à direita):

http://en.wikipedia.org/wiki/Correlation_and_dependence

Se sim, isso significa alguma coisa para você?

No que diz respeito ao seu segundo exemplo, se você deseja "igualar" um GPA de uma escala para outra, o que essas escalas têm em comum? Em outras palavras, como você pode transformar esses mínimos em equivalentes e os máximos em equivalentes?

Aqui está um exemplo de "normalização":

Link de normalização

Depois de obter suas pontuações GPA e ACT de forma intercambiável, faz sentido pesar as pontuações ACT e GPA de maneira diferente? Em caso afirmativo, qual ponderação significa algo para você?

Edit 1 (05/03/2011) =========================================== =

Primeiro, gostaria de verificar os links sugeridos pelo whuber acima. O ponto principal é que, em ambos os problemas de duas variáveis, você precisará criar uma "equivalência" de uma variável em relação à outra. E, uma maneira de diferenciar uma variável da outra. Em outras palavras, mesmo que você possa simplificar isso para um relacionamento linear simples, você precisará de "pesos" para diferenciar uma variável da outra.

Aqui está um exemplo de um problema de duas variáveis:

Utilitários de vários atributos

Na última página, se você puder dizer que o tráfego de trens padronizado U1(x)versus o tráfego de carros padronizado U2(y)é "independente de maneira aditiva", poderá conseguir usar uma equação simples como:

U(x, y) = k1*U1(x) + (1 - k1)*U2(y)

Onde k1 = 0,5 significa que você é indiferente ao tráfego padronizado de carros / trens. Um k1 mais alto significaria que o tráfego de trens U1(x)é mais importante.

No entanto, se essas duas variáveis ​​não forem "aditivamente independentes", será necessário usar uma equação mais complicada. Uma possibilidade é mostrada na página 1:

U(x, y) = k1*U1(x) + k2*U2(y) + (1-k1-k2)*U1(x)*U2(y)

Em ambos os casos, você terá que criar um utilitário U(x, y)que faça sentido.

Os mesmos conceitos gerais de ponderação / comparação são válidos para o seu problema GPA / ACT. Mesmo que sejam "normalizados" em vez de "padronizados".

Uma última edição. Eu sei que você não vai gostar disso, mas a definição do termo "independente de forma aditiva" está na página 4 do link a seguir. Procurei uma definição menos nerd, mas não consegui encontrar uma. Você pode procurar algo melhor.

Aditivamente Independente

Citando o link:

Intuitively, the agent prefers being both healthy and wealthy
more than might be suggested by considering the two attributes
separately. It thus displays a preference for probability
distributions in which health and wealth are positively
correlated.

Conforme sugerido na parte superior desta resposta, se você traçar o tráfego de trem padronizado versus o tráfego de carros padronizado em um gráfico xy, poderá ver uma correlação. Nesse caso, você está preso à equação de utilidade não linear acima ou algo semelhante.


Está bem. Você está certo. É melhor explicar minhas definições. E, pensando novamente, não são as definições que eu preciso. O que eu preciso é do método apropriado para criar uma pontuação universal. Seja uma pontuação de admissão ou de tráfego. Como se cria uma métrica universal que é função de outras variáveis, que foram transformadas para colocá-las em uma escala semelhante? E não se preocupe com os pesos. Entendo que mesmo uma soma reta pesa as métricas 1/1. Mas isso é menos preocupante para mim agora.
Chris

@ Chris, eu adicionei minha resposta como uma edição acima.
bill_080

2
(+1) Boa edição. @ Chris: você pode estar interessado nas notas de um pequeno conjunto de slides do PowerPoint aqui : esta é uma apresentação sobre o assunto que dei a pessoas não técnicas. Menciono isso porque tem algumas ilustrações e orientações sobre como "criar uma métrica universal".
whuber

O link Utilitários para vários atributos está inoperante, o artigo pode ser encontrado aqui web.archive.org/web/20090530032248/http://www.doc.ic.ac.uk/~frk/…
mgilbert

6

A resposta é simples, mas você não vai gostar: depende. Se você valoriza 1 desvio padrão de ambas as pontuações igualmente, a padronização é o caminho a percorrer (observe: na verdade, você está estudando , porque está dividindo por uma estimativa do DP da população).

Caso contrário, é provável que a padronização seja um bom primeiro passo, após o qual você poderá dar mais peso a uma das pontuações multiplicando por um fator bem escolhido.


Então, você está dizendo que, pelo menos, comece com o que descrevi como Padronização (padronização), depois ajuste os pesos para melhor se ajustarem aos dados / cenário? Isso faz sentido. Só não entendo por que dividiria pelo SD. E, ao pesquisar, encontrei algo chamado Diferença Média Padronizada ... e acabei me confundindo. Parece que deveria ser simples. Você coloca os dois na escala A ou um na mesma escala que o outro e depois soma. Mas não. Em vez disso, estou confuso e todo o Wiki saiu por enquanto.
Chris

0

Para resolver o problema GPA / ACT ou trem / carro, por que não usar a média geométrica ?

n√ (a1 × a2 × ... × an)

Onde a*está o valor da distribuição en é o índice da distribuição.

Essa média geométrica garante que cada valor despeje sua escala, contribui igualmente para o valor médio. Veja mais em Geometric Mean


3
Não vejo que a média geométrica seja apropriada para as situações descritas pelo OP.
gung

11
Eu concordo com o gung. A média geométrica não é uma solução para este problema.
Ferdi 28/07

A média geométrica impedirá a redução da contribuição de números menores. Portanto, pode ser uma alternativa à padronização ou normalização quando escalas desiguais precisam ser combinadas.
precisa saber é

0

No meu campo, ciência de dados, normalização é uma transformação de dados que permite fácil comparação dos dados a jusante. Existem muitos tipos de normalizações. Scaling sendo um deles. Você também pode registrar os dados ou fazer o que quiser. O tipo de normalização usado dependeria do resultado desejado, pois todas as normalizações transformam os dados em outra coisa.

Aqui estão alguns dos exemplos que eu considero normalização. Normalizações de escala normalização Quantile

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.