A @Silverfish pediu uma expansão da resposta da PolatAlemdar, que não foi fornecida, então tentarei expandir aqui.
Por que o nome chisquare distância? O teste do qui-quadrado para tabelas de contingência é baseado em
portanto a idéia é manter esse formulário e usá-lo como um medida de distância. Isso fornece a terceira fórmula do OP, com interpretado como observação e como expectativa, o que explica o comentário de PolatAlemdar "É usado em distribuições discretas de probabilidade", como por exemplo no teste de ajuste de qualidade. Essa terceira forma não é uma função de distância, pois é assimétrica nas variáveis e . Para comparação de histogramas, queremos uma função de distância simétrica em e xiyixyxy1
χ2= ∑células( OEu- EEu)2EEu
xEuyEuxyxy, e as duas primeiras formas fornecem isso. A diferença entre eles é apenas um fator constante , o que não é importante desde que você escolha um formulário de forma consistente (embora a versão com fator extra seja melhor se você quiser comparar com o formato assimétrico). Observe a semelhança nessas fórmulas com a distância euclidiana quadrada, que não é coincidência, a distância do quadrado é um tipo de distância euclidiana
ponderada . Por esse motivo, as fórmulas no OP geralmente são colocadas sob um sinal de raiz para obter
distâncias . A seguir, seguimos isso.
11212
A distância do quadrado é usada também na análise de correspondência. Para ver o relacionamento com o formulário usado lá, seja as células de uma tabela de contingência com linhas e colunasIndique os totais da linha como e a coluna totalize com . A distância entre os quadrados é dada por
No caso de apenas duas linhas (os dois histogramas), ele recupera a primeira fórmula do OP (módulo do sinal raiz). xeu jRCx+ j= ∑Euxeu jxi += ∑jxeu jl , k
χ2( l , k ) = ∑j1x+ j( xeu jxl +- xk jxk +)2-------------------⎷
EDIT
Respondendo à pergunta nos comentários abaixo: Um livro com longas discussões sobre a distância do quadrado é "ANÁLISE DA CORRESPONDÊNCIA EM PRÁTICA (Segunda Edição)", de Michael Greenacre (Chapman & Hall). É um nome bem estabelecido, proveniente de sua semelhança com o chisquare, usado nas tabelas de contingência. Que distribuição tem? Eu nunca estudei isso, mas provavelmente (sob algumas condições ...) ela teria alguma distribuição no quadrilátero, aproximadamente. As provas devem ser semelhantes ao que é feito com as tabelas de contingência; a maioria da literatura sobre análise de correspondência não entra na teoria da distribuição. Um artigo que tem alguma teoria talvez relevante é a http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0101-74382016000100023 . Veja também/stats//search?q=%22chisquare+distance%22 para outras postagens relevantes neste site.