Existem muitas maneiras de medir quão semelhantes são as duas distribuições de probabilidade. Entre os métodos populares (em diferentes círculos) estão:
a distância de Kolmogorov: a sup-distância entre as funções de distribuição;
a distância Kantorovich-Rubinstein: a diferença máxima entre as expectativas em relação às duas distribuições de funções com a constante Lipschitz , que também acaba sendo a distância entre as funções de distribuição;
a distância delimitada de Lipschitz: como a distância KR, mas também é necessário que as funções tenham valor absoluto no máximo .
Estes têm diferentes vantagens e desvantagens. Somente a convergência no sentido 3. corresponde, na verdade, precisamente à convergência na distribuição; convergência no sentido de 1. ou 2. é um pouco mais forte em geral. (Em particular, se com probabilidade , converge para na distribuição, mas não na distância de Kolmogorov. No entanto, se a distribuição limite for contínua, essa patologia não ocorrerá. )
Do ponto de vista da probabilidade elementar ou da teoria das medidas, 1. é muito natural porque compara as probabilidades de estar em algum conjunto. Uma perspectiva probabilística mais sofisticada, por outro lado, tende a focar mais nas expectativas do que nas probabilidades. Além disso, do ponto de vista da análise funcional, distâncias como 2. ou 3., baseadas na dualidade com algum espaço funcional, são muito atraentes, porque há um grande conjunto de ferramentas matemáticas para trabalhar com essas coisas.
No entanto, minha impressão (corrija-me se estiver errado!) É que, nas estatísticas, a distância de Kolmogorov é a maneira geralmente preferida de medir a similaridade das distribuições. Posso adivinhar um motivo: se uma das distribuições é discreta com suporte finito - em particular, se é a distribuição de alguns dados do mundo real -, é fácil calcular a distância de Kolmogorov a uma distribuição de modelo. (A distância KR seria um pouco mais difícil de calcular e a distância BL provavelmente seria impossível em termos práticos.)
Portanto, minha pergunta (finalmente) é: existem outras razões, práticas ou teóricas, para favorecer a distância de Kolmogorov (ou alguma outra distância) para fins estatísticos?