Tentei coletar algumas observações sobre covariância à distância com base em minhas impressões ao ler as referências listadas abaixo. No entanto, não me considero um especialista neste tópico. Comentários, correções, sugestões, etc. são bem-vindos.
As observações são (fortemente) tendenciosas em relação a possíveis inconvenientes, conforme solicitado na pergunta original .
A meu ver, as possíveis desvantagens são as seguintes:
- A metodologia é nova . Meu palpite é que esse é o maior fator em relação à falta de popularidade no momento. Os artigos que descrevem a covariância à distância começam em meados dos anos 2000 e progridem até os dias atuais. O artigo citado acima é o que recebeu mais atenção (exagero?) E tem menos de três anos. Por outro lado, a teoria e os resultados sobre correlação e medidas semelhantes a correlação têm mais de um século de trabalho por trás delas.
- Os conceitos básicos são mais desafiadores . A correlação produto-momento de Pearson, no nível operacional, pode ser explicada aos calouros da faculdade sem um histórico de cálculo com bastante facilidade. Um ponto de vista "algorítmico" simples pode ser apresentado e a intuição geométrica é fácil de descrever. Por outro lado, no caso da covariância à distância, mesmo a noção de somas de produtos de distâncias euclidianas aos pares é um pouco mais difícil e a noção de covariância em relação a um processo estocástico vai muito além do que poderia ser razoavelmente explicado a esse público. .
- É computacionalmente mais exigente . O algoritmo básico para calcular a estatística de teste é no tamanho da amostra, em oposição a O ( n ) para métricas de correlação padrão. Para amostras pequenas, isso não é grande coisa, mas para amostras maiores, torna-se mais importante.O ( n2)O ( n )
- A estatística do teste não é livre de distribuição, mesmo assintoticamente . Pode-se esperar que, para uma estatística de teste que seja consistente com todas as alternativas, a distribuição - pelo menos assintoticamente - seja independente das distribuições subjacentes de e Y sob a hipótese nula. Esse não é o caso da covariância à distância, pois a distribuição abaixo do nulo depende da distribuição subjacente de X e Y, mesmo que o tamanho da amostra tenda ao infinito. Ele é verdade que as distribuições são uniformemente delimitada por uma χ 2 uma distribuição, o que permite o cálculo de um conservador valor crítico.XYXYχ21
- | p |
- Propriedades de energia desconhecidas . Ser consistente com todas as alternativas garante essencialmente que a covariância à distância deve ter um poder muito baixo contra algumas alternativas. Em muitos casos, alguém está disposto a desistir da generalidade para ganhar poder adicional contra alternativas particulares de interesse. Os artigos originais mostram alguns exemplos nos quais eles reivindicam alta potência em relação às métricas de correlação padrão, mas acredito que, voltando a (1) acima, seu comportamento em relação às alternativas ainda não é bem conhecido.
Para reiterar, essa resposta provavelmente se mostra bastante negativa. Mas, essa não é a intenção. Existem algumas idéias muito bonitas e interessantes relacionadas à covariância à distância, e a relativa novidade também abre caminhos de pesquisa para entendê-la mais plenamente.
Referências :
- GJ Szekely e ML Rizzo (2009), covariância à distância browniana , Ann. Appl. Statist. vol. 3 não. 4, 1236 a 1265.
- GJ Szekely, ML Rizzo e NK Bakirov (2007), Medição e teste de independência por correlação de distâncias , Ann. Statist. vol. 35, 2769–2794.
- R. Lyons (2012), covariância à distância em espaços métricos ,
Ann. Probab. (aparecer).