Não é revelador que isso tenha sido publicado em um periódico não estatístico cuja avaliação pelos pares estatísticos não temos certeza? Esse problema foi resolvido por Hoeffding em 1948 (Annals of Mathematics Statistics 19: 546), que desenvolveu um algoritmo direto que não exigia binning nem várias etapas. O trabalho de Hoeffding nem foi mencionado no artigo da Science. Isso está na hoeffd
função R do Hmisc
pacote há muitos anos. Aqui está um exemplo (digite example(hoeffd)
R):
# Hoeffding's test can detect even one-to-many dependency
set.seed(1)
x <- seq(-10,10,length=200)
y <- x*sign(runif(200,-1,1))
plot(x,y) # an X
hoeffd(x,y) # also accepts a numeric matrix
D
x y
x 1.00 0.06
y 0.06 1.00
n= 200
P
x y
x 0 # P-value is very small
y 0
hoeffd
usa uma implementação Fortran bastante eficiente do método de Hoeffding. A idéia básica de seu teste é considerar a diferença entre as classificações conjuntas de X e Y e o produto da classificação marginal de X e a classificação marginal de Y, adequadamente dimensionada.
Atualizar
Desde então, tenho me correspondido com os autores (que são muito agradáveis por falar nisso, e estão abertos a outras idéias e continuam pesquisando seus métodos). Eles originalmente tinham a referência de Hoeffding em seus manuscritos, mas a cortaram (com arrependimentos, agora) por falta de espaço. Embora o teste de Hoeffding pareça ter um bom desempenho na detecção de dependência em seus exemplos, ele não fornece um índice que atenda aos critérios de ordenar graus de dependência da maneira como o olho humano é capaz.D
Em uma versão futura do Hmisc
pacote R , adicionei duas saídas adicionais relacionadas a , a média e a maxque são medidas úteis de dependência. No entanto, essas medidas, como , não têm a propriedade que os criadores de MIC estavam procurando.D| F( x , y) - G ( x ) H( y) |D