Usar decis para encontrar a correlação é uma abordagem estatisticamente válida?


10

Eu tenho uma amostra de 1.449 pontos de dados que não estão correlacionados (r ao quadrado 0,006).

Ao analisar os dados, descobri que, dividindo os valores das variáveis ​​independentes em grupos positivo e negativo, parece haver uma diferença significativa na média da variável dependente para cada grupo.

Dividindo os pontos em 10 posições (deciles) usando os valores variáveis ​​independentes, parece haver uma correlação mais forte entre o número de deciles e os valores variáveis ​​dependentes médios (r-quadrado 0,27).

Eu não sei muito sobre estatísticas, então aqui estão algumas perguntas:

  1. Esta é uma abordagem estatística válida?
  2. Existe um método para encontrar o melhor número de posições?
  3. Qual é o termo adequado para essa abordagem para que eu possa pesquisar no Google?
  4. Quais são alguns recursos introdutórios para aprender sobre essa abordagem?
  5. Quais são algumas outras abordagens que posso usar para encontrar relacionamentos nesses dados?

Aqui estão os dados do decil para referência: https://gist.github.com/georgeu2000/81a907dc5e3b7952bc90

EDIT: Aqui está uma imagem dos dados: Momento da indústria é a variável independente, a qualidade do ponto de entrada depende

Momento da indústria é a variável independente, a qualidade do ponto de entrada depende


Espero que minha resposta (em particular as respostas 2 a 4) seja entendida no sentido em que foi planejada.
Glen_b -Reinstala Monica 07/07

Se seu objetivo é explorar uma forma de relacionamento entre o independente e o dependente, essa é uma boa técnica exploratória. Pode ofender estatísticos, mas é usado na indústria o tempo todo (por exemplo, risco de crédito). Se você estiver construindo um modelo preditivo, novamente a engenharia de recursos está OK - se isso for feito em um conjunto de treinamento, será validado adequadamente.
B_Miner

Você pode fornecer recursos sobre como garantir que o resultado seja "validado corretamente"?
B Seven

"não correlacionado (r ao quadrado 0,006)" significa que eles não estão linearmente correlacionados. Talvez haja alguma outra correlação envolvida. Você plotou os dados brutos (dependente versus independente)?
Emil Friedman

Plotei os dados, mas não pensei em adicioná-los à pergunta. Que grande idéia! Consulte a pergunta atualizada.
B Seven

Respostas:


9

0. A correlação (0.0775) é pequena, mas (estatisticamente) significativamente diferente de 0. Ou seja, parece que realmente existe correlação, é muito pequena / fraca (equivalente a isso, há muito barulho no relacionamento).

1. O que a média dentro dos compartimentos faz é reduzir a variação nos dados (o efeito n para erro padrão de média), o que significa que você aumenta artificialmente a correlação fraca. Veja tambémeste (um pouco) problema relacionado.σ/n

xexatamente o resultado que você esperava .

3. sim Possivelmente, comece com essa pesquisa e talvez tente sinônimos.

4. Este é um bom lugar para começar; é um livro muito popular voltado para não estatísticos.

5. (mais seriamente :) Eu sugeriria a suavização (como por meio de regressão polinomial local / suavização do kernel, por exemplo) como uma maneira de investigar relacionamentos. Depende exatamente do que você deseja, mas essa pode ser uma abordagem válida quando você não conhece a forma de um relacionamento, desde que evite o problema de dragagem de dados.


Há uma citação popular, cujo criador parece ser Ronald Coase :

"Se você torturar os dados o suficiente, a natureza sempre confessará."


Os pontos 1 e 2 são boas explicações de por que a abordagem do OP não é uma abordagem estatística válida, embora seja uma heurística útil para convencer sobre o ponto 0 (correlação fraca).
Assad Ebrahim

9

Talvez você se beneficie de uma ferramenta exploratória. A divisão dos dados em deciles da coordenada x parece ter sido realizada com esse espírito. Com as modificações descritas abaixo, é uma abordagem perfeitamente correta.

Muitos métodos exploratórios bivariados foram inventados. Um exemplo simples proposto por John Tukey ( EDA , Addison-Wesley 1977) é seu "enredo esquemático errante". Você divide a coordenada x em caixas, erige um gráfico de caixa vertical dos dados y correspondentes na mediana de cada bandeja e conecta as partes principais dos gráficos de caixa (medianas, dobradiças etc.) nas curvas (suavizando-as opcionalmente). Esses "traços errantes" fornecem uma imagem da distribuição bivariada dos dados e permitem uma avaliação visual imediata da correlação, linearidade do relacionamento, outliers e distribuições marginais, além de uma estimativa robusta e avaliação da qualidade do ajuste de qualquer função de regressão não linear .

2-k1 1-2-kk=1 1,2,3,

Para exibir as diferentes populações de posições, podemos tornar a largura de cada gráfico de caixa proporcional à quantidade de dados que ele representa.

A trama esquemática errante resultante seria algo parecido com isto. Os dados, conforme desenvolvidos a partir do resumo dos dados, são mostrados como pontos cinza em segundo plano. Sobre isso, foi traçada a trama esquemática errante, com os cinco traços em cores e os gráficos de caixa (incluindo os valores extremos mostrados) em preto e branco.

Figura

x=-4x=4-0,074para esses dados) é próximo de zero. No entanto, insistir em interpretar que "quase nenhuma correlação" ou "significativa mas baixa correlação" seria o mesmo erro falsificado na velha piada sobre o estatístico que estava feliz com a cabeça no forno e os pés na geladeira porque, em média, a temperatura era confortável. Às vezes, um único número não serve para descrever a situação.

Ferramentas exploratórias alternativas com propósitos semelhantes incluem suavizações robustas de quantis em janela dos dados e ajustes de regressões quantílicas usando uma variedade de quantis. Com a disponibilidade imediata do software para executar esses cálculos, eles talvez se tornem mais fáceis de executar do que um traço esquemático errante, mas eles não desfrutam da mesma simplicidade de construção, facilidade de interpretação e ampla aplicabilidade.


O Rcódigo a seguir produziu a figura e pode ser aplicado aos dados originais com pouca ou nenhuma alteração. (Ignore os avisos produzidos por bplt(chamados por bxp): reclama quando não possui discrepâncias para desenhar.)

#
# Data
#
set.seed(17)
n <- 1449
x <- sort(rnorm(n, 0, 4))
s <- spline(quantile(x, seq(0,1,1/10)), c(0,.03,-.6,.5,-.1,.6,1.2,.7,1.4,.1,.6),
            xout=x, method="natural")
#plot(s, type="l")
e <- rnorm(length(x), sd=1)
y <- s$y + e # ($ interferes with MathJax processing on SE)
#
# Calculations
#
q <- 2^(-(2:floor(log(n/10, 2))))
q <- c(rev(q), 1/2, 1-q)
n.bins <- length(q)+1
bins <- cut(x, quantile(x, probs = c(0,q,1)))
x.binmed <- by(x, bins, median)
x.bincount <- by(x, bins, length)
x.bincount.max <- max(x.bincount)
x.delta <- diff(range(x))
cor(x,y)
#
# Plot
#
par(mfrow=c(1,1))
b <- boxplot(y ~ bins, varwidth=TRUE, plot=FALSE)
plot(x,y, pch=19, col="#00000010", 
     main="Wandering schematic plot", xlab="X", ylab="Y")
for (i in 1:n.bins) {
  invisible(bxp(list(stats=b$stats[,i, drop=FALSE],
                     n=b$n[i],
                     conf=b$conf[,i, drop=FALSE],
                     out=b$out[b$group==i],
                     group=1,
                     names=b$names[i]), add=TRUE, 
                boxwex=2*x.delta*x.bincount[i]/x.bincount.max/n.bins, 
                at=x.binmed[i]))
}

colors <- hsv(seq(2/6, 1, 1/6), 3/4, 5/6)
temp <- sapply(1:5, function(i) lines(spline(x.binmed, b$stats[i,], 
                                             method="natural"), col=colors[i], lwd=2))

@EngrStudent Por favor, leia o texto desta postagem antes de executar o código. Esse aviso é mencionado e explicado.
whuber

Não entendo de onde esse vetor vem c(0,.03,-.6,.5,-.1,.6,1.2,.7,1.4,.1,.6), isso está sendo gerado e depende dos dados ( x)? Você mencionou o, 2^*(-k)mas isso não está relacionado.
Maximilian

@ Max Esse vetor gera este exemplo em particular.
whuber

ok, mas como você processou as figuras? Isto está claramente errado:k <- 1:11; ifelse(quantile(g, seq(0,1,1/10))>0, 2^(-k), 1-2^(-k))
Maximilian

@ Max Eu não consigo entender o que você pode dizer com "claramente errado". Você não pode estar se referindo ao meu código: como verificação, eu o executei novamente e ele reproduziu a figura em todos os detalhes.
whuber

6

Não acredito que o binning seja uma abordagem científica do problema. É informação perdida e arbitrária. Os métodos de classificação (ordinal; semiparamétrico) são muito melhores e não perdem informações. Mesmo se alguém se contentar com o descarte de decil, o método ainda é arbitrário e não reproduzível por outros, simplesmente por causa do grande número de definições usadas para quantis no caso de vínculos nos dados. E, como mencionado no bom comentário sobre tortura de dados acima, Howard Wainer tem um bom artigo mostrando como encontrar posições que podem produzir uma associação positiva e posições que podem produzir uma associação negativa, a partir do mesmo conjunto de dados:

 @Article{wai06fin,
   author =          {Wainer, Howard},
   title =       {Finding what is not there through the unfortunate
    binning of results: {The} {Mendel} effect},
   journal =     {Chance},
   year =        2006,
   volume =      19,
   number =      1,
   pages =       {49-56},
   annote =      {can find bins that yield either positive or negative
    association;especially pertinent when effects are small;``With four
    parameters, I can fit an elephant; with five, I can make it wiggle its
    trunk.'' - John von Neumann}
 }

Isso é o que eu suspeitava. Se você escolher diferentes números de posições, poderá encontrar a melhor correlação para mostrar o que está procurando. Mas os resultados não seriam reproduzíveis ou cientificamente válidos. Você conhece algum recurso introdutório sobre classificação?
B Seven

3
Parece uma posição excessivamente extrema a ser tomada. É claro que os métodos baseados em classificação também perdem informações: eles descartam todas as informações sobre os valores reais. Portanto, a pergunta sobre se a perda de informações é uma preocupação resume-se a por que a análise está sendo realizada? Se for para descoberta e exploração, várias formas guiadas de armazenamento podem fazer um bom trabalho, enquanto a substituição de tudo por classificações provavelmente obscurecerá e distorcerá os relacionamentos. Se for para confirmação ou teste de hipóteses, suas observações seriam mais aplicáveis ​​e defensáveis.
whuber

2
π-3πY|X

2

Dividir os dados em decis com base no X observado ("Qualidade do ponto de entrada") parece ser uma generalização de um método antigo proposto inicialmente por Wald e depois por outros para situações em que X e Y estão sujeitos a erro. (Wald dividiu os dados em dois grupos. Nair & Shrivastava e Bartlett os dividiram em três.) É descrito na seção 5C de Entendendo a análise de dados robusta e exploratória , editada por Hoaglin, Mosteller e Tukey (Wiley, 1983). No entanto, muito trabalho nesse "Erro de medição" ou "Erro nos modelos de variáveis" foi realizado desde então. Os livros que eu observei são : Erro de medição: modelos, métodos e aplicativos de John Buonaccorsi (CRC Press,

Sua situação pode ser um pouco diferente, porque seu gráfico de dispersão me leva a suspeitar que ambas as observações são variáveis ​​aleatórias e não sei se cada uma delas contém erro de medição. O que as variáveis ​​representam?


Qualidade do ponto de entrada é o quanto uma ação aumenta ou diminui no curto prazo em um determinado momento. Momento da indústria é uma medida de "momento" na indústria para o estoque no mesmo momento. A hipótese é que existe uma correlação entre o momento da indústria e o preço futuro das ações.
B Seven

11
Geralmente, colocamos a resposta no eixo vertical. A inspeção visual sugere que, mesmo se houver uma correlação real, a variação na qualidade do ponto de entrada a torna bastante inútil. Mas, como você lida com os preços das ações, as coisas ficam ainda mais complexas porque há séries temporais envolvidas.
Emil Friedman

2

Achei o pacote localgauss muito útil para isso. https://cran.r-project.org/web/packages/localgauss/index.html

O pacote contém

Rotinas computacionais para estimativa e visualização de parâmetros gaussianos locais. Os parâmetros gaussianos locais são úteis para caracterizar e testar a dependência não linear em dados bivariados.

Exemplo:

library(localgauss)
x=rnorm(n=1000)
y=x^2 + rnorm(n=1000)
lgobj = localgauss(x,y)
plot(lgobj)

Resultado:

insira a descrição da imagem aqui

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.