Suavização - quando usá-lo e quando não?


18

Há um post bastante antigo no blog de William Briggs, que analisa as armadilhas de suavizar dados e transportá-los para análise. O argumento principal é:

Se, em um momento de insanidade, você suaviza dados de séries temporais e os utiliza como entrada para outras análises, aumenta drasticamente a probabilidade de se enganar! Isso ocorre porque a suavização induz sinais espúrios - sinais que parecem reais para outros métodos analíticos. Não importa o que você tenha certeza dos seus resultados finais!

No entanto, estou lutando para encontrar discussões abrangentes sobre quando suavizar e quando não.

É desagradável apenas suavizar ao usar esses dados suavizados como entrada para outras análises ou há outras situações em que a suavização não é recomendada? Por outro lado, existem situações em que a suavização é recomendada?


1
A maioria das aplicações de análise de séries temporais é algum tipo de suavização, mesmo quando não é descrita como tal. A suavização pode ser usada como um dispositivo exploratório ou de resumo - em alguns campos, mesmo que seja o principal ou o único método usado - ou para remover recursos que são considerados incômodos ou de interesse secundário para alguma finalidade.
Nick Cox

4
Isenção de responsabilidade: eu não li a postagem do blog inteira citada. Não consegui superar os erros elementares ("séries temporais", "Monte Carol") e seu tom e estilo não eram atraentes. Mas eu não recomendaria tentar aprender os princípios da análise de séries temporais ou estatísticas em geral, através do blog de qualquer pessoa.
Nick Cox

@NickCox Concordou, e especialmente não em um blog que parece ter um machado para moer.
Hong Ooi

@HongOoi Yes! Excluí algumas frases de escolha de um rascunho do meu comentário que poderiam parecer menos opinativas do que o próprio blog.
Nick Cox

1
Eu pegaria tudo o que Briggs escreve com um grão de sal.
Momo

Respostas:


16

A suavização exponencial é uma técnica clássica usada na previsão de séries temporais não causais. Desde que você o use apenas em previsões diretas e não use ajustes suavizados na amostra como entrada para outro algoritmo estatístico ou de mineração de dados, a crítica de Briggs não se aplica. (Por conseguinte, sou cético em usá-lo "para produzir dados suavizados para apresentação", como diz a Wikipedia - isso pode ser enganoso, ocultando a variabilidade suavizada.)

Aqui está uma introdução ao Suavização exponencial.

E aqui está um artigo de revisão (com 10 anos, mas ainda relevante).


EDIT: parece haver alguma dúvida sobre a validade da crítica de Briggs, possivelmente um pouco influenciada por sua embalagem . Concordo plenamente que o tom de Briggs pode ser abrasivo. No entanto, gostaria de ilustrar por que acho que ele tem razão.

Abaixo, estou simulando 10.000 pares de séries temporais, com 100 observações cada. Todas as séries são ruído branco, sem nenhuma correlação. Portanto, a execução de um teste de correlação padrão deve gerar valores de p uniformemente distribuídos em [0,1]. Como está (histograma à esquerda abaixo).

No entanto, suponha que primeiro suavizemos cada série e aplicemos o teste de correlação aos dados suavizados . Algo surpreendente aparece: como removemos muita variabilidade dos dados, obtemos valores de p muito pequenos . Nosso teste de correlação é fortemente tendencioso. Portanto, teremos certeza de qualquer associação entre a série original, que é o que Briggs está dizendo.

A questão realmente depende de usarmos os dados suavizados para previsão, caso em que a suavização é válida ou se os incluiremos como entrada em algum algoritmo analítico, caso em que a remoção da variabilidade simulará uma certeza mais alta em nossos dados do que é garantido. Essa certeza injustificada nos dados de entrada é realizada até os resultados finais e precisa ser contabilizada; caso contrário, todas as inferências serão muito certas. (E, é claro, também obteremos intervalos de previsão muito pequenos se usarmos um modelo baseado em "certeza inflada" para previsão).

n.series <- 1e4
n.time <- 1e2

p.corr <- p.corr.smoothed <- rep(NA,n.series)
set.seed(1)
for ( ii in 1:n.series ) {
    A <- rnorm(n.time)
    B <- rnorm(n.time)
    p.corr[ii] <- cor.test(A,B)$p.value
	p.corr.smoothed[ii] <- cor.test(lowess(A)$y,lowess(B)$y)$p.value
}

par(mfrow=c(1,2))
hist(p.corr,col="grey",xlab="",main="p values\nunsmoothed data")
hist(p.corr.smoothed,col="grey",xlab="",main="p values\nsmoothed data")

valores p


1
Eu consideraria axiomático para uma boa análise de séries temporais que nenhum resultado seja mostrado sem que os dados brutos também sejam mostrados.
Nick Cox

1

Alegar que a suavização é inadequada para uma análise de modelagem condena-a a ter um erro quadrático médio mais alto do que poderia. O erro quadrático médio ou MSE pode ser decomposto em três termos, um quadrado de um valor chamado `` viés '', uma variação e algum erro irredutível. (Isso é mostrado nas citações abaixo.) Modelos excessivamente suavizados têm um viés alto, mesmo se eles tiverem baixa variação, e modelos muito ásperos têm altas variações e baixo viés.

Não há nada filosófico sobre isso. É uma caracterização matemática. Não depende do caráter do ruído ou do caráter do sistema.

Vejo:

http://scott.fortmann-roe.com/docs/BiasVariance.html

https://galton.uchicago.edu/~lafferty/pdf/nonparam.pdf

http://www.inf.ed.ac.uk/teaching/courses/mlsc/Notes/Lecture4/BiasVariance.pdf (isso tem a derivação da decomposição.)

http://www.cs.columbia.edu/~blei/fogm/2015F/notes/regularized-regression.pdf (Blei faz o mesmo de uma maneira diferente e traz o que acontece quando se tenta prever).

As estatísticas clássicas quase sempre insistiam em estimativas imparciais. Em 1955, o estatístico Charles Stein, de Stanford, mostrou que havia combinações de estimadores imparciais que apresentaram menor EME para casos especiais importantes, notadamente o que se tornou chamado ESTIMADORES DE JAMES-STEIN. Bradley Efron escreveu um texto muito acessível sobre esta revolução em insight: http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.