Se larguras variáveis do kernel costumam ser boas para a regressão do kernel, por que geralmente não são boas para a estimativa da densidade do kernel?

Esta questão é motivada por discussões em outros lugares .

Núcleos variáveis são frequentemente usados na regressão local. Por exemplo, o loess é amplamente usado e funciona bem como uma regressão mais suave, e é baseado em um kernel de largura variável que se adapta à escassez de dados.

Por outro lado, geralmente considera-se que os núcleos variáveis levam a estimadores ruins na estimativa da densidade do núcleo (ver Terrell e Scott, 1992 ).

Existe uma razão intuitiva pela qual eles funcionariam bem para regressão, mas não para estimativa de densidade?

— Rob Hyndman
fonte

Você escreveu "Por outro lado, acredita-se que os kernels variáveis levam a estimadores ruins na estimativa da densidade do kernel", qual é a parte do artigo que você menciona que faz você acreditar nisso? Tenho abundância de referências que vão em outro derection, ver, por exemplo, as referências citadas neste trabalho: arxiv.org/PS_cache/arxiv/pdf/1009/1009.1016v1.pdf

— robin Girard

O resumo de Terrell e Scott resume bem: "Os estimadores de vizinhos mais próximos em todas as versões apresentam desempenho fraco em uma e duas dimensões". Eles apenas parecem encontrar muita vantagem na estimativa de densidade multivariada.

— Rob Hyndman

"Vizinho mais próximo" não é o único kernel variável. Os artigos que mencionei usam outra ferramenta, como o algoritmo de Lepskii. Vou ler o artigo da AOS, mas como as performances do vizinho mais próximo devem diminuir com a dimensão, achei estranho que aumentar a dimensão ofereça vantagens para um estimador "muito não paramétrico" (se admitirmos que a largura de banda constante é menos não paramétrica do que largura de banda variável). Nesse tipo de situação, o caso de avaliação usado geralmente determina os resultados ...

— robin girard 19/10/10

@ Robin Girard:> * achou estranho que aumentar a dimensão ofereça vantagens a um estimador "muito não paramétrico" (se admitirmos que a largura de banda constante é mais não paramétrica do que a largura de banda variável) * há um erro de digitação nesta frase? Caso contrário, você parece concordar com os autores, pelo menos em um nível intuitivo. Obrigado por confirmar / corrigir.

— user603

@kwak obrigado por perceber isso! este é um erro de digitação: Eu queria dizer largura de banda constante é menos NP ... Eu não posso modificar o meu comentário :( sinto muito por isso.

— robin Girard

Respostas:

Parece haver duas perguntas diferentes aqui, que tentarei dividir:

1) como o KS, suavização do kernel, diferente do KDE, estimativa de densidade do kernel? Bem, digamos que eu tenho um estimador / mais suave / interpolador

est( xi, fi -> gridj, estj )

e também conhece a densidade "real" f () no xi. Então a execução est( x, densityf ) deve fornecer uma estimativa de densityf (): a KDE. Pode ser que os KSs e KDEs sejam avaliados de maneira diferente - critérios de suavidade diferentes, normas diferentes - mas não vejo uma diferença fundamental. O que estou perdendo ?

2) Como a dimensão afeta a estimativa ou suavização, intuitivamente ? Aqui está um exemplo de brinquedo, apenas para ajudar a intuição. Considere uma caixa de N = 10000 pontos em uma grade uniforme e uma janela, uma linha ou quadrado ou cubo de W = 64 pontos dentro dela:

                1d          2d          3d          4d
---------------------------------------------------------------
data            10000       100x100     22x22x22    10x10x10x10
side            10000       100         22          10
window          64          8x8         4x4x4       2.8^4
side ratio      .64 %       8 %         19 %        28 %
dist to win     5000        47          13          7

Aqui, "proporção lateral" é o lado da janela / lado da caixa e "dist to win" é uma estimativa aproximada da distância média de um ponto aleatório na caixa até uma janela colocada aleatoriamente.

Isso faz algum sentido ? (Uma imagem ou applet realmente ajudaria: alguém?)

A idéia é que uma janela de tamanho fixo em uma caixa de tamanho fixo tenha uma proximidade muito diferente do restante da caixa, em 1d 2d 3d 4d. Isto é para uma grade uniforme; talvez a forte dependência da dimensão seja transferida para outras distribuições, talvez não. De qualquer forma, parece um forte efeito geral, um aspecto da maldição da dimensionalidade.

— denis
fonte

Estimativa de densidade do kernel significa integração em uma janela local (difusa), e suavização do kernel significa média em uma janela local (difusa).

Suavização do kernel: . $\tilde y(x) \propto \frac 1 {\rho(x)} \sum K(||x-x_i||)\,y_i$

Estimativa da densidade do kernel: . $\rho(x) \propto \sum K(||x-x_i||)$

Como são os mesmos?

Considere amostras de uma função com valor booleano, isto é, um conjunto contendo "amostras verdadeiras" (cada uma com valor unitário) e "amostras falsas" (cada uma com valor zero). Supondo que a densidade geral da amostra seja constante (como uma grade), a média local dessa função é idêntica proporcional à densidade local (parcial) do subconjunto com valor real. (As amostras falsas nos permitem desconsiderar constantemente o denominador da equação de suavização, adicionando zero termos ao somatório, para simplificar a equação de estimativa de densidade.)

Da mesma forma, se suas amostras forem representadas como elementos esparsos em uma varredura booleana, você poderá estimar sua densidade aplicando um filtro de desfoque na varredura.

Como isso é diferente?

Intuitivamente, você pode esperar que a escolha do algoritmo de suavização dependa se as medidas da amostra contêm ou não um erro significativo.

Em um extremo (sem ruído), você simplesmente precisa interpolar entre os valores exatamente conhecidos nos locais da amostra. Digamos, pela triangulação de Delaunay (com interpolação bilinear por partes).

A estimativa de densidade se assemelha ao extremo oposto, é totalmente ruído, pois a amostra isolada não é acompanhada por uma medida do valor da densidade naquele ponto. (Portanto, não há nada para simplesmente interpolar. Você pode medir as áreas de células do diagrama de Voronoi, mas a suavização / suavização ainda será importante.)

O ponto é que, apesar da semelhança, esses são problemas fundamentalmente diferentes, portanto, abordagens diferentes podem ser ótimas.

— benjimin
fonte

Se larguras variáveis ​​do kernel costumam ser boas para a regressão do kernel, por que geralmente não são boas para a estimativa da densidade do kernel?

Se larguras variáveis do kernel costumam ser boas para a regressão do kernel, por que geralmente não são boas para a estimativa da densidade do kernel?