Largura de banda do kernel na estimativa de densidade do kernel


10

Estou fazendo uma estimativa da densidade do Kernel, com um conjunto de pontos ponderados (ou seja, cada amostra tem um peso que não é necessário), em N dimensões. Além disso, essas amostras estão apenas em um espaço métrico (ou seja, podemos definir uma distância entre elas), mas nada mais. Por exemplo, não podemos determinar a média dos pontos da amostra, nem o desvio padrão, nem dimensionar uma variável em comparação com outra. O Kernel é afetado apenas por essa distância e o peso de cada amostra:

f(x)=1.weightsiweightihKernel(distance(x,xi)h)

Neste contexto, estou tentando encontrar uma estimativa robusta para a largura de banda do kernel , possivelmente com variação espacial e, de preferência, que dê uma reconstrução exata no conjunto de dados de treinamento . Se necessário, poderíamos assumir que a função é relativamente suave.x ihxi

Tentei usar a distância para o primeiro ou o segundo vizinho mais próximo, mas isso dá resultados muito ruins. Tentei com a otimização deixar de fora, mas tenho dificuldades em encontrar uma boa medida para otimizar nesse contexto no Nd, por isso encontra estimativas muito ruins, especialmente para as próprias amostras de treinamento. Não posso usar a estimativa gananciosa com base na suposição normal, pois não posso calcular o desvio padrão. Encontrei referências usando matrizes de covariância para obter núcleos anisotrópicos, mas, novamente, ele não se sustentaria neste espaço ...

Alguém tem uma ideia ou uma referência?


Se você pode medir a distância, pode medir uma média. Isso está certo? Eu poderia dizer "Estou usando a distância do cosseno para as palavras", para que uma "palavra má realmente não tenha muito significado", mas não vejo por que ela ainda não pôde ser calculada. Você poderia dizer que está em um espaço ordinal, portanto a média não é continuamente valorizada. Por que o meio é indefinível?
precisa saber é o seguinte

Respostas:


3

Um ponto de partida seria o estimador do vizinho mais próximo de Silverman , mas acrescentando os pesos de alguma forma. (Não sei exatamente para que servem seus pesos aqui.) O método do vizinho mais próximo pode evidentemente ser formulado em termos de distâncias. Acredito que seu primeiro e segundo método vizinho mais próximo sejam versões do método vizinho mais próximo, mas sem uma função do kernel e com um pequeno valor de .k


2

No Matlab File Exchange, existe uma função kde que fornece a largura de banda ideal com a premissa de que um kernel Gaussiano é usado: Estimador de densidade de kernel .

Mesmo se você não usar o Matlab, poderá analisar esse código para obter o método de cálculo da largura de banda ideal. Esta é uma função altamente classificada na troca de arquivos e eu a usei muitas vezes.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.