Se o seu interesse principal for problemas bidimensionais, eu diria que a estimativa da densidade do kernel é uma boa opção porque possui boas propriedades assintóticas (observe que não estou dizendo que é a melhor). Veja por exemplo
Parzen, E. (1962). Na estimativa de uma função e modo de densidade de probabilidade . Annals of Mathematics Statistics 33: 1065-1076.
de Valpine, P. (2004). Probabilidades do espaço de estado de Monte Carlo por estimativa ponderada da densidade do núcleo posterior . Jornal da Associação Estatística Americana 99: 523-536.
Para dimensões mais altas (4+), esse método é realmente lento devido à conhecida dificuldade em estimar a matriz de largura de banda ideal, consulte .
Agora, o problema com o comando ks
no pacote KDE
é, como você mencionou, que ele avalia a densidade em uma grade específica, o que pode ser muito limitante. Este problema pode ser resolvido se você usar o pacote KDE
para estimar a matriz de largura de banda, usando, por exemplo Hscv
, implementar o estimador de densidade de Kernel e, em seguida, otimizar essa função usando o comando optim
. Isso é mostrado abaixo usando dados simulados e um kernel Gaussiano no R
.
rm(list=ls())
# Required packages
library(mvtnorm)
library(ks)
# simulated data
set.seed(1)
dat = rmvnorm(1000,c(0,0),diag(2))
# Bandwidth matrix
H.scv=Hlscv(dat)
# [Implementation of the KDE](http://en.wikipedia.org/wiki/Kernel_density_estimation)
H.eig = eigen(H.scv)
H.sqrt = H.eig$vectors %*% diag(sqrt(H.eig$values)) %*% solve(H.eig$vectors)
H = solve(H.sqrt)
dH = det(H.scv)
Gkde = function(par){
return( -log(mean(dmvnorm(t(H%*%t(par-dat)),rep(0,2),diag(2),log=FALSE)/sqrt(dH))))
}
# Optimisation
Max = optim(c(0,0),Gkde)$par
Max
Estimadores com restrição de forma tendem a ser mais rápidos, por exemplo
Cule, ML, Samworth, RJ e Stewart, MI (2010). Estimativa de máxima verossimilhança de uma densidade log-côncava multidimensional . Revista Royal Statistical Society B 72: 545–600.
Mas eles estão muito altos para esse fim.
4
Outros métodos que você pode considerar usar são: ajustar uma mistura finita multivariada de normais (ou outras distribuições flexíveis) ou
Abraham, C., Biau, G. e Cadre, B. (2003). Estimativa simples do modo de uma densidade multivariada . The Canadian Journal of Statistics 31: 23–34.
Eu espero que isso ajude.