Diferentes métodos não paramétricos para estimar a distribuição de probabilidade dos dados

Eu tenho alguns dados e estava tentando ajustar uma curva suave para ele. No entanto, não quero impor muitas crenças anteriores ou pré-concepções muito fortes (exceto as implícitas pelo restante da minha pergunta) sobre ela, ou quaisquer distribuições específicas.

Eu só queria ajustá-lo com alguma curva suave (ou ter uma boa estimativa da distribuição de probabilidade da qual ela pode ter vindo). O único método que conheço para fazer isso é a estimativa de densidade do kernel (KDE). Fiquei me perguntando, se as pessoas sabiam de outros métodos para estimar uma coisa dessas. Eu só queria uma lista deles e com isso eu posso fazer minha própria pesquisa para descobrir quais eu quero usar.

Fornecer links ou boas referências (ou intuições sobre quais são boas) é sempre bem-vindo (e incentivado)!

estimation nonparametric references

— Pinóquio
fonte

" Eu não queria impor nenhuma crença prévia" - então você não pode assumir que é suave ou mesmo contínuo (essas seriam crenças anteriores). Nesse caso, o ecdf é sobre seu único recurso.

— Glen_b -Reinstala Monica

Acreditar que seja a melhor maneira de formular minha pergunta. Eu quis dizer que não quero assumir sua opinião, Bernoulli ou algo que possa ser restritivo. Não sei o que é ecdf. Se você tem uma boa sugestão ou lista de sugestões, fique à vontade para publicá-la.

— Pinocchio

Eu atualizei minha pergunta. Isto é melhor? Mais claro? A propósito, não há resposta certa para minha pergunta, apenas boas e menos úteis. :)

— Pinocchio

ecdf = cdf empírico , desculpe. Só podemos responder à pergunta que você faz, e não à que você queria fazer; portanto, você deve ter cuidado para ser claro ao expressar suas suposições.

— Glen_b -Reinstala Monica

Um histograma normalizado pode ser visto como uma estimativa da densidade

— Dason

Respostas:

Você não especifica que está falando sobre variáveis aleatórias contínuas, mas assumirei, desde que você mencionou o KDE, que pretende isso.

Dois outros métodos para ajustar densidades suaves:

1) estimativa da densidade log-spline. Aqui, uma curva spline é ajustada à densidade do log.

Um artigo de exemplo:

Kooperberg e Stone (1991),
"A study of logspline density estimation",
Computational Statistics & Data Analysis , 12 , 327-347

Kooperberg fornece um link para um pdf de seu artigo aqui , em "1991".

Se você usa R, há um pacote para isso. Um exemplo de ajuste gerado por ele está aqui . Abaixo está um histograma dos logs dos dados definidos lá e reproduções das estimativas de densidade de kernel e linha de logs da resposta:

histograma de dados de log

Estimativa da densidade do logspline:

plotagem de logs

Estimativa da densidade do kernel:

estimativa da densidade do núcleo

2) Modelos de mistura finita . Aqui é escolhida uma família conveniente de distribuições (em muitos casos, a normal), e a densidade é assumida como uma mistura de vários membros diferentes dessa família. Observe que as estimativas de densidade do kernel podem ser vistas como uma mistura desse tipo (com um kernel gaussiano, elas são uma mistura de gaussianos).

Em geral, eles podem ser ajustados via ML, ou pelo algoritmo EM, ou em alguns casos via correspondência de momentos, embora em circunstâncias particulares outras abordagens possam ser viáveis.

(Há uma infinidade de pacotes R que fazem várias formas de modelagem de mistura.)

Adicionado na edição:

3) Histogramas deslocados médios
(que não são literalmente suaves, mas talvez suaves o suficiente para seus critérios não declarados):

Imagine calcular uma sequência de histogramas em uma largura de caixa fixa ( $b$ ), em uma origem de compartimento que muda de $b/k$ para algum número inteiro $k$ cada vez e, em seguida, calculada a média. Parece, à primeira vista, um histograma feito com largura de caixa $b/k$ , mas é muito mais suave.

Por exemplo, calcule 4 histogramas cada um na largura da caixa 1, mas compensados por + 0, + 0,25, + 0,5, + 0,75 e, em seguida, calcule a média das alturas em qualquer dado $x$ . Você acaba com algo assim:

Histograma médio desviado

Diagrama retirado desta resposta . Como eu disse lá, se você for para esse nível de esforço, poderá fazer uma estimativa da densidade do kernel.

— Glen_b -Reinstate Monica
fonte

Para adicionar a isso. Para o modelo de mistura - Eu acho que você poderia caber uma mistura de 2, depois 3, depois 4 distribuições e parada depois não há nenhum aumento significativo no log-verossimilhança ou algo assim ...

— waferthin

Sujeito aos comentários acima sobre suposições como suavidade, etc. Você pode fazer uma estimativa de densidade não paramétrica bayesiana usando modelos de mistura com o processo de Dirichlet anteriormente.

A figura abaixo mostra os contornos da densidade de probabilidade recuperados da estimativa do MCMC de um modelo de mistura de DP normal bivariada para os dados dos 'velhos fiéis'. Os pontos são coloridos de acordo com o IIRC, de acordo com o agrupamento obtido na última etapa do MCMC.

insira a descrição da imagem aqui

O ano de 2010 fornece bons antecedentes.

— conjecturas
fonte

Uma escolha popular é a floresta aleatória (veja concretamente o capítulo cinco de " Florestas de Decisão: Uma Estrutura Unificada para Classificação, Regressão, Estimativa de Densidade, Aprendizagem Manifold e Aprendizagem Semi-Supervisionada ").

Ele descreve em detalhes o algoritmo e o avalia em relação a outras opções populares como k-means, GMM e KDE. A floresta aleatória é implementada no R e no scikit-learn.

Random Forest são árvores de decisão ensacadas de maneira inteligente.

— jpmuc
fonte