Estimando a dimensão de um conjunto de dados


9

Um colega em estatística aplicada me enviou o seguinte:

"Gostaria de saber se você conhece alguma maneira de descobrir a verdadeira dimensão do domínio de uma função. Por exemplo, um círculo é uma função unidimensional em um espaço bidimensional. Se eu não souber desenhar, existe uma estatística que eu posso calcular que me diz que é um objeto unidimensional em um espaço bidimensional? Eu tenho que fazer isso em situações de alta dimensão para que não possa desenhar imagens. Qualquer ajuda será muito apreciada. "

A noção de dimensão aqui é obviamente mal definida. Quero dizer, eu poderia fazer uma curva através de qualquer coleção finita de pontos no espaço dimensional alto e dizer que meus dados são unidimensionais. Mas, dependendo da configuração, pode haver uma maneira mais fácil ou mais eficiente de descrever os dados como um conjunto dimensional mais alto.

Tais questões devem ter sido consideradas na literatura estatística, mas não estou familiarizado com isso. Alguma sugestão ou sugestão? Obrigado!

Respostas:


7

Vejo

Levina, E. e Bickel, P. (2004) "Estimativa de máxima verossimilhança da dimensão intrínseca". Avanços nos sistemas de processamento de informações neurais 17

http://books.nips.cc/papers/files/nips17/NIPS2004_0094.pdf

A idéia deles é que, se os dados são amostrados a partir de uma densidade suave em incorporada em com , localmente, o número de pontos de dados em uma pequena bola de raio se comporta aproximadamente como um processo de Poisson. A taxa do processo está relacionada ao volume da bola, que por sua vez está relacionado à dimensão intrínseca.RmRpm<pt


1
+1 Boa descoberta! O artigo também apresenta uma breve discussão sobre a abordagem do PCA (assim como alguns outros métodos).
whuber

Muito obrigado, acho que este é o mais próximo do que meu colega estava procurando.

7

Componentes principais A análise dos dados locais é um bom ponto de partida. Temos que tomar alguns cuidados, no entanto, para distinguir a dimensão local (intrínseca) da global (extrínseca). No exemplo de pontos em um círculo, a dimensão local é 1, mas no geral os pontos dentro do círculo estão em um espaço 2D. Para aplicar o PCA a isso, o truque é localizar : selecione um ponto de dados e extraia apenas aqueles que estão próximos. Aplique o PCA a este subconjunto. O número de grandes autovalores sugerirá a dimensão intrínseca. Repetir isso em outros pontos de dados indicará se os dados exibem uma dimensão intrínseca constante. Nesse caso, cada um dos resultados do PCA fornece um atlas parcial do coletor.


Muito obrigado pela sua resposta. Vou passar para o meu colega.

3

Não tenho certeza sobre a parte "domínio de uma função", mas a Hausdorff Dimension parece responder a essa pergunta. Tem a propriedade estranha de concordar com exemplos simples ( por exemplo, o círculo possui a Dimensão 1 de Hausdorff), mas de fornecer resultados não integrais para alguns conjuntos ('fractais').


1
Eu diria até a dimensão da contagem de caixas para uma estatística mais prática.
Raskolnikov

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.