O que significa quando dizemos que a maioria dos pontos em um hipercubo está no limite?

Se eu tiver um hipercubo de 50 dimensões. E eu defino seu limite por ou onde é a dimensão do hipercubo. O cálculo da proporção de pontos no limite do hipercubo será de . O que isso significa? Isso significa que o restante do espaço está vazio? Se dos pontos estiverem no limite, os pontos dentro do cubo não devem ser distribuídos uniformemente? $0<x_j<0.05$ $0.95<x_j<1$ $x_j$ $0.995$ $99\%$

machine-learning math

— Rohit Kumar Singh
fonte

Não, isso significa que a periferia é mais espaçosa e o efeito é proporcional à dimensionalidade. É um tanto contra-intuitivo. Esse fenômeno tem consequências na distribuição da distância entre pares aleatórios de nós que se tornam relevantes quando você deseja agrupar ou calcular vizinhos mais próximos em espaços de alta dimensão.

— Emre

Calcule qual proporção dos pontos em um segmento de linha está perto de seu limite. Depois aponta para um quadrado. Em seguida, aponta em um cubo. O que você pode dizer sobre eles?

— user253751

Respostas:

Falar em dos pontos em um hipercubo ' é um pouco enganador, pois um hipercubo contém infinitamente muitos pontos. Vamos falar sobre o volume. $99\%$

O volume de um hipercubo é o produto de seus comprimentos laterais. Para a unidade hypercube 50 dimensional chegarmos

Total volume = \underset{50 times}{\underset{⏟}{1 \times 1 \times \dots \times 1}} = 1^{50} = 1

$\text{Total volume} = \underbrace{1 \times 1 \times \dots \times 1}_{50 \text{ times}} = 1^{50} = 1.$

Agora vamos excluir os limites do hipercubo e olhar para o ' interior ' (coloquei entre aspas porque o termo matemático interior tem um significado muito diferente). Mantemos apenas os pontos $x = (x_1, x_2, \dots, x_{50})$ que satisfazem

0,05 < x_{1 1} < 0,95 e 0,05 < x_{2} < 0,95 e \dots e 0,05 < x_{50.} < 0,95.

$0.05 < x_1 < 0.95 \,\text{ and }\, 0.05 < x_2 < 0.95 \,\text{ and }\, \dots \,\text{ and }\, 0.05 < x_{50} < 0.95.$ Qual é o volume desse 'interior'? Bem, o 'interior' é novamente um hipercubo, e o comprimento de cada lado é

0.9

$0.9$ (

= 0.95 - 0.05

$=0.95 - 0.05$ ... ajuda a imaginar isso em duas e três dimensões). Assim, o volume é

Volume interior = \underset{50. vezes}{\underset{⏟}{0,9 \times 0,9 \times \dots \times 0,9}} = {0,9}^{50.} \approx 0,005.

$\text{Interior volume} = \underbrace{0.9 \times 0.9 \times \dots \times 0.9}_{50 \text{ times}} = 0.9^{50} \approx 0.005.$ Conclua que o volume do 'limite' (definido como o hipercubo unitário sem o 'interior ') é

1 - {0.9}^{50} \approx 0.995.

$1 - 0.9^{50} \approx 0.995.$

Isso mostra que $99.5\%$ do volume de um hipercubo de 50 dimensões está concentrado em seu ' limite '.

Acompanhamento: Inácio levantou uma questão interessante sobre como isso está relacionado à probabilidade. Aqui está um exemplo.

Digamos que você tenha apresentado um modelo (aprendizado de máquina) que prevê os preços da habitação com base em 50 parâmetros de entrada. Todos os 50 parâmetros de entrada são independentes e distribuídos uniformemente entre $0$ e $1$ .

Digamos que seu modelo funcione muito bem se nenhum dos parâmetros de entrada for extremo: desde que todos os parâmetros de entrada fiquem entre $0.05$ e $0.95$ , seu modelo prediz o preço da moradia quase perfeitamente. Mas se um ou mais parâmetros de entrada forem extremos (menores que $0.05$ ou maiores que $0.95$ ), as previsões do seu modelo são absolutamente terríveis.

Qualquer parâmetro de entrada é extremo, com uma probabilidade de apenas $10\%$ . Claramente, este é um bom modelo, certo? Não! A probabilidade de pelo menos um dos $50$ parâmetros ser extrema é $1 - 0.9^{50} \approx 0.995.$ Portanto, em $99.5\%$ dos casos, a previsão do seu modelo é terrível.

Regra prática : em grandes dimensões, observações extremas são a regra e não a exceção.

— Elias Strehle
fonte

Vale a pena usar a citação do OP "Isso significa que o restante do espaço está vazio?" e respondendo: Não, isso significa que o restante do espaço é relativamente pequeno . . . Ou similar em suas próprias palavras. . .

— Neil Slater

Muito bom explicação do termo "maldição da dimensionalidade"

— Ignatius

Pensando se o seguinte está correto: usando este exemplo, se um conjunto de recursos estiver distribuído igualmente ao longo de [0,1] em cada uma das 50 dimensões, (99,5% -0,5%) = 99% do volume (recurso de hipercubo espaço) capta apenas os valores de% de 10 de cada recurso

— ignatius

"Qualquer parâmetro de entrada é extremo, com uma probabilidade de apenas 5%." Eu acho que essa probabilidade é de 10%.

— Rodvi 01/02

@ Rodvi: Você está certo, claro, obrigado! Corrigido.

— Elias Strehle 03/02

Você pode ver o padrão claramente, mesmo em dimensões inferiores.

1ª dimensão. Pegue uma linha de comprimento 10 e um limite de 1. O comprimento do limite é 2 e a proporção interna 8, 1: 4.

2ª dimensão. Pegue um quadrado do lado 10 e o limite 1 novamente. A área do limite é 36, a proporção 64 interior, 9:16.

3ª dimensão. Mesmo comprimento e limite. O volume do limite é 488, o interior é 512, 61:64 - já o limite ocupa quase tanto espaço quanto o interior.

4ª dimensão, agora o limite é 5904 e o interior 4096 - o limite agora é maior.

Mesmo para comprimentos de limite cada vez menores, à medida que a dimensão aumenta, o volume do limite sempre ultrapassa o interior.

— HP Williams
fonte

A melhor maneira de "entendê-lo" (embora seja impossível para o ser humano) é comparar os volumes de uma bola n-dimensional e de um cubo n-dimensional. Com o crescimento de n (dimensionalidade), todo o volume da bola "vaza" e se concentra nos cantos do cubo. Este é um princípio geral útil a ser lembrado na teoria da codificação e em suas aplicações.

A melhor explicação do livro está no livro de Richard W. Hamming "Teoria da codificação e informação" (3.6 Geometric Approach, p. 44).

O pequeno artigo da Wikipedia fornecerá um breve resumo do mesmo se você tiver em mente que o volume de um cubo de unidade n-dimensional é sempre 1 ^ n.

Eu espero que isso ajude.

— Alex Fedotov
fonte