Explique as etapas do algoritmo LLE (incorporação linear local)?


13

Entendo que o princípio básico por trás do algoritmo para LLE consiste em três etapas.

  1. Localizando a vizinhança de cada ponto de dados por alguma métrica como k-nn.
  2. Encontre pesos para cada vizinho que denotem o efeito que o vizinho tem no ponto de dados.
  3. Construa a incorporação de baixa dimensão dos dados com base nos pesos computados.

Mas a explicação matemática das etapas 2 e 3 é confusa em todos os livros de texto e recursos online que li. Não consigo raciocinar por que as fórmulas são usadas.

Como essas etapas são executadas na prática? Existe alguma maneira intuitiva de explicar as fórmulas matemáticas usadas?

Referências: http://www.cs.nyu.edu/~roweis/lle/publications.html

Respostas:


9

A incorporação linear local (LLE) elimina a necessidade de estimar a distância entre objetos distantes e recupera a estrutura não linear global por ajustes lineares locais. O LLE é vantajoso porque não envolve parâmetros como taxas de aprendizado ou critérios de convergência. O LLE também se adapta bem à dimensionalidade intrínseca doY . A função objetivo para LLE é

ζ(Y)=(YWY)2=Y(IW)(IW)Y
A matriz de ponderaçãoW elementoswij para objectosi ej são estabelecidos para zero sej não é um vizinho mais próximo dei , caso contrário, os pesos para a K- vizinhos mais próximos do objetoi são determinados por um ajuste de mínimos quadrados de
U=Gβ
onde a variável dependente U é um vetor K×1 de um,G é umamatrizK×K Gram para todos os vizinhos mais próximos do objetoi , eβ é umK×1. Pode-se demonstrar que G é igual à matriz de distância duplamente centrada τ com elementos τ l m = - 1vetor de pesos que seguem restrições de soma para unidade. Seja D uma matriz de distância K × K×K semidefinida positiva simétrica para todos os pares dos vizinhos K-mais próximos do objeto p dimensional xiGτ
τlm=12(dlm21Kldlm21Kmdlm2+lmdlm2).
Oscoeficientes de regressãoKsão determinados numericamente usando
βK×1=(ττ)K×K1τUK×1,
e são verificados para confirmar se resumir à unidade. Os valores deβsão incorporados na linhaide Wnas várias posições da coluna correspondentes aos vizinhos K-mais próximos do objetoi, bem como os elementos de transposição. Isso é repetido para cadaiβiWii th objeto no conjunto de dados. Ele garante que, se o número de vizinhos K mais próximos for muito baixo, W poderá ser escasso, dificultando a análise própria. Observou-se que K=9 vizinhos mais próximos resultaram em matrizes W que não continham patologias durante a análise própria. A função objetivo é minimizada encontrando os menores autovalores diferentes de zero de
(IW)(IW)E=ΛDE.
A forma reduzida deX é representada porY=E ondeE tem dimensõesn×2 base nos dois valores próprios mais baixos deΛ .


"K = 9 vizinhos mais próximos" Isso não depende da dimensionalidade de ? Por exemplo, se Y tiver menos de 9 dimensões, a matriz de pesos W não será determinada exclusivamente. Isso causa problemas com o LLE? YYW
Scott Scott

Sim, mas se houver, digamos, 8 dimensões, então, para dados aleatórios, literalmente todos os pontos podem ser escritos perfeitamente como uma combinação linear de 9 outros, em um número infinito de maneiras.
Scott

Sempre existem cenários "e se" ao implementar uma técnica, e é por isso que restrições de parâmetro são usadas.
#
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.