O mapa auto-organizado (SOM) é uma grade de preenchimento de espaço que fornece uma redução de dimensionalidade discreta dos dados.
Você começa com um espaço de alta dimensão de pontos de dados e uma grade arbitrária que fica nesse espaço. A grade pode ter qualquer dimensão, mas geralmente é menor que a dimensão do seu conjunto de dados e geralmente é 2D, porque é fácil de visualizar.
Para cada dado no seu conjunto de dados, você encontra o ponto de grade mais próximo e "puxa" esse ponto de grade em direção ao conjunto de dados. Você também puxa cada um dos pontos de grade vizinhos em direção à nova posição do primeiro ponto de grade. No início do processo, você puxa muitos vizinhos em direção ao ponto de dados. Posteriormente no processo, quando sua grade estiver começando a preencher o espaço, você moverá menos vizinhos, e isso funcionará como uma espécie de ajuste fino. Esse processo resulta em um conjunto de pontos no espaço de dados que se encaixam razoavelmente bem na forma do espaço, mas também podem ser tratados como uma grade de menor dimensão.
Esse processo é bem explicado por duas imagens da página 1468 do artigo de Kohonen em 1990 :
Esta imagem mostra um mapa unidimensional em uma distribuição uniforme em um triângulo. A grade começa como uma bagunça no centro e é gradualmente puxada para uma curva que preenche o triângulo razoavelmente bem, dado o número de pontos da grade:
A parte esquerda desta segunda imagem mostra uma grade 2D SOM preenchendo de perto o espaço definido pela forma do cacto à esquerda:
Há um vídeo do processo do SOM usando uma grade 2D em um espaço 2D e em um espaço 3D no youtube.
Agora, cada um dos pontos de dados originais no espaço tem um vizinho mais próximo ao qual está atribuído. A grade é, portanto, o centro dos agrupamentos de pontos de dados. A grade fornece a redução de dimensionalidade.
Aqui está uma comparação da redução de dimensionalidade usando a análise de componentes principais (PCA), na página do SOM na wikipedia :
Percebe-se imediatamente que o SOM unidimensional fornece um ajuste muito melhor aos dados, explicando mais de 93% da variação, em comparação com 77% no PCA. No entanto, até onde sei, não há uma maneira fácil de explicar a variação restante, como existe no PCA (usando dimensões extras), pois não há uma maneira clara de desembrulhar os dados em torno da grade discreta do SOM.