Escolhendo os hiperparâmetros usando T-SNE para classificação

13

No problema específico em que trabalho (uma competição), tenho a seguinte configuração: 21 recursos (numéricos em [0,1]) e uma saída binária. Eu tenho aproximadamente 100 mil linhas. A configuração parece ser muito barulhenta.

Eu e outros participantes aplicamos a geração de recursos por um tempo e a incorporação estocástica de vizinhos distribuídos em t se mostrou bastante poderosa nesse cenário.

Eu me deparei com este post "Como usar o t-SNE efetivamente", mas ainda não consigo realmente concluir sobre como escolher os hiperparâmetros melhores na minha configuração de classificação.

Existem regras práticas (número de recursos, dimensão da incorporação -> escolha da perplexidade)?

Apenas aplico configurações ad-hoc no momento, pois leva muito tempo para iterar várias configurações. Obrigado por qualquer comentário.

— Ric
fonte

Esta é uma grande pergunta! Espero que alguém ache minha resposta sem brilho o suficiente para que você obtenha outra resposta (e eu também aprendo algo novo).

— usεr11852 diz Reinstate Monic

17

$t$

$t$ -SNE está tentando minimizar a soma das divergências de Kullback-Leibler entre a distribuição das distâncias entre os dados no domínio original e a distribuição das distâncias entre os dados no domínio de dimensão reduzida (na verdade, as distribuições de destino são as distribuições dos probabilidades de um ponto escolher outro ponto como seu vizinho, mas são diretamente proporcionais à distância entre os dois pontos). Pode-se argumentar que valores menores de divergência KL mostram melhores resultados. Essa idéia não funciona muito bem na prática, mas teoricamente ajudaria a excluir alguns intervalos dos valores de perplexidade, bem como algumas execuções do algoritmo que são claramente abaixo do ideal. Explico por que essa heurística está longe de ser uma panacéia e como poderia ser levemente útil: O parâmetro perplexity aumenta monotonicamente com a variação do Gaussian usado para calcular as distâncias / probabilidades. Portanto, à medida que você aumenta o parâmetro de perplexidade como um todo, você obtém distâncias menores em termos absolutos e valores subsequentes de divergência KL. No entanto, se você tiver 20 corridas com a mesma perplexidade e não puder (não quiser) olhar para elas, sempre poderá escolher a que tiver a menor variável, na esperança de manter as distâncias originais com mais precisão. O mesmo vale para o No entanto, se você tiver 20 corridas com a mesma perplexidade e não puder (não quiser) olhar para elas, sempre poderá escolher a que tiver a menor variável, na esperança de manter as distâncias originais com mais precisão. O mesmo vale para o No entanto, se você tiver 20 corridas com a mesma perplexidade e não puder (não quiser) olhar para elas, sempre poderá escolher a que tiver a menor variável, na esperança de manter as distâncias originais com mais precisão. O mesmo vale para o $\theta$ $\theta$

$k$ $k$ $t$ $t$ -SNE foi usado em primeiro lugar, afinal, se a representação resultante não é informativa para as propriedades que estamos investigando, simplesmente não é boa, apesar de seu baixo erro de reconstrução, apelo visual etc. etc.

Deixe-me salientar que o que eu descrevo são heurísticas . Conforme mencionado no início do meu post, a inspeção manual dos resultados é uma maneira indispensável de avaliar a qualidade da redução / agrupamento de dimensionalidade resultante.

— usεr11852 diz Reinstate Monic
fonte

Obrigado por isso. A ideia do índice em até que ponto o agrupamento se encaixa na classificação parece interessante.

— Ric

4

Geralmente, definimos a perplexidade para 5% do tamanho do conjunto de dados. Portanto, para um conjunto de dados com 100 mil linhas, eu começaria com uma perplexidade de 5000, ou pelo menos 1000, se você não tiver um computador de alto desempenho disponível. Nossos conjuntos de dados são da análise de citometria de fluxo, eles geralmente têm 50k a 500k pontos de dados, cada um com 10 a 20 valores numéricos.

— James Li
fonte

4

Pode ser interessante para você dar uma olhada na "Seleção automática de perplexidade do t-SNE" de Cao e Wang :

A incorporação estocástica de vizinhos distribuída t (SNE) é um dos métodos de redução de dimensionalidade mais amplamente utilizados para visualização de dados, mas possui um hiperparâmetro de perplexidade que requer seleção manual. Na prática, o ajuste adequado da perplexidade do t-SNE exige que os usuários entendam o funcionamento interno do método e tenham experiência prática. Propomos um objetivo de seleção de modelo para a perplexidade do t-SNE que requer computação extra insignificante além do próprio t-SNE. Validamos empiricamente que as configurações de perplexidade encontradas por nossa abordagem são consistentes com as preferências desencadeadas por especialistas humanos em vários conjuntos de dados. As semelhanças de nossa abordagem aos critérios de informação bayesiana (BIC) e comprimento mínimo de descrição (MDL) também são analisadas.

— pisistrato
fonte

2

Quais foram as conclusões ..?

— Tim

1

S (P e r p l e x .) = 2 K L (P | | Q) + \log (n) \frac{P e r l e x .}{n}

$S(Perplex.) = 2KL(P||Q) + \log(n)\frac{Perlex.}{n}$