A Incorporação Estocástica de Vizinhança Distribuída t (SNE) é uma técnica ( premiada ) para redução de dimensionalidade que é particularmente adequada para a visualização de conjuntos de dados de alta dimensão.
Parece ótimo, mas esse é o autor falando.
Outra citação do autor (re: a competição mencionada):
O que você tirou desta competição?
Sempre visualize seus dados primeiro, antes de começar a treinar preditores nos dados! Muitas vezes, visualizações como as que eu fiz fornecem informações sobre a distribuição de dados que podem ajudá-lo a determinar que tipos de modelos de previsão tentar.
Must informações 1 estar sendo perdida - é uma técnica afinal redução de dimensionalidade. No entanto, como é uma boa técnica a ser usada na visualização, as informações perdidas são menos valiosas que as informações destacadas (/ tornadas visíveis / compreensíveis através da redução para 2 ou 3 dimensões).
Então, minha pergunta é:
- Quando o tSNE é a ferramenta errada para o trabalho?
- Que tipo de conjunto de dados faz com que ele não funcione,
- Que tipo de perguntas parece que pode responder, mas na verdade não pode?
- Na segunda citação acima, é recomendável sempre visualizar seu conjunto de dados, essa visualização deve sempre ser feita com o tSNE?
Espero que essa pergunta possa ser melhor respondida no inverso, ou seja, respondendo: quando o tSNE é a ferramenta certa para o trabalho?
Fui avisado para não confiar no tSNE para me dizer como os dados serão classificáveis com facilidade (separados em classes - um modelo discriminativo) O exemplo de que isso é enganoso foi que, para as duas imagens abaixo, um modelo generativo 2 era pior para os dados visualizados na primeira / esquerda (precisão 53,6%) que dados equivalentes na segunda / direita (precisão 67,2%).
1 Eu posso estar errado sobre isso. Posso me sentar e tentar um exemplo de prova / contador mais tarde
2 note que um modelo generativo não é o mesmo que um modelo discriminativo, mas este é o exemplo que me foi dado.