t-SNE
O método não requer a remoção de duplicatas. O fato de ser um recurso padrão Rtsne
não implica em seu requisito. É útil para algum monitoramento de eventos de curto prazo. Para caracterizar tendências e / ou padrões de longo prazo com grandes conjuntos de dados, vejo pouca utilidade. A Rtsne
configuração padrão pode ser mais inclinada para caracterizar eventos no domínio do tempo, sem estudos no domínio de Fourier.
Suponha que você tenha pontos no domínio do tempo. O algoritmo duplicado causa uma quantidade significativa de falsos positivos, porque a verificação duplicada é projetada principalmente no sinal no domínio do tempo. O espaço de Fourier pode mostrar que os eventos considerados pelo duplicado do algoritmo não são necessários.
Portanto, minha observação é que o algoritmo é ganancioso quanto a pontos duplicados no domínio do tempo, o que não é útil para mim quando consideramos sinais de longo prazo, tendências de longo prazo e padrões de longo prazo. O fato de o ponto estar duplicado no domínio do tempo não significa, na verdade, que está duplicado também no domínio de Fourier. Eu acho que será mais uma coincidência se for uma duplicata no domínio do tempo nas aplicações da vida real. Portanto, desativar o recurso deve estar ok. Estimar quanto dos pontos são realmente duplicados nos dois domínios é específico no estudo de caso. Eu obtenho descritores significativamente melhores de eventos e / ou fenômenos ao considerar conjuntos de dados de longo prazo sem a verificação duplicada em muitos aplicativos da vida real.
Eu acho que a Rtsne
documentação não é clara sobre o caso ao dizer [desligar check_duplicates
e] não desperdiçar energia de processamento . Existem realmente outras razões, como descrito acima, pelas quais a check_duplicates
desativação pode ser realizada conforme também ocorre em algumas outras implementações do método. O check_duplicates=TRUE
é uma seleção pessoal do Rtsne
desenvolvedor por padrão no momento. Gostaria de saber se existem razões de implementação para a decisão.