Converta dados de texto em categorias. Você pode tentar alternativas diferentes para quanta informação as categorias devem conter, mas categorias específicas precisam existir para cada variável. Como exemplo, assumirei uma variável que veio de um campo de texto de um questionário de pesquisa sobre a maneira preferível de as pessoas trabalharem.
Inicialmente, precisamos garantir que as respostas com significado semelhante sejam escritas da mesma maneira e pertençam à mesma categoria (por exemplo, "de bicicleta", "ciclismo", "de bicicleta" todos tenham o mesmo significado). Em seguida, você pode tentar mesclar outras categorias menos detalhadas (por exemplo, mesclar "bonde", "metrô" e "ônibus" em "Meios de transporte público") ou até mais (por exemplo, "Caminhada", "Corrida", "Ciclismo" em " Atividade física "), dependendo do que você está tentando descobrir.
Você pode até colocar algumas combinações diferentes no seu conjunto de dados e, em seguida, as próximas etapas determinarão quais serão usadas para a análise. Nos casos em que os dados de texto podem ser "traduzidos" em variáveis ordenadas, faça isso (por exemplo, se você tiver "pequeno, médio, alto", transforme-o em "1,2,3").
Principal Component Analysis
ouNon-Negative Matrix Factorization
reduzirão o número de variáveis, enriquecerão os dados esparsos e transformarão todas as variáveis em quantitativas. Além disso, avaliando a qualidade do modelo de redução de dimensionalidade, o autor da pergunta pode estimar a utilidade das variáveis textuais.