Ciência de dados

Perguntas e respostas para profissionais de ciência de dados, especialistas em aprendizado de máquina e interessados ​​em aprender mais sobre o campo







4
O XGBoost lida com multicolinearidade sozinho?
Atualmente, estou usando o XGBoost em um conjunto de dados com 21 recursos (selecionados da lista de cerca de 150 recursos), depois os codifiquei com um hot-code para obter ~ 98 recursos. Alguns desses 98 recursos são um pouco redundantes, por exemplo: uma variável (recurso) também aparece como BUMAAA eCBUMABA\frac{B}{A} …

2
Como usar a saída do GridSearch?
Atualmente, estou trabalhando com o Python e o Scikit para fins de classificação e, lendo o GridSearch, achei que essa era uma ótima maneira de otimizar meus parâmetros do estimador para obter os melhores resultados. Minha metodologia é esta: Dividir meus dados em treinamento / teste. Use o GridSearch com …



6
Compartilhando notebooks Jupyter em uma equipe
Gostaria de configurar um servidor que pudesse dar suporte a uma equipe de ciência de dados da seguinte maneira: ser um ponto central para armazenamento, versão, compartilhamento e possível execução de notebooks Jupyter. Algumas propriedades desejadas: Diferentes usuários podem acessar o servidor e abrir e executar blocos de anotações armazenados …



3
Qual é a melhor entrada para o Word2Vec?
Isso é mais como uma pergunta geral da PNL. Qual é a entrada apropriada para treinar uma incorporação de palavras, ou seja, Word2Vec? Todas as frases pertencentes a um artigo devem ser um documento separado em um corpus? Ou cada artigo deve ser um documento no referido corpus? Este é …


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.