Ciência de dados

Perguntas e respostas para profissionais de ciência de dados, especialistas em aprendizado de máquina e interessados ​​em aprender mais sobre o campo

2
Como construir um mecanismo de pesquisa textual?
Estou tendo uma string HTML e quero descobrir se uma palavra fornecida é relevante nessa string. A relevância pode ser medida com base na frequência do texto. Um exemplo para ilustrar meu problema: this is an awesome bike store bikes can be purchased online. the bikes we own rock. check …


1
Erro R usando o pacote tm (mineração de texto)
Estou tentando usar o pacote tm para converter um vetor de seqüências de texto em um elemento corpus. Meu código se parece com isso Corpus(d1$Yes) onde d1$Yesé um fator com 124 níveis, cada um contendo uma sequência de texto. Por exemplo, d1$Yes[246] = "So we can get the boat out!" …
8 r  text-mining 

2
Quais são algumas maneiras padrão de calcular a distância entre consultas de pesquisa individuais?
Fiz uma pergunta semelhante perguntando sobre a distância entre "documentos" (artigos da Wikipedia, notícias, etc.). Fiz uma pergunta separada, porque as consultas de pesquisa são consideravelmente menores que os documentos e são consideravelmente mais barulhentas. Portanto, não sei (e duvido) se as mesmas métricas de distância seriam usadas aqui. Métricas …


1
Erro em cascata no Apache Storm
Analisando a apresentação e o material do Summingbird pelo Twitter, um dos motivos mencionados para o uso de clusters Storm e Hadoop juntos no Summingbird é que o processamento através do Storm resulta em cascata de erros. Para evitar essa cascata de erro e acumulação, o cluster Hadoop é usado …

4
Tutorial de aprendizado de máquina on-line
Alguém conhece alguns bons tutoriais sobre técnicas de aprendizado de máquina on-line? Ou seja, como ele pode ser usado em ambientes em tempo real, quais são as principais diferenças em comparação aos métodos normais de aprendizado de máquina, etc. UPD: Obrigado a todos pelas respostas. Por "online", quero dizer métodos …



3
Similaridade da string da matriz de pontuação
Eu tenho uma carga de documentos, que possuem uma carga de pares de valores-chave. A chave pode não ser exclusiva, portanto, pode haver várias chaves do mesmo tipo com valores diferentes. Quero comparar a semelhança das chaves entre dois documentos. Mais especificamente, a semelhança de string desses valores. Estou pensando …





1
Gere previsões ortogonais (não correlacionadas) para uma determinada variável
Eu tenho uma Xmatriz, uma yvariável e outra variável ORTHO_VAR. Preciso prever a yvariável usando X, no entanto, as previsões desse modelo precisam ser ortogonais e, ao ORTHO_VARmesmo tempo, estar o mais correlacionadas ypossível. Eu preferiria que as previsões fossem geradas com um método não paramétrico como, por exemplo, xgboost.XGBRegressormas …
8 correlation  machine-learning  dataset  logistic-regression  prediction  linear-regression  prediction  dummy-variables  neural-network  image-classification  python  k-nn  python  neural-network  neural-network  deep-learning  keras  tensorflow  image-classification  tensorflow  reinforcement-learning  policy-gradients  machine-learning  decision-trees  neural-network  overfitting  data-analysis  metric  python  scikit-learn  distance  scipy  machine-learning  python  scikit-learn  decision-trees  logistic-regression  keras  image-classification  implementation  machine-learning  python  scikit-learn  random-forest  decision-trees  machine-learning  feature-selection  feature-engineering  word2vec  word-embeddings  natural-language-process  scikit-learn  time-series  clustering  k-means  python  cross-validation  pyspark  statistics  cross-validation  multiclass-classification  evaluation  machine-learning  nlp  machine-translation  neural-network  deep-learning  keras  tensorflow  image-classification  machine-learning  python  similarity  distance  lstm  text  named-entity-recognition  machine-learning  keras  optimization  gan  learning-rate  neural-network  data-mining  dataset  databases  books  neural-network  rnn 

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.