Perguntas com a marcação «data-cleaning»

A limpeza de dados é uma etapa preliminar para a análise estatística na qual o conjunto de dados é editado para corrigir erros e colocá-lo em uma forma adequada para processamento por software estatístico.

6
Como posso transformar nomes em um conjunto de dados confidenciais para torná-lo anônimo, mas preservar algumas das características dos nomes?
Motivação Trabalho com conjuntos de dados que contêm informações de identificação pessoal (PII) e às vezes preciso compartilhar parte de um conjunto de dados com terceiros, de uma maneira que não exponha as PII e sujeite meu empregador a responsabilidades. Nossa abordagem usual aqui é reter os dados inteiramente ou, …

7
Processos organizados para limpar dados
Do meu limitado interesse pela ciência de dados usando R, percebi que limpar dados ruins é uma parte muito importante da preparação de dados para análise. Existem práticas recomendadas ou processos para limpar dados antes de processá-los? Em caso afirmativo, existem ferramentas automatizadas ou semi-automatizadas que implementam algumas dessas práticas …
34 r  data-cleaning 

1


4
Como anotar documentos de texto com metadados?
Tendo muitos documentos de texto (em linguagem natural, não estruturados), quais são as maneiras possíveis de anotá-los com alguns metadados semânticos? Por exemplo, considere um pequeno documento: I saw the company's manager last day. Para poder extrair informações dele, ele deve ser anotado com dados adicionais para ser menos ambíguo. …



4
Como fazer a correspondência difusa de endereços postais?
Gostaria de saber como combinar endereços postais quando o formato deles for diferente ou quando um deles estiver incorreto. Até agora, encontrei soluções diferentes, mas acho que elas são bastante antigas e não muito eficientes. Tenho certeza de que existem métodos melhores; portanto, se você tiver referências para ler, tenho …




3
Existem bons modelos de linguagem prontos para uso em python?
Estou prototipando um aplicativo e preciso de um modelo de linguagem para calcular a perplexidade em algumas frases geradas. Existe algum modelo de linguagem treinado em python que eu possa usar facilmente? Algo simples como model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 


3
Melhores idiomas para computação científica [fechado]
Fechado . Esta questão precisa ser mais focada . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela se concentre apenas em um problema editando esta postagem . Fechado há 5 anos . Parece que a maioria das línguas tem algum número de …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.