Perguntas com a marcação «outliers»

Um outlier é uma observação que parece incomum ou não está bem descrita em relação a uma simples caracterização de um conjunto de dados. Uma possibilidade desconcertante é que esses dados venham de uma população diferente daquela que se pretende estudar.

A limpeza de dados pode piorar os resultados da análise estatística?

Um aumento no número de casos e mortes ocorre durante epidemias (aumento repentino de números) devido à circulação de vírus (como o vírus do Nilo Ocidental nos EUA em 2002) ou à diminuição da resistência de pessoas ou à contaminação de alimentos ou água ou ao aumento do número de …

17 time-series forecasting epidemiology outliers

PCA robusto vs. distância de Mahalanobis robusta para detecção de valores extremos

O PCA robusto (desenvolvido por Candes et al 2009 ou melhor ainda por Netrepalli et al 2014 ) é um método popular para detecção multivariada de outlier , mas a distância de Mahalanobis também pode ser usada para detecção de outlier, dada uma estimativa robusta e regularizada da matriz de …

17 pca outliers covariance-matrix robust anomaly-detection

Como fazer previsões com detecção de outliers no R? - Procedimento e método de análise de séries temporais

Tenho dados de séries temporais mensais e gostaria de fazer previsões com detecção de outliers. Esta é a amostra do meu conjunto de dados: Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2006 7.55 7.63 7.62 7.50 7.47 7.53 7.55 7.47 7.65 7.72 7.78 7.81 2007 …

16 r time-series forecasting arima outliers

Detecção robusta de outlier em séries financeiras

Estou procurando algumas técnicas robustas para remover discrepâncias e erros (seja qual for a causa) dos dados financeiros das séries temporais (por exemplo, tickdata). Os dados das séries temporais financeiras de tick-by-tick são muito confusos. Ele contém grandes lacunas (de tempo) quando a bolsa é fechada e faz grandes saltos …

16 time-series outliers

É trapaceiro descartar os outliers com base no boxplot de Mean Absolute Error para melhorar um modelo de regressão

Eu tenho um modelo de previsão testado com quatro métodos, como você pode ver na figura do boxplot abaixo. O atributo que o modelo prevê está no intervalo de 0 a 8. Você pode perceber que há um limite superior externo e três limites inferiores indicados por todos os métodos. …

15 regression machine-learning multiple-regression predictive-models outliers

Significado preciso e comparação entre ponto influente, ponto alto de alavancagem e outlier?

Da Wikipedia Observações influentes são aquelas que têm um efeito relativamente grande nas previsões do modelo de regressão. Da Wikipedia Pontos de alavancagem são aquelas observações, se houver, feitas em valores extremos ou extremos das variáveis independentes, de modo que a falta de observações vizinhas significa que o modelo de …

15 regression outliers leverage

Estimando parâmetros de uma distribuição normal: mediana em vez de média?

A abordagem comum para estimar os parâmetros de uma distribuição normal é usar a média e o desvio / variância padrão da amostra. No entanto, se houver alguns discrepantes, a mediana e o desvio médio da mediana devem ser muito mais robustos, certo? Em alguns conjuntos de dados que eu …

15 normal-distribution estimation outliers robust unbiased-estimator

Curso intensivo em estimativa média robusta

Eu tenho um monte (cerca de 1000) de estimativas e todas elas devem ser estimativas da elasticidade a longo prazo. Um pouco mais da metade é estimado usando o método A e o restante usando o método B. Em algum lugar, li algo como "Acho que o método B estima …

15 mean outliers robust references

Compreendendo a banda de confiança a partir de uma regressão polinomial

Estou tentando entender o resultado que vejo no meu gráfico abaixo. Normalmente, costumo usar o Excel e obter uma linha de regressão linear, mas no caso abaixo, estou usando R e recebo uma regressão polinomial com o comando: ggplot(visual1, aes(ISSUE_DATE,COUNTED)) + geom_point() + geom_smooth() Então, minhas perguntas se resumem a …

14 r regression data-visualization outliers

Existe uma maneira simples de detectar discrepâncias?

Gostaria de saber se existe uma maneira simples de detectar discrepâncias. Para um dos meus projetos, que era basicamente uma correlação entre o número de vezes que os participantes participam de atividade física em uma semana e o número de vezes que comem fora de casa (fast food) em uma …

14 correlation outliers

Eliminando valores discrepantes com base em "2,5 vezes o RMSE"

Em Kahneman e Deaton (2010) † , os autores escrevem o seguinte:††^\dagger Essa regressão explica 37% da variância, com um erro quadrático médio da raiz (RMSE) de 0,67852. Para eliminar discrepâncias e relatórios de renda implausíveis, retiramos observações nas quais o valor absoluto da diferença entre a receita logarítmica e …

13 regression outliers

Diferença entre Anomalia e Outlier

Qual é a diferença entre Outlier e Anomaly no contexto de aprendizado de máquina. Meu entendimento é que os dois se referem à mesma coisa.

13 outliers terminology anomaly-detection

usando informações de vizinhos em dados de imputação ou localizando dados externos (em R)

Eu tenho um conjunto de dados supondo que os vizinhos mais próximos são os melhores preditores. Apenas um exemplo perfeito de gradiente bidirecional visualizado- Suponha que tenhamos um caso em que faltam poucos valores, podemos prever facilmente com base em vizinhos e tendências. Matriz de dados correspondente em R (exemplo …

13 r prediction outliers data-imputation multiple-imputation

LARS vs descida coordenada para o laço

Quais são os prós e os contras do uso do LARS [1] versus o uso da descida de coordenadas para ajustar a regressão linear regularizada por L1? Estou interessado principalmente em aspectos de desempenho (meus problemas tendem a ter Nentre centenas e milhares e p<20.) No entanto, quaisquer outras idéias …

13 regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

Separando duas populações da amostra

Estou tentando separar dois grupos de valores de um único conjunto de dados. Eu posso assumir que uma das populações está normalmente distribuída e tem pelo menos metade do tamanho da amostra. Os valores do segundo são mais baixos ou mais altos que os valores do primeiro (a distribuição é …

13 dataset outliers expectation-maximization

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.

Licensed under cc by-sa 3.0 with attribution required.