Estatísticas e Big Data dataset

2

Os dados de treinamento estão desequilibrados - mas meu conjunto de validação também deve ser?

Eu rotulei dados compostos por 10000 exemplos positivos e 50000 exemplos negativos, fornecendo um total de 60000 exemplos. Obviamente esses dados estão desequilibrados. Agora, digamos que quero criar meu conjunto de validação e quero usar 10% dos meus dados para fazer isso. Minha pergunta é a seguinte: Devo garantir que …

9 machine-learning neural-networks cross-validation dataset unbalanced-classes

5

É nominal, ordinal e binário para dados quantitativos, dados qualitativos ou ambos?

Estou me envolvendo com os tipos de dados e preciso de ajuda: Se você olhar a figura acima (tirada daqui ), ela tem os tipos de dados como este: Quantitativo (Discreto, Contínuo) Qualitativo (Nominal (N), Ordinal (O), Binário (B)). Mas se você olhar para a próxima foto ( daqui ), …

9 categorical-data dataset ordinal-data binary-data

1

Por que não recebo um valor p dessa ANOVA em R?

Aqui estão os dados: > tires <- data.frame(Wear = c(17, 14, 12, 13, 14, 14, 12, 11, 13, 13, 10, 11, 13, 8, 9, 9), Brand = rep(LETTERS[1:4], 4), Car = as.character(as.roman(rep(1:4, each = 4)))) > tires Wear Brand Car 1 17 A I 2 14 B I 3 12 …

9 r anova dataset degrees-of-freedom

1

Estou desenvolvendo sistemas de negociação automatizados para o mercado de ações. O grande desafio tem sido excessivo. Você pode recomendar alguns recursos que descrevam métodos para medir e evitar ajustes excessivos? Comecei com conjuntos de treinamento / validação, mas o conjunto de validação sempre fica corrompido. Além disso, os dados …

9 time-series machine-learning dataset data-mining validation

1

Você sinalizaria esses dados como fraudulentos?

Vamos supor que você tenha recebido alguns dados de um delineamento de blocos casualizados com 4 repetições e 23 tratamentos. Após uma inspeção inicial dos dados, você percebe que, durante 8 tratamentos, todas as repetições são idênticas, o que está obviamente errado. Após relatar o problema, você será informado de …

8 probability anova dataset fraud

2

Problemas com detecção de outlier

Em um post do blog, Andrew Gelman escreve : A regressão passo a passo é uma dessas coisas, como detecção externa e gráficos de pizza, que parecem populares entre os não estatísticos, mas são considerados pelos estatísticos uma piada. Entendo a referência aos gráficos de setores circulares, mas por que …

8 dataset outliers quality-control

2

Análise dos dados rotacionais da roda de hamster

Antes de postar esta pergunta, naveguei por outras perguntas neste Stack, e isso provavelmente será um passeio no parque para quem lê! Mas a descrição deste Stack inclui análise e visualização de dados, então espero que este esteja no lugar certo! </preapology> Estou usando um Raspberry Pi com um ímã …

8 data-visualization dataset

1

Por que a variabilidade é medida em relação a um ponto?

Por que as medidas de dispersão são calculadas em relação a algum ponto central? Por que, por exemplo, todas as possíveis diferenças não repetidas e emparelhadas no conjunto de dados não seriam uma medida válida de dispersão?

8 dataset standard-deviation theory variability

2

Função de probabilidade de dados truncados

Estou com problemas para entender o conceito e a derivação da probabilidade de dados truncados. Por exemplo, se eu quiser encontrar a função de probabilidade com base em uma amostra de uma distribuição, mas ao retirar uma amostra da distribuição, observo os valores truncados (onde há um corte de , …

8 dataset likelihood

1

Intervalos de confiança ao usar o teorema de Bayes

Estou computando algumas probabilidades condicionais e intervalos de confiança associados a 95%. Para muitos de meus casos, tenho contagens diretas de xsucessos fora dos ntestes (de uma tabela de contingência), para que eu possa usar um intervalo de confiança binomial, como é fornecido por binom.confint(x, n, method='exact')in R. Em outros …

8 r bayesian confidence-interval conditional-probability hidden-markov-model segmentation hypothesis-testing statistical-significance multiple-comparisons multiple-regression r regression survey sample finite-population pca model-selection dataset partitioning clustering time-series least-squares regression standard-error causality r time-series outliers missing-data machine-learning svm hypothesis-testing discrete-data r data-visualization survey likert finance regression pca feature-selection stepwise-regression underdetermined svm natural-language

1

Como gerar uma boa tabela de resumo?

Quero que R exiba os dados que ele fornece da summary()função em uma tabela para que eu possa compartilhar isso facilmente. Atualmente, estou apenas fazendo summary()no console e, em seguida, tirando uma captura de tela, mas eu prefiro que isso seja gerado como uma boa tabela, como todos os meus …

8 r dataset descriptive-statistics tables

2

Conjuntos de dados de jogos de computador

Eu estava procurando por conjuntos de dados de jogos de computador, mas até agora só consegui encontrar o conjunto de dados 'Avatar History' para o WoW. Existem outros conjuntos de dados interessantes por aí, possivelmente para outros gêneros?

8 data-mining dataset

1

O que esse borrão ao redor da linha significa neste gráfico?

Eu estava brincando com o ggplot2 usando os seguintes comandos para ajustar uma linha aos meus dados: ggplot(data=datNorm, aes(x=Num, y=Val)) + geom_point() + stat_summary(fun.data = "mean_cl_boot", geom="errorbar", colour="red", width=0.8) + stat_sum_single(median) + stat_sum_single(mean, colour="blue") + geom_smooth(level = 0.95, aes(group=1), method="lm") Os pontos vermelhos são valores medianos, o azul é a …

8 r modeling dataset data-mining ggplot2

1

Maior adequação usando aumento de dados com ruído?

Estou treinando uma rede neural para classificação de áudio. Eu o treinei no conjunto de dados UrbanSound8K (Modelo1) e depois quis avaliar como diferentes níveis de ruído adicionado às entradas influenciavam a precisão da previsão. Precisão da linha de base Modelo1 = 65% Como esperado, níveis mais altos de ruído …

8 classification neural-networks dataset overfitting

3

Quando normalizar os dados ao usar dois conjuntos de dados da mesma distribuição?

Suponha que você tenha dois conjuntos de dados D1 e D2. Ambos são amostrados da mesma distribuição subjacente X. Quero usá-los para treinar uma rede neural. Os recursos são todos os números inteiros não assinados no intervalo [0; 2 ^ 64]. Devido ao fato de os recursos estarem em escalas …

7 neural-networks dataset normalization z-score

Perguntas com a marcação «dataset»