Estatísticas e Big Data

1

Uso indevido de validação cruzada (relatório de desempenho para o melhor valor de hiperparâmetro)

Recentemente, me deparei com um artigo que propõe o uso de um classificador k-NN em um conjunto de dados específico. Os autores usaram todas as amostras de dados disponíveis para realizar a validação cruzada de dobras k para diferentes valores de k e relatam os resultados da validação cruzada da …

31 cross-validation references model-selection model-evaluation

6

Se um intervalo credível tiver um plano anterior, um intervalo de confiança de 95% é igual a um intervalo credível de 95%?

Sou muito novo nas estatísticas bayesianas e isso pode ser uma pergunta boba. Mesmo assim: Considere um intervalo credível com um prior que especifique uma distribuição uniforme. Por exemplo, de 0 a 1, em que 0 a 1 representa toda a gama de valores possíveis de um efeito. Nesse caso, …

31 bayesian confidence-interval estimation prior credible-interval

7

Por que a precisão da validação está flutuando?

Eu tenho uma CNN de quatro camadas para prever a resposta ao câncer usando dados de ressonância magnética. Eu uso as ativações da ReLU para introduzir não-linearidades. A precisão e a perda do trem aumentam e diminuem monotonicamente, respectivamente. Mas, a precisão do meu teste começa a flutuar bastante. Eu …

31 machine-learning python deep-learning

4

É verdade que o bootstrap de percentil nunca deve ser usado?

Nas notas do MIT OpenCourseWare para 18.05 Introdução à Probabilidade e Estatística, primavera de 2014 (atualmente disponível aqui ), ele declara: O método de percentil de auto-inicialização é atraente devido à sua simplicidade. No entanto, depende da distribuição de auto-inicialização de base em uma amostra específica, sendo uma boa aproximação …

31 confidence-interval bootstrap

3

Como o Naive Bayes é um classificador linear?

Eu já vi o outro tópico aqui, mas não acho que a resposta tenha satisfeito a pergunta real. O que eu tenho lido continuamente é que Naive Bayes é um classificador linear (por exemplo: aqui ) (de modo que traça um limite de decisão linear) usando a demonstração de log …

31 classification naive-bayes

2

Precisamos de descida gradiente para encontrar os coeficientes de um modelo de regressão linear?

Eu estava tentando aprender aprendizado de máquina usando o material Coursera . Nesta palestra, Andrew Ng usa o algoritmo de descida de gradiente para encontrar os coeficientes do modelo de regressão linear que minimizarão a função de erro (função de custo). Para regressão linear, precisamos de descida de gradiente? Parece …

31 regression machine-learning linear-model gradient-descent

4

Regressão logística - Termo de erro e sua distribuição

Se existe um termo de erro na regressão logística (e sua distribuição assumida), li em vários locais que: nenhum termo de erro existe o termo de erro tem uma distribuição binomial (de acordo com a distribuição da variável de resposta) o termo de erro tem uma distribuição logística Alguém pode …

31 logistic binomial bernoulli-distribution logistic-distribution

4

Quando a estimativa de viés de inicialização é válida?

Afirma-se frequentemente que o bootstrapping pode fornecer uma estimativa do viés em um estimador. Se é a estimativa de alguma estatística e são as réplicas de autoinicialização (com ), a estimativa de autoinicialização do viés é que parece extremamente simples e poderosa, a ponto de ser perturbadora. ~ t ii∈{1,⋯,N}biumst≈1t^t^\hat …

31 bootstrap bias

2

Importância relativa de um conjunto de preditores na classificação de florestas aleatórias em R

Eu gostaria de determinar a importância relativa de conjuntos de variáveis para um randomForestmodelo de classificação em R. A importancefunção fornece a MeanDecreaseGinimétrica para cada preditor individual - é tão simples quanto resumir isso em cada preditor de um conjunto? Por exemplo: # Assumes df has variables a1, a2, b1, …

31 r machine-learning classification random-forest

3

Erro médio quadrático e soma dos quadrados residuais

Olhando para as definições da Wikipedia de: Erro médio quadrático (MSE) Soma residual de quadrados (RSS) Parece-me que MSE = 1NRSS = 1NΣ ( fEu- yEu)2MSE=1 1NRSS=1 1N∑(fEu-yEu)2\text{MSE} = \frac{1}{N} \text{RSS} = \frac{1}{N} \sum (f_i -y_i)^2 onde é o número de amostras e é a nossa estimativa de .NNNfEufEuf_iyEuyEuy_i No …

31 residuals mse

2

formato de dados libsvm [fechado]

Estou usando a ferramenta libsvm ( http://www.csie.ntu.edu.tw/~cjlin/libsvm/ ) para classificação de vetores de suporte. No entanto, estou confuso sobre o formato dos dados de entrada. No README: O formato do arquivo de dados de treinamento e teste é: <label> <index1>:<value1> <index2>:<value2> ... . . . Cada linha contém uma instância …

31 machine-learning svm python libsvm c++

3

Que distribuição meus dados seguem?

Digamos que possuo 1000 componentes e coletei dados sobre quantas vezes eles registram uma falha e cada vez que registraram uma falha, também acompanho quanto tempo minha equipe levou para corrigir o problema. Em resumo, registrei o tempo de reparo (em segundos) para cada um desses 1000 componentes. Os dados …

31 distributions data-visualization survival reliability distribution-identification

3

É possível calcular AIC e BIC para modelos de regressão de laço?

É possível calcular valores de AIC ou BIC para modelos de regressão de laço e outros modelos regularizados em que os parâmetros estão inserindo apenas parcialmente a equação. Como se determina os graus de liberdade? Estou usando R para ajustar modelos de regressão de laço com a glmnet()função do glmnetpacote …

31 r model-selection lasso aic bic

2

Resíduos brutos versus resíduos padronizados versus resíduos estudantis - o que usar quando?

Esta parece uma pergunta semelhante e não obter muitas respostas. Omitindo testes como o D de Cook e apenas olhando resíduos como um grupo, estou interessado em saber como outros usam resíduos ao avaliar a qualidade do ajuste. Eu uso os resíduos brutos: em um gráfico QQ, para avaliar a …

31 goodness-of-fit residuals

6

O gráfico de linhas tem muitas linhas. Existe uma solução melhor?

Estou tentando representar graficamente o número de ações dos usuários (neste caso, "curtidas") ao longo do tempo. Portanto, tenho "Número de ações" como meu eixo y, meu eixo x é o tempo (semanas) e cada linha representa um usuário. Meu problema é que quero analisar esses dados para um conjunto …

31 r data-visualization