Estatísticas e Big Data

Perguntas e respostas para pessoas interessadas em estatística, aprendizado de máquina, análise de dados, mineração de dados e visualização de dados


6
Se um intervalo credível tiver um plano anterior, um intervalo de confiança de 95% é igual a um intervalo credível de 95%?
Sou muito novo nas estatísticas bayesianas e isso pode ser uma pergunta boba. Mesmo assim: Considere um intervalo credível com um prior que especifique uma distribuição uniforme. Por exemplo, de 0 a 1, em que 0 a 1 representa toda a gama de valores possíveis de um efeito. Nesse caso, …


4
É verdade que o bootstrap de percentil nunca deve ser usado?
Nas notas do MIT OpenCourseWare para 18.05 Introdução à Probabilidade e Estatística, primavera de 2014 (atualmente disponível aqui ), ele declara: O método de percentil de auto-inicialização é atraente devido à sua simplicidade. No entanto, depende da distribuição de auto-inicialização de base em uma amostra específica, sendo uma boa aproximação …

3
Como o Naive Bayes é um classificador linear?
Eu já vi o outro tópico aqui, mas não acho que a resposta tenha satisfeito a pergunta real. O que eu tenho lido continuamente é que Naive Bayes é um classificador linear (por exemplo: aqui ) (de modo que traça um limite de decisão linear) usando a demonstração de log …

2
Precisamos de descida gradiente para encontrar os coeficientes de um modelo de regressão linear?
Eu estava tentando aprender aprendizado de máquina usando o material Coursera . Nesta palestra, Andrew Ng usa o algoritmo de descida de gradiente para encontrar os coeficientes do modelo de regressão linear que minimizarão a função de erro (função de custo). Para regressão linear, precisamos de descida de gradiente? Parece …


4
Quando a estimativa de viés de inicialização é válida?
Afirma-se frequentemente que o bootstrapping pode fornecer uma estimativa do viés em um estimador. Se é a estimativa de alguma estatística e são as réplicas de autoinicialização (com ), a estimativa de autoinicialização do viés é que parece extremamente simples e poderosa, a ponto de ser perturbadora. ~ t ii∈{1,⋯,N}biumst≈1t^t^\hat …
31 bootstrap  bias 

2
Importância relativa de um conjunto de preditores na classificação de florestas aleatórias em R
Eu gostaria de determinar a importância relativa de conjuntos de variáveis ​​para um randomForestmodelo de classificação em R. A importancefunção fornece a MeanDecreaseGinimétrica para cada preditor individual - é tão simples quanto resumir isso em cada preditor de um conjunto? Por exemplo: # Assumes df has variables a1, a2, b1, …

3
Erro médio quadrático e soma dos quadrados residuais
Olhando para as definições da Wikipedia de: Erro médio quadrático (MSE) Soma residual de quadrados (RSS) Parece-me que MSE = 1NRSS = 1NΣ ( fEu- yEu)2MSE=1 1NRSS=1 1N∑(fEu-yEu)2\text{MSE} = \frac{1}{N} \text{RSS} = \frac{1}{N} \sum (f_i -y_i)^2 onde é o número de amostras e é a nossa estimativa de .NNNfEufEuf_iyEuyEuy_i No …
31 residuals  mse 

2
formato de dados libsvm [fechado]
Estou usando a ferramenta libsvm ( http://www.csie.ntu.edu.tw/~cjlin/libsvm/ ) para classificação de vetores de suporte. No entanto, estou confuso sobre o formato dos dados de entrada. No README: O formato do arquivo de dados de treinamento e teste é: <label> <index1>:<value1> <index2>:<value2> ... . . . Cada linha contém uma instância …





Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.