Estatísticas e Big Data

7

Em Naive Bayes, por que se preocupar com a suavização de Laplace quando temos palavras desconhecidas no conjunto de testes?

Eu estava lendo a Classificação Naive Bayes hoje. Eu li, sob o título Estimativa de parâmetros, com 1 suavização : Vamos referem-se a uma classe (como positiva ou negativa), e deixe referem-se a um símbolo ou palavra.cccwww O estimador de probabilidade máxima para éP(w|c)P(w|c)P(w|c)count(w,c)count(c)=counts w in class ccounts of words …

27 machine-learning classification text-mining naive-bayes laplace-smoothing

2

Devemos abordar vários ajustes de comparações ao usar intervalos de confiança?

Suponha que tenhamos um cenário de múltiplas comparações, como inferência post hoc em estatísticas aos pares ou como uma regressão múltipla, na qual estamos fazendo um total de comparações. Suponha também que gostaríamos de apoiar a inferência nesses múltiplos usando intervalos de confiança.mmm 1. Aplicamos vários ajustes de comparação aos …

27 confidence-interval multiple-comparisons inference

4

Detectando outliers usando desvios padrão

Seguindo a minha pergunta aqui , pergunto-me se há pontos de vista fortes a favor ou contra o uso do desvio padrão para detectar discrepâncias (por exemplo, qualquer ponto de dados com mais de 2 desvios padrão é discrepante). Eu sei que isso depende do contexto do estudo, por exemplo, …

27 outliers

3

Distribuição de produtos escalares de dois vetores unitários aleatórios em dimensões

Se e são dois vetores de unidades aleatórias independentes em (distribuídos uniformemente em uma esfera de unidades), qual é a distribuição do produto escalar (produto escalar) ?y R D x ⋅ yxx\mathbf{x}yy\mathbf{y}RDRD\mathbb{R}^Dx⋅yx⋅y\mathbf x \cdot \mathbf y Eu acho que conforme cresce a distribuição rapidamente (?) Se torna normal com média …

27 mathematical-statistics linear-algebra beta-distribution

1

Convertendo matriz de similaridade para matriz de distância (euclidiana)

No algoritmo de floresta aleatória, Breiman (autor) constrói a matriz de similaridade da seguinte maneira: Envie todos os exemplos de aprendizado em cada árvore da floresta Se dois exemplos aterrissarem na mesma folha, incrementar o elemento correspondente na matriz de similaridade em 1 Normalize a matriz com número de árvores …

27 random-forest distance similarities euclidean

2

Estimativas de variação na validação cruzada k-fold

A validação cruzada K-fold pode ser usada para estimar a capacidade de generalização de um determinado classificador. Posso (ou devo) também calcular uma variação combinada de todas as execuções de validação para obter uma estimativa melhor de sua variação? Se não, por que? Encontrei documentos que usam o desvio padrão …

27 machine-learning cross-validation

3

O clareamento é sempre bom?

Uma etapa comum de pré-processamento para algoritmos de aprendizado de máquina é o clareamento de dados. Parece que é sempre bom fazer o clareamento, uma vez que correlaciona os dados, facilitando a modelagem. Quando o clareamento não é recomendado? Nota: estou me referindo à desacorrelação dos dados.

27 data-transformation

1

Qual é a diferença entre equações de estimativa generalizada e GLMM?

Estou executando um GEE em dados desequilibrados em três níveis, usando um link de logit. Como isso difere (em termos das conclusões que posso tirar e do significado dos coeficientes) de um GLM com efeitos mistos (GLMM) e link logit? Mais detalhes: As observações são ensaios únicos de bernoulli. Eles …

27 logistic mixed-model generalized-linear-model interpretation gee

2

Produza uma lista de nomes de variáveis em um loop for e atribua valores a elas

Gostaria de saber se existe uma maneira simples de produzir uma lista de variáveis usando um loop for e fornecer seu valor. for(i in 1:3) { noquote(paste("a",i,sep=""))=i } No código acima, eu tento criar a1, a2, a3, que atribuem aos valores de 1, 2, 3. No entanto, R dá uma …

27 r

3

O que devo verificar quanto à normalidade: dados brutos ou resíduos?

Aprendi que devo testar a normalidade não nos dados brutos, mas em seus resíduos. Devo calcular os resíduos e depois fazer o teste W de Shapiro-Wilk? Os resíduos são calculados como: ?XEu- médiaXEu-significarX_i - \text{mean} Consulte esta pergunta anterior para meus dados e o design.

27 normality-assumption residuals assumptions

5

Existem 99 percentis ou 100 percentis? E são grupos de números, divisores ou indicadores para números individuais?

Existem 99 percentis ou 100 percentis? E são grupos de números, linhas divisórias ou ponteiros para números individuais? Suponho que a mesma pergunta se aplicaria a quartis ou a qualquer quantil. Eu li que o índice de um número em um percentil específico (p), dados n itens, é i = …

27 quantiles

2

Qual é a diferença entre a variação e o erro médio quadrático?

Estou surpreso que isso não tenha sido feito antes, mas não consigo encontrar a pergunta em stats.stackexchange. Esta é a fórmula para calcular a variação de uma amostra normalmente distribuída: ∑(X−X¯)2n−1∑(X−X¯)2n−1\frac{\sum(X - \bar{X}) ^2}{n-1} Esta é a fórmula para calcular o erro quadrático médio das observações em uma regressão linear …

27 variance error

3

Como julgar se um modelo de aprendizado de máquina supervisionado está super adaptado ou não?

Alguém pode me dizer como julgar se um modelo supervisionado de aprendizado de máquina está adaptado ou não? Se eu não tiver um conjunto de dados de validação externa, quero saber se posso usar o ROC de 10 vezes a validação cruzada para explicar o overfitting. Se eu tiver um …

27 machine-learning

4

Qual é a diferença entre um teste estacionário e um teste de raiz unitária?

Qual é a diferença entre o teste de Kwiatkowski – Phillips – Schmidt – Shin (KPSS) e o teste aumentado de Dickey-Fuller (ADF)? Eles estão testando a mesma coisa? Ou precisamos usá-los em diferentes situações?

27 time-series stationarity unit-root augmented-dickey-fuller kpss-test

4

Significado das notações de probabilidade

Qual é a diferença de significado entre a notação e que são comumente usadas em muitos livros e documentos?P(z;d,w)P(z;d,w)P(z;d,w)P(z|d,w)P(z|d,w)P(z|d,w)

27 probability notation