Estatísticas e Big Data

Perguntas e respostas para pessoas interessadas em estatística, aprendizado de máquina, análise de dados, mineração de dados e visualização de dados

7
Em Naive Bayes, por que se preocupar com a suavização de Laplace quando temos palavras desconhecidas no conjunto de testes?
Eu estava lendo a Classificação Naive Bayes hoje. Eu li, sob o título Estimativa de parâmetros, com 1 suavização : Vamos referem-se a uma classe (como positiva ou negativa), e deixe referem-se a um símbolo ou palavra.cccwww O estimador de probabilidade máxima para éP(w|c)P(w|c)P(w|c)count(w,c)count(c)=counts w in class ccounts of words …

2
Devemos abordar vários ajustes de comparações ao usar intervalos de confiança?
Suponha que tenhamos um cenário de múltiplas comparações, como inferência post hoc em estatísticas aos pares ou como uma regressão múltipla, na qual estamos fazendo um total de comparações. Suponha também que gostaríamos de apoiar a inferência nesses múltiplos usando intervalos de confiança.mmm 1. Aplicamos vários ajustes de comparação aos …

4
Detectando outliers usando desvios padrão
Seguindo a minha pergunta aqui , pergunto-me se há pontos de vista fortes a favor ou contra o uso do desvio padrão para detectar discrepâncias (por exemplo, qualquer ponto de dados com mais de 2 desvios padrão é discrepante). Eu sei que isso depende do contexto do estudo, por exemplo, …
27 outliers 

3
Distribuição de produtos escalares de dois vetores unitários aleatórios em dimensões
Se e são dois vetores de unidades aleatórias independentes em (distribuídos uniformemente em uma esfera de unidades), qual é a distribuição do produto escalar (produto escalar) ?y R D x ⋅ yxx\mathbf{x}yy\mathbf{y}RDRD\mathbb{R}^Dx⋅yx⋅y\mathbf x \cdot \mathbf y Eu acho que conforme cresce a distribuição rapidamente (?) Se torna normal com média …


2
Estimativas de variação na validação cruzada k-fold
A validação cruzada K-fold pode ser usada para estimar a capacidade de generalização de um determinado classificador. Posso (ou devo) também calcular uma variação combinada de todas as execuções de validação para obter uma estimativa melhor de sua variação? Se não, por que? Encontrei documentos que usam o desvio padrão …

3
O clareamento é sempre bom?
Uma etapa comum de pré-processamento para algoritmos de aprendizado de máquina é o clareamento de dados. Parece que é sempre bom fazer o clareamento, uma vez que correlaciona os dados, facilitando a modelagem. Quando o clareamento não é recomendado? Nota: estou me referindo à desacorrelação dos dados.





2
Qual é a diferença entre a variação e o erro médio quadrático?
Estou surpreso que isso não tenha sido feito antes, mas não consigo encontrar a pergunta em stats.stackexchange. Esta é a fórmula para calcular a variação de uma amostra normalmente distribuída: ∑(X−X¯)2n−1∑(X−X¯)2n−1\frac{\sum(X - \bar{X}) ^2}{n-1} Esta é a fórmula para calcular o erro quadrático médio das observações em uma regressão linear …
27 variance  error 




Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.