Estatísticas e Big Data

Perguntas e respostas para pessoas interessadas em estatística, aprendizado de máquina, análise de dados, mineração de dados e visualização de dados




6
A regressão de crista é inútil em altas dimensões ( )? Como o OLS pode não se adequar demais?
Considere um bom problema de regressão antigo com preditores de e tamanho da amostra . A sabedoria usual é que o estimador OLS superajuste e geralmente será superado pelo estimador de regressão de crista:É padrão usar a validação cruzada para encontrar um parâmetro de regularização ideal . Aqui eu uso …


3
Como estamos definindo 'pesquisa reproduzível'?
Isso surgiu em algumas perguntas agora, e eu estive pensando em algo. O campo como um todo mudou para a "reprodutibilidade", com foco na disponibilidade dos dados originais e no código em questão? Sempre fui ensinado que o núcleo da reprodutibilidade não era necessariamente, como já referi, a capacidade de …


1
Codificação one-hot vs dummy no Scikit-learn
Existem duas maneiras diferentes de codificar variáveis ​​categóricas. Digamos, uma variável categórica tem n valores. A codificação one-hot converte-a em n variáveis, enquanto a codificação fictícia converte-a em n-1 variáveis. Se tivermos k variáveis ​​categóricas, cada uma com n valores. Uma codificação quente termina com variáveis kn , enquanto a …

2
Existe uma diferença entre 'controlar para' e 'ignorar' outras variáveis ​​na regressão múltipla?
O coeficiente de uma variável explicativa em uma regressão múltipla nos diz a relação dessa variável explicativa com a variável dependente. Tudo isso, enquanto 'controlando' as outras variáveis ​​explicativas. Como eu o vi até agora: Enquanto cada coeficiente está sendo calculado, as outras variáveis ​​não são levadas em consideração, então …

3
Qual é a intuição por trás do SVD?
Eu li sobre decomposição de valor singular (SVD). Em quase todos os livros didáticos, é mencionado que ela fatoriza a matriz em três matrizes com determinada especificação. Mas qual é a intuição por trás da divisão da matriz dessa forma? O PCA e outros algoritmos para redução de dimensionalidade são …



4
Por que se preocupar com o problema duplo ao instalar o SVM?
Dado os pontos de dados e etiquetas y 1 , ... , y n ∈ { - 1 , 1 } , a margem de difícil problema SVM primal éx1,…,xn∈Rdx1,…,xn∈Rdx_1, \ldots, x_n \in \mathbb{R}^dy1,…,yn∈{−1,1}y1,…,yn∈{−1,1}y_1, \ldots, y_n \in \left \{-1, 1 \right\} s.t.minimizew,w012wTwminimizew,w012wTw \text{minimize}_{w, w_0} \quad \frac{1}{2} w^T w s.t.∀i:yi(wTxi+w0)≥1s.t.∀i:yi(wTxi+w0)≥1 \text{s.t.} …
50 svm 

16
Livros recomendados sobre design de experimentos?
Quais são as recomendações do painel para livros sobre design de experimentos? O ideal é que os livros ainda estejam impressos ou disponíveis eletronicamente, embora isso nem sempre seja possível. Se você se sentir motivado a adicionar algumas palavras sobre o que há de tão bom no livro, isso também …

4
Por que ANOVA é equivalente a regressão linear?
Eu li que ANOVA e regressão linear são a mesma coisa. Como pode ser isso, considerando que a saída da ANOVA é um valor e algum valor p com base no qual você conclui se a média da amostra nas diferentes amostras é igual ou diferente.FFFppp Mas, assumindo que as …
50 regression  anova 

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.