Estatísticas e Big Data

9

Alguém conhece algum bom software de código aberto para visualizar dados do banco de dados?

Recentemente, me deparei com o Tableau e tentei visualizar os dados do banco de dados e do arquivo csv. A interface do usuário permite que ele visualize tempo e dados espaciais e crie gráficos em um instante. Essa ferramenta é realmente útil, pois permite observar os dados graficamente sem escrever …

50 data-visualization software interactive-visualization

6

Que livro é recomendável começar a aprender estatística usando R ao mesmo tempo?

Livros para aprender estatística usando R Qual é exatamente o livro que estou procurando? O que eu estou procurando é um livro que ensine estatística enquanto você usa R para lhe proporcionar uma experiência prática e, assim, acaba ajudando você a aprender R juntos. Já vi na Amazon muitos livros …

50 r references

5

Qual é a diferença entre N e N-1 no cálculo da variação populacional?

Não entendi o porquê Ne N-1ao calcular a variação da população. Quando usamos Ne quando usamos N-1? Clique aqui para uma versão maior Diz que quando a população é muito grande, não há diferença entre N e N-1, mas não diz por que existe N-1 no início. Edit: Por favor, …

50 variance population

6

A regressão de crista é inútil em altas dimensões ( )? Como o OLS pode não se adequar demais?

Considere um bom problema de regressão antigo com preditores de e tamanho da amostra . A sabedoria usual é que o estimador OLS superajuste e geralmente será superado pelo estimador de regressão de crista:É padrão usar a validação cruzada para encontrar um parâmetro de regularização ideal . Aqui eu uso …

50 cross-validation regularization overfitting ridge-regression shrinkage

5

Ortografia correta (letras maiúsculas, itálico, hifenização) de "valor-p"?

Sei que isso é pedante e banal, mas como pesquisador em um campo fora da estatística, com educação formal limitada em estatística, sempre me pergunto se estou escrevendo "valor-p" corretamente. Especificamente: O "p" deveria ser capitalizado? O "p" deveria estar em itálico? (Ou em fonte matemática, em TeX?) Supõe-se que …

50 hypothesis-testing p-value terminology

3

Como estamos definindo 'pesquisa reproduzível'?

Isso surgiu em algumas perguntas agora, e eu estive pensando em algo. O campo como um todo mudou para a "reprodutibilidade", com foco na disponibilidade dos dados originais e no código em questão? Sempre fui ensinado que o núcleo da reprodutibilidade não era necessariamente, como já referi, a capacidade de …

50 reproducible-research philosophical

13

Software para desenho de redes bayesianas (modelos gráficos)

Estou procurando um software [gratuito] que possa produzir modelos gráficos com boa aparência, por exemplo Todas as sugestões serão apreciadas.

50 graphical-model software

1

Codificação one-hot vs dummy no Scikit-learn

Existem duas maneiras diferentes de codificar variáveis categóricas. Digamos, uma variável categórica tem n valores. A codificação one-hot converte-a em n variáveis, enquanto a codificação fictícia converte-a em n-1 variáveis. Se tivermos k variáveis categóricas, cada uma com n valores. Uma codificação quente termina com variáveis kn , enquanto a …

50 regression categorical-data data-transformation scikit-learn data-preprocessing

2

Existe uma diferença entre 'controlar para' e 'ignorar' outras variáveis na regressão múltipla?

O coeficiente de uma variável explicativa em uma regressão múltipla nos diz a relação dessa variável explicativa com a variável dependente. Tudo isso, enquanto 'controlando' as outras variáveis explicativas. Como eu o vi até agora: Enquanto cada coeficiente está sendo calculado, as outras variáveis não são levadas em consideração, então …

50 regression multiple-regression

3

Qual é a intuição por trás do SVD?

Eu li sobre decomposição de valor singular (SVD). Em quase todos os livros didáticos, é mencionado que ela fatoriza a matriz em três matrizes com determinada especificação. Mas qual é a intuição por trás da divisão da matriz dessa forma? O PCA e outros algoritmos para redução de dimensionalidade são …

50 matrix linear-algebra svd intuition

3

Clustering com K-Means e EM: como eles estão relacionados?

Estudei algoritmos para agrupar dados (aprendizado não supervisionado): EM e k-means. Eu continuo lendo o seguinte: O k-means é uma variante do EM, com as suposições de que os clusters são esféricos. Alguém pode explicar a frase acima? Eu não entendo o que significa esférico e como kmeans e EM …

50 machine-learning clustering data-mining k-means expectation-maximization

1

Obtenção de valores previstos (Y = 1 ou 0) a partir de um ajuste do modelo de regressão logística

Digamos que eu tenho um objeto de classe glm(correspondente a um modelo de regressão logística) e gostaria de transformar as probabilidades previstas fornecidas predict.glmusando o argumento type="response"em respostas binárias, ou seja, ou Y = 0 . Qual é a maneira mais rápida e canônica de fazer isso no R?Y= 1Y=1Y=1Y= …

50 r generalized-linear-model logistic

4

Por que se preocupar com o problema duplo ao instalar o SVM?

Dado os pontos de dados e etiquetas y 1 , ... , y n ∈ { - 1 , 1 } , a margem de difícil problema SVM primal éx1,…,xn∈Rdx1,…,xn∈Rdx_1, \ldots, x_n \in \mathbb{R}^dy1,…,yn∈{−1,1}y1,…,yn∈{−1,1}y_1, \ldots, y_n \in \left \{-1, 1 \right\} s.t.minimizew,w012wTwminimizew,w012wTw \text{minimize}_{w, w_0} \quad \frac{1}{2} w^T w s.t.∀i:yi(wTxi+w0)≥1s.t.∀i:yi(wTxi+w0)≥1 \text{s.t.} …

50 svm

16

Quais são as recomendações do painel para livros sobre design de experimentos? O ideal é que os livros ainda estejam impressos ou disponíveis eletronicamente, embora isso nem sempre seja possível. Se você se sentir motivado a adicionar algumas palavras sobre o que há de tão bom no livro, isso também …

50 references experiment-design

4

Por que ANOVA é equivalente a regressão linear?

Eu li que ANOVA e regressão linear são a mesma coisa. Como pode ser isso, considerando que a saída da ANOVA é um valor e algum valor p com base no qual você conclui se a média da amostra nas diferentes amostras é igual ou diferente.FFFppp Mas, assumindo que as …

50 regression anova