Estatísticas e Big Data

Perguntas e respostas para pessoas interessadas em estatística, aprendizado de máquina, análise de dados, mineração de dados e visualização de dados

3
Executar a normalização de recursos antes ou dentro da validação do modelo?
Uma boa prática comum no Machine Learning é apresentar normalização ou padronização de dados das variáveis ​​preditoras, é isso, centralizar os dados subtraindo a média e normalizá-los dividindo pela variação (ou desvio padrão também). Para auto-contenção e para minha compreensão, fazemos isso para alcançar duas coisas principais: Evite pesos de …

4
Cumming (2008) afirma que a distribuição dos valores de p obtidos nas repetições depende apenas do valor de p original. Como isso pode ser verdade?
Eu tenho lido o artigo de 2008 de Geoff Cumming, Replication Intervalos: os valores de prevêem o futuro apenas vagamente, mas os intervalos de confiança são muito melhores pppppp p p[~ 200 citações no Google Scholar] - e estou confuso com uma de suas alegações centrais. Este é um dos …




2
Derivação da solução de laço de forma fechada
Para o problema do laço minβ(Y−Xβ)T(Y−Xβ)minβ(Y−Xβ)T(Y−Xβ)\min_\beta (Y-X\beta)^T(Y-X\beta) tal que ∥β∥1≤t‖β‖1≤t\|\beta\|_1 \leq t . Muitas vezes, vejo o resultado do limiar suave βlassoj=sgn(βLSj)(|βLSj|−γ)+βjlasso=sgn(βjLS)(|βjLS|−γ)+ \beta_j^{\text{lasso}}= \mathrm{sgn}(\beta^{\text{LS}}_j)(|\beta_j^{\text{LS}}|-\gamma)^+ para o caso X ortonormal XXX. Alega-se que a solução pode ser "facilmente mostrada", mas nunca vi uma solução funcionada. Alguém viu um ou talvez tenha …
52 lasso 



8
Excel como bancada de estatística
Parece que muitas pessoas (inclusive eu) gostam de fazer análise exploratória de dados no Excel. Algumas limitações, como o número de linhas permitido em uma planilha, são dolorosas, mas na maioria dos casos não tornam impossível o uso do Excel para brincar com dados. Um artigo de McCullough e Heiser …

14
Qual é a caracterização mais surpreendente da distribuição gaussiana (normal)?
Uma distribuição gaussiana padronizada em pode ser definida fornecendo explicitamente sua densidade: RR\mathbb{R}12π−−√e−x2/212πe−x2/2 \frac{1}{\sqrt{2\pi}}e^{-x^2/2} ou sua função característica. Como lembrado nesta pergunta, também é a única distribuição para a qual a média e a variância da amostra são independentes. Quais são outras caracterizações alternativas surpreendentes das medidas gaussianas que você …

10
Clustering com uma matriz de distância
Eu tenho uma matriz (simétrica) Mque representa a distância entre cada par de nós. Por exemplo, ABCDEFGHIJKL A 0 20 20 20 40 60 60 60 100 120 120 120 B 20 0 20 20 60 80 80 80 120 140 140 140 C 20 20 0 20 60 80 …
52 clustering 





Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.