Estatísticas e Big Data

2

Teoria por trás da regressão parcial de mínimos quadrados

Alguém pode recomendar uma boa exposição da teoria por trás da regressão de mínimos quadrados parciais (disponível on-line) para alguém que entende SVD e PCA? Procurei muitas fontes on-line e não encontrei nada que tivesse a combinação certa de rigor e acessibilidade. Analisei The Elements of Statistical Learning , que …

33 regression references regularization svd partial-least-squares

2

Como você faz bootstrap com dados de séries temporais?

Recentemente, aprendi sobre o uso de técnicas de inicialização para calcular erros padrão e intervalos de confiança para estimadores. O que eu aprendi foi que, se os dados são IID, você pode tratar os dados da amostra como a população e fazer amostragens com substituição, o que permitirá obter várias …

33 time-series bootstrap

10

Por que a soma de duas variáveis aleatórias é uma convolução?

Por muito tempo não se entender por que a "soma" de duas variáveis aleatórias é a sua convoluo , ao passo que uma soma função densidade da mistura de e éf(x)f(x)f(x)g(x)g(x)g(x)pf(x)+(1−p)g(x)pf(x)+(1−p)g(x)p\,f(x)+(1-p)g(x); a soma aritmética e não a sua convolução. A frase exata "a soma de duas variáveis aleatórias" aparece no …

33 pdf terminology cdf mixture convolution

7

O que é normalidade?

Em muitos métodos estatísticos diferentes, existe uma "suposição de normalidade". O que é "normalidade" e como sei se há normalidade?

33 distributions normality-assumption

7

Como interpretar o coeficiente de variação?

Estou tentando entender o coeficiente de variação . Quando tento aplicá-lo aos dois exemplos de dados a seguir, não consigo entender como interpretar os resultados. Digamos que a amostra 1 seja e a amostra 2 seja . Aqui amostra 2 amostra 1 como você pode ver., 10 , 15 , …

33 descriptive-statistics coefficient-of-variation

1

Se eu gerar uma matriz simétrica aleatória, qual é a chance de ela ser definitiva positiva?

Eu tive uma pergunta estranha quando estava experimentando algumas otimizações convexas. A questão é: Suponha que eu aleatoriamente (digamos distribuição normal padrão) gere uma matriz simétrica (por exemplo, eu gere matriz triangular superior e preencha a metade inferior para garantir que seja simétrica), qual é a chance de ser uma …

32 probability matrix random-generation eigenvalues random-matrix

3

Por que o teste básico de hipóteses se concentra na média e não na mediana?

Nos cursos básicos de estatística de graduação, os alunos são (geralmente?) Ensinados a testar hipóteses para a média de uma população. Por que o foco está na média e não na mediana? Meu palpite é que é mais fácil testar a média devido ao teorema do limite central, mas eu …

32 hypothesis-testing mean inference median

6

Existem exemplos de onde o teorema do limite central não se sustenta?

A Wikipedia diz - Na teoria da probabilidade, o teorema do limite central (CLT) estabelece que, na maioria das situações , quando variáveis aleatórias independentes são adicionadas, sua soma adequadamente normalizada tende a uma distribuição normal (informalmente uma "curva de sino"), mesmo que as próprias variáveis originais não sejam distribuído …

32 probability mathematical-statistics normal-distribution central-limit-theorem

2

As redes contraditórias generativas foram introduzidas por Jürgen Schmidhuber?

Eu li em https://en.wikipedia.org/wiki/Generative_adversarial_networks : [Redes adversárias generativas] foram introduzidas por Ian Goodfellow et al em 2014. mas Jurgen Schmidhuber afirma ter realizado um trabalho semelhante anteriormente nessa direção (por exemplo, houve algum debate no NIPS 2016 durante o tutorial de redes adversárias generativas: https://channel9.msdn.com/Events/Neural-Information-Processing-Systems- Conferência / Sistemas de processamento …

32 neural-networks history gan

3

Por que encontrar pequenos efeitos em grandes estudos indica viés de publicação?

Vários artigos metodológicos (por exemplo, Egger et al 1997a, 1997b) discutem o viés de publicação, revelado por meta-análises, usando gráficos de funil como o abaixo. O artigo de 1997b diz que "se houver viés de publicação, espera-se que, nos estudos publicados, os maiores reportem os menores efeitos". Mas porque é …

32 meta-analysis publication-bias

5

Por que algumas pessoas usam -999 ou -9999 para substituir os valores ausentes?

Eu tenho um conjunto de dados. Existem muitos valores ausentes. Para algumas colunas, o valor ausente foi substituído por -999, mas em outras colunas, o valor ausente foi marcado como 'NA'. Por que usaríamos -999 para substituir o valor ausente?

32 missing-data

2

As variáveis altamente correlacionadas na floresta aleatória não distorcem a precisão e a seleção de recursos?

No meu entendimento, variáveis altamente correlacionadas não causarão problemas de multicolinearidade no modelo aleatório de floresta (por favor, corrija-me se estiver errado). No entanto, por outro lado, se eu tiver muitas variáveis contendo informações semelhantes, o modelo pesará muito nesse conjunto e não nos outros? Por exemplo, existem dois conjuntos …

32 random-forest multicollinearity ensemble

4

Por que usar a regularização na regressão polinomial em vez de diminuir o grau?

Ao fazer a regressão, por exemplo, dois hiper parâmetros a serem escolhidos geralmente são a capacidade da função (por exemplo, o maior expoente de um polinômio) e a quantidade de regularização. O que me deixa confuso é por que não escolher uma função de baixa capacidade e depois ignorar qualquer …

32 regression machine-learning optimization regularization polynomial

8

Devo ensinar estatística bayesiana ou freqüentista primeiro?

Estou ajudando meus meninos, atualmente no ensino médio, a entender estatística, e estou pensando em começar com alguns exemplos simples, sem desconsiderar alguns vislumbres da teoria. Meu objetivo seria fornecer a eles a abordagem mais intuitiva, mas instrumentalmente construtiva, para aprender estatística do zero, a fim de estimular o interesse …

32 probability hypothesis-testing bayesian frequentist teaching

3

O valor-p é uma estimativa pontual?

Como se pode calcular intervalos de confiança para valores-p e como o oposto da estimativa de intervalo é a estimativa pontual: O valor-p é uma estimativa pontual?

32 confidence-interval estimation p-value estimators point-estimation