Estatísticas e Big Data

Perguntas e respostas para pessoas interessadas em estatística, aprendizado de máquina, análise de dados, mineração de dados e visualização de dados

3
Por que a regressão polinomial é considerada um caso especial de regressão linear múltipla?
Se a regressão polinomial modela relações não lineares, como pode ser considerado um caso especial de regressão linear múltipla? A Wikipedia observa que "Embora a regressão polinomial ajuste um modelo não linear aos dados, como um problema de estimativa estatística é linear, no sentido de que a função de regressão …


2
Qual é a diferença entre regressão quantílica condicional e incondicional?
τt hτth\tau^{th} βˆQ R= minb∑i = 1nρτ( yEu- X′Eubτ)β^QR=minb∑Eu=1nρτ(yEu-XEu′bτ) \widehat{\beta}_{QR} = \min_{b} \sum^{n}_{i=1} \rho_\tau (y_i - X'_i b_\tau) ρτ= uEu⋅ ( τ- 1 ( uEu&lt; 0 ) )ρτ=vocêEu⋅(τ-1(vocêEu&lt;0 0))\rho_\tau = u_i\cdot (\tau - 1(u_i<0))vocêEuvocêEuu_i . Em um artigo de Firpo et al. (2009) , os autores afirmam que a regressão …

2
O que é identificabilidade do modelo?
Eu sei que com um modelo que não é identificável, pode-se dizer que os dados são gerados por várias atribuições diferentes aos parâmetros do modelo. Eu sei que às vezes é possível restringir parâmetros para que todos sejam identificáveis, como no exemplo em Cassella &amp; Berger 2nd ed, seção 11.2. …


2
Quando Poisson e regressões binomiais negativas se ajustam aos mesmos coeficientes?
Notei que em R, Poisson e regressões binomiais negativas (RN) sempre parecem se encaixar nos mesmos coeficientes para preditores categóricos, mas não contínuos. Por exemplo, aqui está uma regressão com um preditor categórico: data(warpbreaks) library(MASS) rs1 = glm(breaks ~ tension, data=warpbreaks, family="poisson") rs2 = glm.nb(breaks ~ tension, data=warpbreaks) #compare coefficients …

5
Previsão na regressão de Cox
Estou fazendo uma regressão multivariada de Cox, tenho minhas variáveis ​​independentes significativas e valores beta. O modelo se ajusta muito bem aos meus dados. Agora, eu gostaria de usar meu modelo e prever a sobrevivência de uma nova observação. Não estou claro como fazer isso com um modelo de Cox. …


4
Estatísticas aproximadas de ordem para variáveis ​​aleatórias normais
Existem fórmulas bem conhecidas para as estatísticas de ordem de determinadas distribuições aleatórias? Particularmente as estatísticas de primeira e última ordem de uma variável aleatória normal, mas uma resposta mais geral também seria apreciada. Editar: para esclarecer, estou procurando por fórmulas aproximadas que possam ser avaliadas mais ou menos explicitamente, …

5
Séries temporais 'clustering' em R
Eu tenho um conjunto de dados de séries temporais. Cada série cobre o mesmo período, embora as datas reais de cada série cronológica nem sempre sejam exatamente alinhadas. Ou seja, se as séries temporais fossem lidas em uma matriz 2D, seria algo como isto: date T1 T2 T3 .... TN …

8
É válido incluir uma medida de linha de base como variável de controle ao testar o efeito de uma variável independente nas pontuações de mudança?
Estou tentando executar uma regressão OLS: DV: Alteração de peso ao longo de um ano (peso inicial - peso final) IV: Se você se exercita ou não. No entanto, parece razoável que pessoas mais pesadas percam mais peso por unidade de exercício do que pessoas mais magras. Assim, eu queria …

6
Qual é a conexão entre regiões credíveis e testes de hipóteses bayesianas?
Nas estatísticas freqüentistas, há uma estreita conexão entre intervalos de confiança e testes. Usando inferência sobre na distribuição como exemplo, o intervalo de confiança contém todos os valores de que não são rejeitados pelo teste no nível de significância .N ( μ , σ 2 ) 1 - αμμ\muN(μ,σ2)N(μ,σ2)\rm N(\mu,\sigma^2)1−α1−α1-\alpha …

9
Qual é a relação entre
Qual é a relação entre YYY e XXX no gráfico a seguir? Na minha opinião, existe um relacionamento linear negativo, mas, como temos muitos discrepantes, o relacionamento é muito fraco. Estou certo? Quero aprender como podemos explicar gráficos de dispersão.

9
Como posso modelar eficientemente a soma das variáveis ​​aleatórias de Bernoulli?
YYYXiXiX_ipipip_iY=∑XiY=∑XiY=\sum X_iPr(Xi=1)=piPr(Xi=1)=pi\Pr(X_i=1)=p_iPr(Xi=0)=1−piPr(Xi=0)=1−pi\Pr(X_i=0)=1-p_i . Estou interessado em responder rapidamente a perguntas como (ondePr(Y&lt;=k)Pr(Y&lt;=k)\Pr(Y<=k)kkk é fornecido). Atualmente, uso simulações aleatórias para responder a essas perguntas. Eu desenho aleatoriamente cada XiXiX_i acordo com o seu pipip_i , depois soma todos os valores de XiXiX_i para obter Y′Y′Y' . Repito esse processo alguns milhares …


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.