Estatísticas e Big Data

Perguntas e respostas para pessoas interessadas em estatística, aprendizado de máquina, análise de dados, mineração de dados e visualização de dados

4
Extrapolação v. Interpolação
Qual é a diferença entre extrapolação e interpolação e qual é a maneira mais precisa de usar esses termos? Por exemplo, eu vi uma declaração em um documento usando interpolação como: "O procedimento interpola a forma da função estimada entre os pontos da posição" Uma frase que usa extrapolação e …


1
Existe análise fatorial ou PCA para dados ordinais ou binários?
Concluí a análise de componentes principais (PCA), análise fatorial exploratória (EFA) e análise fatorial confirmatória (CFA), tratando dados em escala likert (respostas em cinco níveis: nenhuma, um pouco, algumas, etc.) como contínua variável. Em seguida, usando Lavaan, repeti o CFA definindo as variáveis ​​como categóricas. Gostaria de saber para que …


1
Quão incorreto é um modelo de regressão quando as suposições não são atendidas?
Ao ajustar um modelo de regressão, o que acontece se as suposições das saídas não forem atendidas, especificamente: O que acontece se os resíduos não forem homocedásticos? Se os resíduos mostrarem um padrão crescente ou decrescente na plotagem Residuais vs. Ajustados. O que acontece se os resíduos não forem normalmente …

2
Ruído branco nas estatísticas
Costumo ver o termo ruído branco aparecendo ao ler sobre diferentes modelos estatísticos. No entanto, devo admitir que não tenho muita certeza do que isso significa. Geralmente é abreviado como WN(0,σ2)WN(0,σ2)WN(0,σ^2) . Isso significa que é normalmente distribuído ou poderia seguir alguma distribuição?


1
Função de perda XGBoost Aproximação com expansão de Taylor
Como exemplo, assumir a função objetivo do modelo XGBoost no 'th iteração:ttt L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) onde é a função de perda, é o 'th saída de árvore e é a regularização. Uma das (muitas) etapas principais para o cálculo rápido é a aproximação:ℓℓ\ellftftf_ttttΩΩ\Omega L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), onde e são a primeira e a …






1
Comparando dendrogramas hierárquicos de agrupamento obtidos por diferentes distâncias e métodos
[O título inicial "Medição de similaridade para árvores de cluster hierárquicas" foi posteriormente alterado por @ttnphns para refletir melhor o tópico] Estou realizando várias análises hierárquicas de cluster em um quadro de dados de registros de pacientes (por exemplo, semelhante a http://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y ) Estou experimentando diferentes medidas de distância , …


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.