Estatísticas e Big Data

Perguntas e respostas para pessoas interessadas em estatística, aprendizado de máquina, análise de dados, mineração de dados e visualização de dados

3
Intuição para Expectativa Condicional de -algebra
Seja um espaço de probabilidade, dada uma variável aleatória e um -algebra podemos construir uma nova variável aleatória , que é a expectativa condicional.(Ω,F,μ)(Ω,F,μ)(\Omega,\mathscr{F},\mu)ξ:Ω→Rξ:Ω→R\xi:\Omega \to \mathbb{R}σσ\sigmaG⊆FG⊆F\mathscr{G}\subseteq \mathscr{F}E[ξ|G]E[ξ|G]E[\xi|\mathscr{G}] Qual é exatamente a intuição para pensar em ? Entendo a intuição para o seguinte:E[ξ|G]E[ξ|G]E[\xi|\mathscr{G}] (i) onde é um evento (com probabilidade positiva).E[ξ|A]E[ξ|A]E[\xi|A]AAA …




3
Erro de previsão esperado - derivação
Estou lutando para entender a derivação do erro de previsão esperado abaixo (ESL), especialmente na derivação de 2.11 e 2.12 (condicionamento, o passo em direção ao mínimo pontual). Quaisquer ponteiros ou links muito apreciados. Abaixo, estou relatando o trecho da ESL pág. 18. As duas primeiras equações são, em ordem, …

1
Supervisão distante: supervisionada, semi-supervisionada ou ambas?
"Supervisão à distância" é um esquema de aprendizado no qual um classificador é aprendido, devido a um conjunto de treinamento pouco rotulado (os dados de treinamento são rotulados automaticamente com base em heurísticas / regras). Penso que tanto a aprendizagem supervisionada quanto a semi-supervisionada podem incluir essa "supervisão distante" se …




2
Como e por que a Normalização de lote usa médias móveis para rastrear a precisão do modelo enquanto ele treina?
Eu estava lendo o documento de normalização em lote (BN) (1) e não entendia a necessidade de usar médias móveis para rastrear a precisão do modelo e, mesmo se eu aceitasse que era a coisa certa a fazer, não entendo o que eles estão fazendo exatamente. Para meu entendimento (o …


2
Máquina de aprendizagem extrema: o que é isso tudo?
Estou pensando, implementando e usando o paradigma Extreme Learning Machine (ELM) há mais de um ano, e quanto mais tempo durar, mais duvido que seja realmente uma coisa boa. Minha opinião, no entanto, parece estar em contraste com a comunidade científica, onde - ao usar citações e novas publicações como …
20 regression 

1
Benefícios da amostragem estratificada vs aleatória para gerar dados de treinamento na classificação
Gostaria de saber se existem / algumas vantagens em usar amostragem estratificada em vez de aleatória, ao dividir o conjunto de dados original em conjunto de treinamento e teste para classificação. Além disso, a amostragem estratificada introduz mais viés no classificador do que a amostragem aleatória? O aplicativo, para o …

1
Discussão sobre overfit no xgboost
Minha configuração é a seguinte: Estou seguindo as diretrizes em "Modelagem Preditiva Aplicada". Assim, filtramos os recursos correlatos e terminamos com o seguinte: 4900 pontos de dados no conjunto de treinamento e 1600 pontos de dados no conjunto de teste. Eu tenho 26 recursos e o alvo é uma variável …

2
Prova de convergência de médias k
Para uma tarefa, fui solicitado a fornecer uma prova de que k-means converge em um número finito de etapas. Isto é o que eu escrevi: A seguir, CCC é uma coleção de todos os centros de cluster. Definir uma “energia” função E(C)=∑xmini=1k∥x−ci∥2E(C)=∑xmini=1k‖x−ci‖2E(C)=\sum_{\mathbf{x}}\min_{i=1}^{k}\left\Vert \mathbf{x}-\mathbf{c}_{i}\right\Vert ^{2} A função de energia é não-negativo. …

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.