Estatísticas e Big Data

Perguntas e respostas para pessoas interessadas em estatística, aprendizado de máquina, análise de dados, mineração de dados e visualização de dados



5
Relações entre
Digamos que eu tenha duas matrizes unidimensionais, uma1a1a_1 e uma2a2a_2 . Cada um contém 100 pontos de dados. uma1a1a_1 são os dados reais, e uma2a2a_2 é a previsão do modelo. Nesse caso, o valor de R2R2R^2 seria: R2= 1 - SSr e sSSt o t ( 1 ) .R2=1−SSresSStot (1). …


2
Medidas de importância variável em florestas aleatórias
Venho brincando com florestas aleatórias para regressão e estou tendo dificuldade em descobrir exatamente o que as duas medidas de importância significam e como elas devem ser interpretadas. A importance()função fornece dois valores para cada variável: %IncMSEe IncNodePurity. Existem interpretações simples para esses 2 valores? Em IncNodePurityparticular, isso é simplesmente …

6
Retropropagação com Softmax / Cross Entropy
Estou tentando entender como a retropropagação funciona para uma camada de saída softmax / entropia cruzada. A função de erro de entropia cruzada é E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j com ttt e ooo como alvo e saída no neurônio jjj , respectivamente. A soma é sobre cada neurônio na camada de …




3
Como interpretar os valores F e p na ANOVA?
Eu sou novo em estatística e atualmente lida com ANOVA. Realizo um teste ANOVA em R usando aov(dependendVar ~ IndependendVar) Eu recebo - entre outros - um valor F e um valor p. Minha hipótese nula ( H0H0H_0 ) é que todas as médias de grupos são iguais. Há muitas …

2
O modelo de regressão logística não converge
Tenho alguns dados sobre voos de companhias aéreas (em um quadro de dados chamado flights) e gostaria de ver se o tempo de voo tem algum efeito na probabilidade de chegada significativamente atrasada (ou seja, 10 ou mais minutos). Imaginei que usaria regressão logística, com o tempo de vôo como …
40 r  logistic  separation 

3
Relação empírica entre média, mediana e moda
Para uma distribuição unimodal moderadamente inclinada, temos a seguinte relação empírica entre média, mediana e modo: Como foi essa relação derivado?(Média - Modo) ∼ 3(Média mediana)(Média - Modo)∼3(Média mediana) \text{(Mean - Mode)}\sim 3\,\text{(Mean - Median)} Karl Pearson planejou milhares desses relacionamentos antes de formar essa conclusão, ou existe uma linha …

7
Normalização e padronização de dados em redes neurais
Estou tentando prever o resultado de um sistema complexo usando redes neurais (RNAs). Os valores do resultado (dependentes) variam entre 0 e 10.000. As diferentes variáveis ​​de entrada têm intervalos diferentes. Todas as variáveis ​​têm distribuições aproximadamente normais. Considero diferentes opções para dimensionar os dados antes do treinamento. Uma opção …

3
Diferença entre floresta aleatória e árvores extremamente aleatórias
Entendi que Floresta Aleatória e Árvores Extremamente Aleatórias diferem no sentido de que as divisões das árvores na Floresta Aleatória são determinísticas, enquanto que são aleatórias no caso de Árvores Extremamente Aleatórias (para ser mais preciso, a próxima divisão é a melhor divisão entre divisões uniformes aleatórias nas variáveis ​​selecionadas …


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.