Estatísticas e Big Data

Perguntas e respostas para pessoas interessadas em estatística, aprendizado de máquina, análise de dados, mineração de dados e visualização de dados


4
GEE: escolhendo a estrutura de correlação de trabalho adequada
Sou um epidemiologista tentando entender os GEEs para analisar adequadamente um estudo de coorte (usando a regressão de Poisson com um link de log para estimar o risco relativo). Tenho algumas perguntas sobre a "correlação de trabalho" que gostaria que alguém com mais conhecimento esclarecesse: (1) Se eu repeti medições …
19 gee 



3
Como avaliar a assimetria de um boxplot?
Como decidir a assimetria observando um boxplot construído com esses dados: 340, 300, 520, 340, 320, 290, 260, 330 Um livro diz: "Se o quartil inferior estiver mais distante da mediana do que o quartil superior, a distribuição será distorcida negativamente". Várias outras fontes disseram mais ou menos o mesmo. …

2
Bootstrapping - preciso remover os outliers primeiro?
Realizamos um teste de divisão de um novo recurso do produto e queremos avaliar se o aumento da receita é significativo. Definitivamente, nossas observações não são distribuídas normalmente (a maioria de nossos usuários não gasta e, naquelas que gastam, é fortemente direcionada a muitos pequenos gastadores e alguns grandes). Decidimos …

1
Quando um jacobiano analítico está disponível, é melhor aproximar o hessiano por , ou por diferenças finitas do jacobiano?
Digamos que eu esteja computando alguns parâmetros do modelo, minimizando a soma dos resíduos ao quadrado e assumindo que meus erros são gaussianos. Meu modelo produz derivadas analíticas, portanto, o otimizador não precisa usar diferenças finitas. Quando o ajuste estiver completo, desejo calcular erros padrão dos parâmetros ajustados. Geralmente, nessa …

1
Circunflexo e coeficientes (glmnet)
Estou interessado em utilizar o sinal de intercalação para fazer inferências sobre um conjunto de dados específico. É possível fazer o seguinte: produzir coeficientes de um modelo glmnet que eu treinei em circunflexo. Eu gostaria de usar o glmnet por causa da seleção de recursos inerentes, pois não acredito que …
19 caret  glmnet 


2
A floresta aleatória está super ajustada?
Estou experimentando florestas aleatórias com o scikit-learn e estou obtendo ótimos resultados do meu conjunto de treinamento, mas resultados relativamente ruins no meu conjunto de testes ... Aqui está o problema (inspirado no poker) que estou tentando resolver: Dadas as cartas do jogador A, as cartas do jogador B e …


1
Obtendo valores p para "multinom" no R (pacote nnet)
Como obtenho valores de p usando a multinomfunção nnetpackage R? Eu tenho um conjunto de dados que consiste em "Escores de patologia" (ausente, leve, grave) como variável de resultado e dois efeitos principais: idade (dois fatores: vinte / trinta dias) e grupo de tratamento (quatro fatores: infectados sem ATB; infectados …


5
Qual é a melhor maneira de visualizar o relacionamento entre variáveis ​​discretas e contínuas?
Qual é a melhor maneira de mostrar um relacionamento entre: variável contínua e discreta, duas variáveis ​​discretas? Até agora, usei gráficos de dispersão para examinar a relação entre variáveis ​​contínuas. No entanto, no caso de variáveis ​​discretas, os pontos de dados são acumulados em determinados intervalos. Assim, a linha de …


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.