Estatísticas e Big Data

2

Interpretando a plotagem de resíduos versus valores ajustados para verificar as suposições de um modelo linear

Considere a figura a seguir dos Modelos Lineares de Faraway com R (2005, p. 59). O primeiro gráfico parece indicar que os resíduos e os valores ajustados não estão correlacionados, pois deveriam estar em um modelo linear homoscedástico com erros normalmente distribuídos. Portanto, as segunda e terceira parcelas, que parecem …

34 regression residuals assumptions graphical-model

3

O que significa a pontuação do Akaike Information Criterion (AIC) de um modelo?

Eu já vi algumas perguntas aqui sobre o que isso significa em termos leigos, mas estas são muito leigas para o meu propósito aqui. Estou tentando entender matematicamente o que significa a pontuação da AIC. Mas, ao mesmo tempo, não quero uma prova de rigor que me faça não ver …

34 self-study model-selection aic entropy information-theory

1

A amostragem negativa altera os coeficientes de regressão logística?

Se eu tiver um conjunto de dados com uma classe positiva muito rara e fizer uma amostragem negativa da classe negativa e executar uma regressão logística, preciso ajustar os coeficientes de regressão para refletir o fato de que alterei a prevalência da classe positiva? Por exemplo, digamos que eu tenha …

34 logistic unbalanced-classes case-control-study

2

Quais são as diferenças práticas entre os procedimentos de taxa de descoberta falsa de Benjamini e Hochberg (1995) e Benjamini e Yekutieli (2001)?

Meu programa de estatística implementa os procedimentos de Benjamini & Hochberg (1995) e Benjamini & Yekutieli (2001) taxa de descoberta falsa (FDR). Fiz o possível para ler o artigo posterior, mas ele é matematicamente denso e não estou razoavelmente certo de que entendo a diferença entre os procedimentos. Eu posso …

34 post-hoc false-discovery-rate

5

A distribuição beta tem um conjugado antes?

Eu sei que a distribuição beta é conjugada ao binômio. Mas qual é o conjugado anterior ao beta? Obrigado.

34 beta-distribution conjugate-prior

2

Seleção de modelos e validação cruzada: o caminho certo

Existem vários threads no CrossValidated no tópico seleção de modelo e validação cruzada. Aqui estão alguns: Validação cruzada interna x externa e seleção de modelo A melhor resposta de @ DikranMarsupial para Seleção de recursos e validação cruzada No entanto, as respostas para esses encadeamentos são bastante genéricas e destacam …

34 cross-validation model-selection

5

Backpropagation vs Algorithm Genetic para treinamento em Redes Neurais

Eu li alguns artigos discutindo prós e contras de cada método, alguns argumentando que o GA não melhora nenhuma a solução ideal, enquanto outros mostram que é mais eficaz. Parece que o GA é geralmente preferido na literatura (embora a maioria das pessoas o modifique de alguma maneira para alcançar …

34 neural-networks genetic-algorithms backpropagation

3

Por que a matriz de correlação precisa ser semi-definida positiva e o que significa ser ou não ser semi-definida positiva?

Tenho pesquisado o significado de propriedade semi-definida positiva de matrizes de correlação ou covariância. Estou procurando qualquer informação sobre Definição de semi-definição positiva; Suas propriedades importantes, implicações práticas; A consequência de ter determinante negativo, impacto na análise multivariada ou nos resultados de simulação, etc.

34 covariance-matrix eigenvalues determinant correlation-matrix

3

Normalidade da variável dependente = normalidade dos resíduos?

Esse problema parece elevar sua cabeça feia o tempo todo, e estou tentando decapitá-lo para meu próprio entendimento de estatística (e sanidade!). As suposições dos modelos lineares gerais (teste t, ANOVA, regressão etc.) incluem a "suposição de normalidade", mas descobri que isso raramente é descrito claramente. Muitas vezes encontro livros …

34 normal-distribution residuals normality-assumption

3

Como posso testar se um efeito aleatório é significativo?

Estou tentando entender quando usar um efeito aleatório e quando é desnecessário. Foi-me dito uma regra prática: se você tem 4 ou mais grupos / indivíduos, eu (15 alces individuais). Alguns desses alces foram experimentados 2 ou 3 vezes, para um total de 29 tentativas. Quero saber se eles se …

34 mixed-model lme4-nlme random-effects-model glmm

3

Correspondência de pontuação de propensão após imputação múltipla

Refiro-me a este artigo: Hayes JR, Groner JI. "Usando várias pontuações de imputação e propensão para testar o efeito de assentos de carro e uso de cinto de segurança na gravidade de lesões de dados de registro de trauma" J Pediatr Surg. Maio de 2008; 43 (5): 924-7. Neste estudo, …

34 missing-data propensity-scores

3

Diferença entre modelos lineares generalizados e modelos mistos lineares generalizados

Eu estou querendo saber quais são as diferenças entre GLMs mistos e não misturados. Por exemplo, no SPSS, o menu suspenso permite que os usuários se ajustem: analyze-> generalized linear models-> generalized linear models & analyze-> mixed models-> generalized linear Eles lidam com valores ausentes de maneira diferente? Minha variável …

34 mixed-model generalized-linear-model glmm gee

2

Cluster hierárquico com dados de tipo misto - que distância / semelhança usar?

No meu conjunto de dados, temos variáveis contínuas e naturalmente discretas. Quero saber se podemos fazer cluster hierárquico usando os dois tipos de variáveis. E se sim, que medida de distância é apropriada?

34 clustering similarities distance-functions mixed-type-data

5

Você pode se aperfeiçoar treinando algoritmos de aprendizado de máquina usando CV / Bootstrap?

Essa questão pode ser muito aberta para obter uma resposta definitiva, mas espero que não. Algoritmos de aprendizado de máquina, como SVM, GBM, Random Forest etc., geralmente possuem alguns parâmetros livres que, além de algumas orientações básicas, precisam ser ajustados para cada conjunto de dados. Isso geralmente é feito com …

34 machine-learning cross-validation bootstrap optimization resampling

7

Por que é ruim ensinar aos alunos que os valores-p são a probabilidade de que os resultados sejam devidos ao acaso?

Alguém pode, por favor, oferecer uma boa explicação sucinta por que não é uma boa idéia ensinar aos alunos que um valor-p é o prob (suas descobertas são devidas ao acaso [aleatório]). Meu entendimento é que um valor p é o prob (obter dados mais extremos | hipótese nula é …

34 p-value randomness teaching