Estatísticas e Big Data

1

lme () e lmer () dando resultados conflitantes

Eu tenho trabalhado com alguns dados que têm alguns problemas com medições repetidas. Ao fazer isso, notei um comportamento muito diferente entre lme()e lmer()usando meus dados de teste e quero saber o porquê. O conjunto de dados falsos que criei possui medidas de altura e peso para 10 indivíduos, tiradas …

20 r mixed-model lme4-nlme

3

Encontrando uma maneira de simular números aleatórios para esta distribuição

Eu estou tentando escrever um programa em R que simula números pseudo-aleatórios de uma distribuição com a função de distribuição cumulativa: F(x)=1−exp(−ax−bp+1xp+1),x≥0F(x)=1−exp⁡(−ax−bp+1xp+1),x≥0F(x)= 1-\exp \left(-ax-\frac{b}{p+1}x^{p+1}\right), \quad x \geq 0 ondea,b>0,p∈(0,1)a,b>0,p∈(0,1)a,b>0, p \in (0,1) Tentei amostragem por transformada inversa, mas a inversa não parece analiticamente solucionável. Ficaria feliz se você pudesse sugerir …

20 r random-generation

4

Exemplo de uma distribuição discreta não negativa em que a média (ou outro momento) não existe?

Eu estava trabalhando com scipy e surgiu uma conversa com um membro do grupo principal sobre se uma variável aleatória discreta não negativa pode ter um momento indefinido. Eu acho que ele está correto, mas não tem uma prova à mão. Alguém pode mostrar / provar esta reivindicação? (ou se …

20 mathematical-statistics expected-value

9

Overfitting e Underfitting

Fiz algumas pesquisas sobre sobreaquecimento e desajustamento e compreendi o que elas são exatamente, mas não consigo encontrar os motivos. Quais são as principais razões para sobreajustar e não adequar? Por que enfrentamos esses dois problemas no treinamento de um modelo?

20 machine-learning dataset overfitting

4

A probabilidade cotidiana é apenas uma maneira de lidar com o desconhecido (sem falar de física quântica aqui)?

Parece que na probabilidade cotidiana (não na física quântica), as probabilidades são realmente apenas um substituto para um desconhecido. Tome um flip de moeda, por exemplo. Dizemos que é "aleatório", uma mudança de 50% da cabeça e 50% de chance de rabos. No entanto, se eu soubesse exatamente a densidade, …

20 probability philosophical

2

FPR (taxa de falsos positivos) vs FDR (taxa de descobertas falsas)

A citação a seguir vem do famoso artigo de pesquisa Estatística significativa para estudos genômicos de Storey & Tibshirani (2003): Por exemplo, uma taxa de falso positivo de 5% significa que, em média, 5% dos recursos verdadeiramente nulos no estudo serão considerados significativos. Um FDR (taxa de descoberta falsa) de …

20 hypothesis-testing false-discovery-rate type-i-and-ii-errors confusion-matrix false-positive-rate

1

Regressão para variáveis independentes categóricas e uma variável dependente contínua

Acabei de perceber que sempre trabalhei com problemas de regressão em que as variáveis independentes sempre eram numéricas. Posso usar regressão linear no caso em que todas as variáveis independentes são categóricas?

20 regression categorical-data

3

Entendendo o parâmetro input_shape no LSTM com Keras

Estou tentando usar o exemplo descrito na documentação do Keras chamada "LSTM empilhado para classificação de sequência" (consulte o código abaixo) e não consigo descobrir o input_shapeparâmetro no contexto dos meus dados. Eu tenho como entrada uma matriz de sequências de 25 caracteres possíveis codificados em números inteiros para uma …

20 lstm keras shape dimensions

4

Se várias comparações são "planejadas", você ainda precisa corrigir várias comparações?

Estou revendo um artigo que realizou mais de 15 testes separados 2x2 Chi Square. Sugeri que eles precisam corrigir várias comparações, mas eles responderam dizendo que todas as comparações foram planejadas e, portanto, isso não é necessário. Sinto que isso não deve estar correto, mas não consigo encontrar recursos que …

20 hypothesis-testing multiple-comparisons

5

Um exemplo em que o princípio da probabilidade realmente importa?

Existe um exemplo em que dois testes defensáveis diferentes com probabilidades proporcionais levariam um a inferências marcadamente diferentes (e igualmente defensáveis), por exemplo, onde os valores-p estão em ordem de grandeza distante, mas o poder de alternativas é semelhante? Todos os exemplos que vejo são muito tolos, comparando um binômio …

20 mathematical-statistics likelihood philosophical likelihood-principle

1

Por que o LASSO não encontra meu par perfeito de preditores em alta dimensionalidade?

Estou executando um pequeno experimento com regressão LASSO em R para testar se é capaz de encontrar um par preditor perfeito. O par é definido assim: f1 + f2 = resultado O resultado aqui é um vetor predeterminado chamado 'idade'. F1 e f2 são criados pegando metade do vetor de …

20 r regression feature-selection lasso high-dimensional

1

Existe alguma explicação intuitiva sobre por que a regressão logística não funciona para um caso de separação perfeito? E por que adicionar regularização irá corrigi-lo?

Temos muitas boas discussões sobre a separação perfeita na regressão logística. Por exemplo, a regressão logística em R resultou em perfeita separação (fenômeno de Hauck-Donner). O que agora? e o modelo de regressão logística não converge . Pessoalmente, ainda acho que não é intuitivo por que será um problema e …

20 logistic generalized-linear-model optimization intuition separation

1

Das redes bayesianas às redes neurais: como a regressão multivariada pode ser transposta para uma rede de várias saídas

Estou lidando com um modelo linear hierárquico bayesiano , aqui a rede que o descreve. YYY representa as vendas diárias de um produto em um supermercado (observado). XXX é uma matriz conhecida de regressores, incluindo preços, promoções, dia da semana, clima e feriados. SSS é o nível de estoque latente …

20 regression bayesian neural-networks generalized-linear-model bayesian-network

2

Prova de que a estatística F segue a distribuição F

À luz desta pergunta: Prova de que os coeficientes em um modelo OLS seguem uma distribuição t com (nk) graus de liberdade Eu adoraria entender por que F=(TSS−RSS)/(p−1)RSS/(n−p),F=(TSS−RSS)/(p−1)RSS/(n−p), F = \frac{(\text{TSS}-\text{RSS})/(p-1)}{\text{RSS}/(n-p)}, onde é o número de parâmetros de modelo e o número de observações e da variância total, a variância …

20 regression hypothesis-testing least-squares f-distribution f-statistic

1

O MCMC adaptável pode ser confiável?

Estou lendo sobre o MCMC adaptável (veja, por exemplo, o Capítulo 4 do Manual da Cadeia de Markov Monte Carlo , ed. Brooks et al., 2011; e também Andrieu & Thoms, 2008 ). O principal resultado de Roberts e Rosenthal (2007) é que, se o esquema de adaptação satisfizer a …

20 simulation mcmc random-generation metropolis-hastings