Estatísticas e Big Data

3

Gere dados aleatórios correlacionados entre uma variável binária e uma variável contínua

Eu quero gerar duas variáveis. Um é variável de resultado binário (digamos sucesso / fracasso) e o outro é a idade em anos. Quero que a idade seja positivamente correlacionada com o sucesso. Por exemplo, deve haver mais sucessos nos segmentos etários mais altos do que nos mais baixos. Idealmente, …

23 correlation random-variable random-generation binary-data

2

Qual é a diferença entre PCA e PCA assintótico?

Em dois trabalhos em 1986 e 1988 , Connor e Korajczyk propuseram uma abordagem para modelar o retorno de ativos. Como essas séries temporais geralmente têm mais ativos do que as observações do período, eles propuseram realizar um PCA nas covariâncias transversais dos retornos dos ativos. Eles chamam esse método …

23 pca econometrics

2

Variáveis de cluster baseadas em correlações entre elas

Questões: Eu tenho uma grande matriz de correlação. Em vez de agrupar correlações individuais, quero agrupar variáveis com base em suas correlações umas com as outras, ou seja, se a variável A e a variável B tiverem correlações semelhantes às variáveis C a Z, então A e B devem fazer …

23 correlation clustering correlation-matrix

2

Forense estatístico: Benford e além

Que métodos amplos existem para detectar fraudes, anomalias, falsificações etc. em trabalhos científicos produzidos por terceiros? (Fui motivado a perguntar isso pelo recente caso de Marc Hauser .) Geralmente, por fraude eleitoral e contábil, é citada alguma variante da Lei de Benford . Não tenho certeza de como isso poderia …

23 meta-analysis fraud

5

Alternativas às árvores de classificação, com melhor desempenho preditivo (por exemplo: CV)?

Estou procurando uma alternativa para as árvores de classificação que possam gerar melhor poder preditivo. Os dados com os quais estou lidando têm fatores para as variáveis explicativas e explicadas. Lembro-me de cruzar florestas aleatórias e redes neurais nesse contexto, embora nunca as tenha experimentado antes. Existe outro bom candidato …

23 r machine-learning classification cart

2

Modelos de estatística espacial: CAR vs SAR

Quando alguém prefere usar um modelo autorregressivo condicional em vez de um modelo autorregressivo simultâneo ao modelar dados aéreos georreferenciados autocorrelacionados?

23 modeling spatial

9

Séries temporais para dados de contagem, com contagens <20

Recentemente, comecei a trabalhar em uma clínica de tuberculose. Nos reunimos periodicamente para discutir o número de casos de TB que estamos tratando atualmente, o número de testes administrados, etc. Gostaria de começar a modelar essas contagens para não ficar apenas imaginando se algo é incomum ou não. Infelizmente, tive …

23 r time-series poisson-distribution count-data epidemiology

5

O que há de errado com esse algoritmo de embaralhamento “ingênuo”?

Este é um seguimento de uma pergunta do Stackoverflow sobre embaralhar uma matriz aleatoriamente . Existem algoritmos estabelecidos (como o Knuth-Fisher-Yates Shuffle ) que se deve usar para embaralhar uma matriz, em vez de confiar em implementações ad-hoc "ingênuas". Agora estou interessado em provar (ou refutar) que meu algoritmo ingênuo …

23 combinatorics randomness

1

Explicação do min_child_weight no algoritmo xgboost

A definição do parâmetro min_child_weight no xgboost é fornecida como: soma mínima do peso da instância (hessian) necessária em uma criança. Se a etapa de partição em árvore resultar em um nó folha com a soma do peso da instância menor que min_child_weight, o processo de criação desistirá de particionar …

23 machine-learning xgboost hessian

1

Quais são exatamente os mecanismos de atenção?

Mecanismos de atenção têm sido utilizados em vários trabalhos de Deep Learning nos últimos anos. Ilya Sutskever, chefe de pesquisa da Open AI, elogiou-os com entusiasmo: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 Eugenio Culurciello, da Universidade de Purdue, afirmou que RNNs e LSTMs deveriam ser abandonados em favor de redes neurais puramente baseadas na atenção: …

23 time-series deep-learning lstm rnn attention

1

Monte Carlo Hamiltoniano vs. Monte Carlo Sequencial

Estou tentando entender os méritos e desvantagens relativos, bem como os diferentes domínios de aplicativos desses dois esquemas do MCMC. Quando você usaria qual e por quê? Quando um pode falhar, mas o outro não (por exemplo, onde o HMC é aplicável, mas o SMC não e vice-versa) Alguém, concedido …

23 mcmc random-walk particle-filter probabilistic-programming hmc

2

Por que existem duas formulações / notações de perda logística diferentes?

Eu já vi dois tipos de formulações de perda logística. Podemos mostrar facilmente que eles são idênticos, a única diferença é a definição do rótulo .yyy Formulação / notação 1, :y∈{0,+1}y∈{0,+1}y \in \{0, +1\} L(y,βTx)=−ylog(p)−(1−y)log(1−p)L(y,βTx)=−ylog⁡(p)−(1−y)log⁡(1−p) L(y,\beta^Tx)=-y\log(p)-(1-y)\log(1-p) onde , em que a função logística mapeia um número real para um intervalo …

23 logistic generalized-linear-model notation loss-functions

3

Um

Esta pergunta foi migrada do Stack Overflow porque pode ser respondida em Validação cruzada. Migrou há 3 anos . Nas estatísticas, estamos fazendo regressões lineares, o próprio começo delas. Em geral, sabemos que quanto maior o , melhor, mas existe um cenário em que um alto seria um modelo inútil?R2R2R^2R2R2R^2

23 regression r-squared

2

O que é uma região de maior densidade (HDR)?

Na inferência estatística , problema 9.6b, é mencionada uma "Região de Maior Densidade (HDR)". No entanto, não encontrei a definição desse termo no livro. Um termo semelhante é a Densidade Posterior Mais Alta (HPD). Mas isso não se encaixa nesse contexto, pois 9.6b não menciona nada sobre um anterior. E …

23 confidence-interval estimation definition credible-interval highest-density-region

3

Coordenada vs. descida de gradiente

Eu queria saber quais são os diferentes casos de uso para os dois algoritmos, descida de coordenadas e descida de gradiente . Eu sei que a descida de coordenadas tem problemas com funções não suaves, mas é usada em algoritmos populares como SVM e LASSO. Acho que a descida em …

23 optimization gradient-descent