Estatísticas e Big Data

7

Por que uma vírgula é um separador / delimitador de registro incorreto em arquivos CSV?

Eu estava lendo este artigo e estou curioso para saber a resposta adequada a essa pergunta. A única coisa que me vem à cabeça é que talvez em alguns países o separador decimal seja uma vírgula e possa haver problemas ao compartilhar dados em CSV , mas não tenho certeza …

32 project-management

2

Regressão logística: Bernoulli vs. variáveis de resposta binomial

Desejo executar regressão logística com a seguinte resposta binomial e com X1X1X_1 e X2X2X_2 como meus preditores. Eu posso apresentar os mesmos dados que as respostas de Bernoulli no seguinte formato. As saídas de regressão logística para esses 2 conjuntos de dados são basicamente as mesmas. Os resíduos de desvio …

32 logistic binomial aic bernoulli-distribution deviance

2

O que a entropia nos diz?

Estou lendo sobre entropia e estou tendo dificuldades para conceituar o que isso significa no caso contínuo. A página wiki declara o seguinte: A distribuição de probabilidade dos eventos, juntamente com a quantidade de informações de cada evento, forma uma variável aleatória cujo valor esperado é a quantidade média de …

32 entropy

1

Detecção de Anomalia de Link na Rede Temporal

Encontrei este artigo que usa a detecção de anomalias de links para prever tópicos de tendências e achei incrivelmente intrigante: O artigo é "Descobrindo tópicos emergentes em fluxos sociais por meio da detecção de anomalias de links" . Gostaria de replicá-lo em um conjunto de dados diferente, mas não estou …

32 time-series machine-learning outliers python change-point

5

Por que existem duas grafias de "heterocedástico" ou "heterocedástico"?

Vejo frequentemente as grafias "heterocedástico" e "heterocedástico", e da mesma forma para "homoscedástico" e "homosquástico". Parece não haver diferença de significado entre as variantes "c" e "k", simplesmente uma diferença ortográfica relacionada à etimologia grega da palavra. Quais são as origens das duas grafias distintas? Um uso é mais comum …

32 terminology heteroscedasticity etymology

5

Diretrizes da AIC na seleção de modelos

Normalmente, uso o BIC, pois entendo que ele valoriza a parcimônia mais fortemente do que o AIC. No entanto, eu decidi usar uma abordagem mais abrangente agora e gostaria de usar a AIC também. Eu sei que Raftery (1995) apresentou boas diretrizes para diferenças de BIC: 0-2 é fraco, 2-4 …

32 r model-selection references aic bic

1

Comparando dois modelos usando a função anova () em R

A partir da documentação para anova(): Quando dada uma sequência de objetos, 'anova' testa os modelos um contra o outro na ordem especificada ... O que significa testar os modelos um contra o outro? E por que o pedido importa? Aqui está um exemplo do tutorial GenABEL : > modelAdd …

32 r anova

3

Conjuntos de dados construídos para uma finalidade semelhante à do quarteto de Anscombe

Acabei de encontrar o quarteto de Anscombe (quatro conjuntos de dados que têm estatísticas descritivas quase indistinguíveis, mas parecem muito diferentes quando plotados) e estou curioso para saber se existem outros conjuntos de dados mais ou menos conhecidos que foram criados para demonstrar a importância de certos aspectos de análises …

32 regression data-visualization dataset

3

É possível alterar uma hipótese para corresponder aos dados observados (também conhecidos como expedição de pesca) e evitar um aumento nos erros do tipo I?

É sabido que os pesquisadores devem gastar tempo observando e explorando dados e pesquisas existentes antes de formar uma hipótese e, em seguida, coletar dados para testar essa hipótese (referindo-se ao teste de significância de hipótese nula). Muitos livros estatísticos básicos alertam que as hipóteses devem ser formadas a priori …

32 hypothesis-testing

3

Regressão logística do kernel vs SVM

Como é de conhecimento de todos, o SVM pode usar o método kernel para projetar pontos de dados em espaços mais altos, para que os pontos possam ser separados por um espaço linear. Mas também podemos usar a regressão logística para escolher esse limite no espaço do kernel, então quais …

32 svm

3

Por que a inversão de uma matriz de covariância produz correlações parciais entre variáveis aleatórias?

Ouvi dizer que correlações parciais entre variáveis aleatórias podem ser encontradas invertendo a matriz de covariância e obtendo células apropriadas dessa matriz de precisão resultante (esse fato é mencionado em http://en.wikipedia.org/wiki/Partial_correlation , mas sem uma prova) . Por que esse é o caso?

32 covariance covariance-matrix linear-algebra partial-correlation matrix-inverse

4

Implementação de CRF em python

Existe uma implementação popular de campos aleatórios condicionais em Python ? Não consigo encontrar nenhum que seja amplamente usado e popular!

32 machine-learning classification python conditional-random-field

3

É possível encontrar o desvio padrão combinado?

Suponha que eu tenha 2 conjuntos: Conjunto A : número de itens n=10n=10n= 10 , μ=2.4μ=2.4\mu = 2.4 , σ=0.8σ=0.8\sigma = 0.8 Conjunto B : número de itens n=5n=5n= 5 , μ=2μ=2\mu = 2 , σ=1.2σ=1.2\sigma = 1.2 Posso encontrar a média combinada ( μμ\mu ) facilmente, mas como devo …

32 standard-deviation

2

Existe uma versão de amostra da desigualdade unilateral de Chebyshev?

Estou interessado na seguinte versão unilateral de Cantelli da desigualdade de Chebyshev : P(X−E(X)≥t)≤Var(X)Var(X)+t2.P(X−E(X)≥t)≤Var(X)Var(X)+t2. \mathbb P(X - \mathbb E (X) \geq t) \leq \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \,. Basicamente, se você conhece a média e a variação da população, pode calcular o limite superior da probabilidade de observar um determinado valor. …

32 probability mathematical-statistics probability-inequalities mean

1

Por que R retornaria NA como um coeficiente lm ()?

Estou ajustando um lm()modelo a um conjunto de dados que inclui indicadores para o trimestre financeiro (Q1, Q2, Q3, tornando Q4 um padrão). Usando lm(Y~., data = data), recebo a NAcomo coeficiente para o terceiro trimestre e um aviso de que uma variável foi excluída por causa de singularidades. Preciso …

32 r regression