Estatísticas e Big Data

2

Uma transformação de log é uma técnica válida para testar dados não normais?

Ao revisar um artigo, os autores declaram: "As variáveis de resultados contínuos que exibem uma distribuição distorcida foram transformadas, usando os logaritmos naturais, antes de os testes t serem conduzidos para satisfazer as premissas de pré-requisito da normalidade". Essa é uma maneira aceitável de analisar dados não normais, principalmente se …

19 normal-distribution data-transformation t-test lognormal

3

Quando uma ANOVA de medidas repetidas é preferida a um modelo de efeitos mistos?

Em resposta a essa pergunta, sobre se meu projeto, onde eu aleatoriamente apresentei aos participantes fotos de diferentes categorias, era um exemplo em que eu deveria usar uma ANOVA de medidas repetidas, obtive a resposta de que deveria usar um modelo misto, com uma das opções razões são que eu …

19 anova mixed-model repeated-measures

2

Atualização da probabilidade de classificação em regressão logística ao longo do tempo

Estou construindo um modelo preditivo que prevê a probabilidade de sucesso de um aluno no final de um semestre. Estou especificamente interessado em saber se o aluno é bem-sucedido ou não, onde o sucesso é geralmente definido como a conclusão do curso e a obtenção de 70% ou mais pontos …

19 time-series machine-learning logistic

3

Aprendizagem semi-supervisionada, aprendizagem ativa e aprendizagem profunda para classificação

Edição final com todos os recursos atualizados: Para um projeto, estou aplicando algoritmos de aprendizado de máquina para classificação. Desafio: dados rotulados bastante limitados e muito mais dados não rotulados. Metas: Aplicar classificação semi-supervisionada Aplique um processo de rotulagem semi-supervisionado (conhecido como aprendizado ativo) Encontrei muitas informações de trabalhos de …

19 machine-learning classification software svm text-mining

2

Como prever quando o próximo evento ocorre, com base nos horários dos eventos anteriores?

Sou estudante do ensino médio e estou trabalhando em um projeto de programação de computadores, mas não tenho muita experiência em estatística e modelagem de dados além de um curso de estatística do ensino médio, por isso estou meio confuso. Basicamente, tenho uma lista razoavelmente grande (suponha que seja grande …

19 probability modeling data-mining predictive-models

5

Analógico 2D de desvio padrão?

Considere o seguinte experimento: um grupo de pessoas recebe uma lista de cidades e solicita que marque os locais correspondentes em um mapa do mundo (não marcado). Para cada cidade, você receberá uma dispersão de pontos aproximadamente centralizados na respectiva cidade. Algumas cidades, como Istambul, exibem menos dispersão do que …

19 standard-deviation spatial

4

Visualizando respostas do Likert usando R ou SPSS

Tenho 82 respondentes em 2 grupos (43 no Grupo A e 39 no Grupo B) que completaram uma pesquisa com 65 perguntas do tipo Likert, cada uma variando de 1 a 5 (concordo totalmente - discordo totalmente). Portanto, tenho um quadro de dados com 66 colunas (1 para cada pergunta …

19 r data-visualization spss likert

2

Qual é a distribuição da diferença de duas distribuições t

... e porque ? Supondo que , são variáveis aleatórias independentes com média e variação respectivamente. Meu livro de estatísticas básicas informa que a distribuição do tem as seguintes propriedades:X 2 μ 1 , μ 2 σ 2 1 , σ 2 2 X 1 - X 2X1X1X_1X2X2X_2μ1, μ2μ1,μ2\mu_1,\mu_2σ21, σ22σ12,σ22\sigma^2_1,\sigma^2_2X1- …

19 distributions degrees-of-freedom t-distribution

4

Como calcular o intervalo de confiança da média das médias?

Imagine que você repita um experimento três vezes. Em cada experimento, você coleta medições em triplicado. As triplicatas tendem a estar bastante próximas umas das outras, comparadas às diferenças entre as três médias experimentais. Computar a média geral é bem fácil. Mas como calcular um intervalo de confiança para a …

19 confidence-interval multilevel-analysis

3

Alguém resolveu o exercício 4.1 do PTLOS?

Este é um exercício apresentado na Teoria da Probabilidade: A Lógica da Ciência por Edwin Jaynes, 2003. Há uma solução parcial aqui . Eu elaborei uma solução parcial mais geral e queria saber se mais alguém a resolveu. Vou esperar um pouco antes de postar minha resposta, para dar uma …

19 independence likelihood-ratio hypothesis-testing multiple-comparisons

1

Qual é a opinião da comunidade sobre o Quarto Quadrante?

Nassim Taleb, de fama (ou infâmia) de Cisne Negro , elaborou o conceito e desenvolveu o que ele chama de "um mapa dos limites da Estatística" . Seu argumento básico é que existe um tipo de problema de decisão em que o uso de qualquer modelo estatístico é prejudicial. Esses …

19 distributions modeling random-variable

7

Média de uma janela deslizante em R

Eu tenho um vetor de valores que gostaria de relatar a média nas janelas ao longo de um slide menor. Por exemplo, para um vetor dos seguintes valores: 4, 5, 7, 3, 9, 8 Um tamanho de janela de 3 e um slide de 2 faria o seguinte: (4+5+7)/3 = …

19 r

6

Diferença entre d de Cohen e g de Hedges para métricas de tamanho de efeito

Para uma análise de tamanho de efeito, estou percebendo que existem diferenças entre o d de Cohen, o g de Hedges e o g * de Hedges. Essas três métricas são normalmente muito semelhantes? O que seria um caso em que produziriam resultados diferentes? Também é uma questão de preferência …

19 effect-size cohens-d

4

Quando devo usar um autoencoder variacional em oposição a um autoencoder?

Entendo a estrutura básica do autoencoder variacional e do autoencoder normal (determinístico) e a matemática por trás deles, mas quando e por que eu preferiria um tipo de autoencoder ao outro? Tudo o que posso pensar é que a distribuição prévia de variáveis latentes do autoencoder variacional nos permite amostrar …

19 deep-learning autoencoders variational-bayes

2

Por que é necessário colher amostras da distribuição posterior, se já sabemos a distribuição posterior?

Meu entendimento é que, ao usar uma abordagem bayesiana para estimar valores de parâmetros: A distribuição posterior é a combinação da distribuição anterior e da distribuição de probabilidade. Simulamos isso gerando uma amostra da distribuição posterior (por exemplo, usando um algoritmo Metropolis-Hasting para gerar valores, e os aceitamos se estiverem …

19 bayesian inference simulation mcmc posterior