Estatísticas e Big Data

Perguntas e respostas para pessoas interessadas em estatística, aprendizado de máquina, análise de dados, mineração de dados e visualização de dados


7
Conceito de estatística para explicar por que é menos provável que você jogue o mesmo número de caras que rabos, à medida que o número de lançamentos aumenta?
Estou trabalhando para aprender probabilidades e estatísticas lendo alguns livros e escrevendo algum código e, ao simular lançamentos de moedas, notei algo que me pareceu um pouco contrário à intuição ingênua de alguém. Se você jogar uma moeda justa nnn vezes, a proporção entre cara e coroa converge para 1 …

7
Por que e quando criar um pacote R?
Entendo que essa questão é bastante ampla, mas me pergunto quais devem ser os pontos decisivos na decisão de criar (ou não) um novo pacote para R. Para ser mais específico, acrescentaria que a questão não é sobre os motivos para use R em si mesmo, mais sobre a decisão …
28 r  software 




3
Quais são algumas aplicações ilustrativas da probabilidade empírica?
Ouvi falar da probabilidade empírica de Owen, mas até recentemente não prestava atenção até que me deparei com isso em um artigo de interesse ( Mengersen et al. 2012 ). Em meus esforços para entendê-lo, observei que a probabilidade dos dados observados é representada como , onde e .L=∏ipi=∏iP(Xi=x)=∏iP(Xi≤x)−P(Xi<x)L=∏ipi=∏iP(Xi=x)=∏iP(Xi≤x)−P(Xi<x)L = …


3
Distribuição da relação Gaussiana: Derivadas em 's e s
Estou trabalhando com duas distribuições normais independentes e , com médias e e variações e .XXXYYYμxμx\mu_xμyμy\mu_yσ2xσx2\sigma^2_xσ2yσy2\sigma^2_y Eu sou interessado na distribuição do seu rácio . Nem nem têm uma média de zero, então não é distribuído como um Cauchy.Z=X/YZ=X/YZ=X/YXXXYYYZZZ Preciso encontrar o CDF de e, em seguida, obter a derivada …




5
Quais são os perigos de violar a suposição de homoscedasticidade para regressão linear?
Como exemplo, considere o ChickWeightconjunto de dados em R. A variação obviamente aumenta com o tempo, portanto, se eu usar uma regressão linear simples como: m <- lm(weight ~ Time*Diet, data=ChickWeight) Minhas perguntas: Quais aspectos do modelo serão questionáveis? Os problemas estão limitados à extrapolação fora do Timeintervalo? Quão tolerante …

3
Ao impulsionar, por que os alunos são "fracos"?
Veja também uma pergunta semelhante em stats.SE . Ao impulsionar algoritmos como AdaBoost e LPBoost , sabe-se que os alunos "fracos" a serem combinados só precisam ter um desempenho melhor do que o acaso para serem úteis, da Wikipedia: Os classificadores que ele usa podem ser fracos (ou seja, exibem …

3
Exemplos de erros nos algoritmos MCMC
Estou investigando um método para verificação automática dos métodos Monte Carlo da cadeia de Markov e gostaria de alguns exemplos de erros que podem ocorrer ao construir ou implementar esses algoritmos. Pontos de bônus se o método incorreto foi usado em um artigo publicado. Estou particularmente interessado nos casos em …
28 mcmc 

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.