Estatísticas e Big Data

4

Livro didático sobre a * teoria * das redes neurais / algoritmos ML?

Todos os livros que eu vi até agora descrevem os algoritmos de ML e como implementá-los. Existe também um livro que constrói teoremas e provas para o comportamento desses algoritmos? por exemplo, declarando que nas condições , a descida do gradiente sempre levará a ?x , y, zx,y,zx,y,zA , B …

23 machine-learning mathematical-statistics references algorithms

5

A análise exploratória de dados é importante ao fazer modelagem puramente preditiva?

Ao construir um modelo preditivo usando técnicas de aprendizado de máquina, qual é o sentido de fazer uma análise exploratória de dados (EDA)? Não há problema em ir direto à geração de recursos e à construção de seus modelos? Como as estatísticas descritivas usadas na EDA são importantes?

23 machine-learning predictive-models descriptive-statistics eda

1

A amostragem para regressão logística deve refletir a proporção real de 1 e 0?

Suponha que eu queira criar um modelo de regressão logística que possa estimar uma probabilidade de ocorrência de algumas espécies animais que vivem em árvores com base nas características das árvores (altura da fe). Como sempre, meu tempo e dinheiro são limitados, portanto, sou capaz de coletar apenas um tamanho …

23 logistic sampling

10

Melhor termo para dados inventados?

Estou escrevendo um exemplo e inventei alguns dados. Quero que fique claro para o leitor que não se trata de dados reais, mas também não quero dar a impressão de malícia, pois serve apenas como exemplo. Não existe nenhum componente (pseudo) aleatório para esses dados em particular, então parece-me que …

23 terminology synthetic-data

3

A redução de dimensionalidade para visualização deve ser considerada um problema "fechado", resolvido pelo t-SNE?

Eu tenho lido muito sobre o algoritmo sne para redução de dimensionalidade. Estou muito impressionado com o desempenho em conjuntos de dados "clássicos", como o MNIST, onde ele consegue uma separação clara dos dígitos ( consulte o artigo original ):ttt Também o usei para visualizar os recursos aprendidos por uma …

23 clustering data-visualization dimensionality-reduction high-dimensional tsne

4

Problema de Monty Hall com um Monty falível

Monty sabia perfeitamente se a Porta tinha uma cabra atrás dela (ou estava vazia). Este fato permite ao jogador dobrar sua taxa de sucesso ao longo do tempo, trocando "palpites" para a outra porta. E se o conhecimento de Monty fosse menos que perfeito? E se, às vezes, o prêmio …

23 conditional-probability

2

Que modelo estatístico ou algoritmo poderia ser usado para resolver o problema de John Snow Cholera?

Estou interessado em aprender como desenvolver uma aproximação geográfica de algum tipo de epicentro com base nos dados do surto de John Snow Cholera. Que modelagem estatística poderia ser usada para resolver esse problema sem o conhecimento prévio de onde os poços estão localizados. Como um problema geral, você teria …

23 bayesian spatial epidemiology gis

1

Explicação do que Nate Silver disse sobre loess

Em uma pergunta que fiz recentemente , me disseram que era um grande "não-não" extrapolar com loess. Mas, no artigo mais recente de Nate Silver no FiveThirtyEight.com, ele discutiu o uso do loess para fazer previsões de eleições. Ele estava discutindo as especificidades de previsões agressivas versus conservadoras com loess, …

23 time-series forecasting predictive-models loess politics

4

Por que os algoritmos de otimização são definidos em termos de outros problemas de otimização?

Estou pesquisando técnicas de otimização para aprendizado de máquina, mas fico surpreso ao descobrir que um grande número de algoritmos de otimização é definido em termos de outros problemas de otimização. Ilustro alguns exemplos a seguir. Por exemplo, https://arxiv.org/pdf/1511.05133v1.pdf Tudo parece bom e bom, mas há esse na atualização .... …

23 machine-learning svm optimization

1

Propriedades do PCA para observações dependentes

Normalmente, usamos o PCA como uma técnica de redução de dimensionalidade para dados em que casos são considerados iid Pergunta: Quais são as nuances típicas na aplicação do PCA para dados dependentes e não-iid? Quais propriedades agradáveis / úteis do PCA mantidas para dados iid estão comprometidas (ou perdidas totalmente)? …

23 time-series pca non-independent iid

1

Keras, como funciona o decaimento da taxa de aprendizado SGD?

Se você consultar a documentação http://keras.io/optimizers/, há um parâmetro no SGD para deterioração. Eu sei que isso reduz a taxa de aprendizado ao longo do tempo. No entanto, não consigo descobrir como funciona exatamente. É um valor multiplicado pela taxa de aprendizado, como lr = lr * (1 - decay) …

23 neural-networks python

1

Como se interpreta os histogramas dados pelo TensorFlow no TensorBoard?

Recentemente, eu estava correndo e aprendendo o fluxo tensor e obtive alguns histogramas que não sabia como interpretar. Normalmente, penso na altura das barras como a frequência (ou frequência / contagem relativa). No entanto, o fato de não haver barras como em um histograma usual e o fato de as …

23 machine-learning neural-networks conv-neural-network tensorflow

2

Faz sentido que um efeito fixo seja aninhado em um aleatório, ou como codificar medidas repetidas em R (aov e lmer)?

Eu estive examinando essa visão geral das fórmulas lm / lmer R por @conjugateprior e fiquei confuso com a seguinte entrada: Agora assuma que A é aleatório, mas B é fixo e B está aninhado em A. aov(Y ~ B + Error(A/B), data=d) Abaixo, a fórmula do modelo misto análogo …

23 r anova mixed-model repeated-measures lme4-nlme

3

Divergência de Kullback-Leibler SEM teoria da informação

Depois de muita pesquisa cruzada validada, ainda não me sinto mais perto de entender a divergência entre KL fora do campo da teoria da informação. É bastante estranho, como alguém com formação em matemática, achar muito mais fácil entender a explicação da teoria da informação. Para delinear meu entendimento a …

23 inference entropy information-theory kullback-leibler compression

2

O modelo final (pronto para produção) deve ser treinado em dados completos ou apenas no conjunto de treinamento?

Suponha que eu tenha treinado vários modelos no conjunto de treinamento, escolha o melhor usando o conjunto de validação cruzada e o desempenho medido no conjunto de teste. Então agora eu tenho um melhor modelo final. Devo treiná-lo novamente em todos os dados disponíveis ou enviar soluções treinadas apenas no …

23 machine-learning validation regression-strategies