Estatísticas e Big Data

Perguntas e respostas para pessoas interessadas em estatística, aprendizado de máquina, análise de dados, mineração de dados e visualização de dados

5
Sobre a importância da suposição iid na aprendizagem estatística
No aprendizado estatístico, implícita ou explicitamente, sempre se assume que o conjunto de treinamento é composto de tuplas de entrada / resposta que são desenhados independentemente da mesma distribuição conjunta comD={X,y}D={X,y}\mathcal{D} = \{ \bf {X}, \bf{y} \}NNNP ( X , y )(Xi,yi)(Xi,yi)({\bf{X}}_i,y_i) P(X,y)P(X,y)\mathbb{P}({\bf{X}},y) p(X,y)=p(y|X)p(X)p(X,y)=p(y|X)p(X) p({\bf{X}},y) = p( y \vert {\bf{X}}) …



3
APIs / feeds de dados disponíveis como pacotes em R
EDIT: A exibição da tarefa CRAN de Tecnologias e Serviços da Web contém uma lista muito mais abrangente de fontes de dados e APIs disponíveis no R. Você pode enviar uma solicitação pull no github se desejar adicionar um pacote à exibição da tarefa. Estou fazendo uma lista dos vários …
53 r  references  dataset 

10
Aprendizado de Máquina usando Python
Estou pensando em usar bibliotecas Python para fazer minhas experiências de Machine Learning. Até agora, eu confiava no WEKA, mas fiquei bastante insatisfeito. Isso ocorre principalmente porque achei que o WEKA não é tão bem suportado (muito poucos exemplos, a documentação é escassa e o apoio da comunidade é menos …


6
Regressão linear online eficiente
Estou analisando alguns dados nos quais gostaria de executar uma regressão linear comum, mas isso não é possível, pois estou lidando com uma configuração on-line com um fluxo contínuo de dados de entrada (que rapidamente se tornará muito grande para memória) e precisa para atualizar estimativas de parâmetros enquanto isso …







5
Quando os dados desequilibrados são realmente um problema no Machine Learning?
Já tínhamos várias perguntas sobre dados desequilibrados ao usar regressão logística , SVM , árvores de decisão , empacotamento e várias outras perguntas semelhantes, o que o torna um tópico muito popular! Infelizmente, cada uma das perguntas parece ser específica do algoritmo e não encontrei nenhuma orientação geral para lidar …

3
Por que nos preocupamos tanto com os termos de erro normalmente distribuídos (e a homocedasticidade) na regressão linear quando não precisamos?
Suponho que fico frustrado toda vez que ouço alguém dizer que a não normalidade de resíduos e / ou heterocedasticidade viola as suposições do OLS. Para estimar parâmetros em um modelo OLS, nenhuma dessas suposições é necessária pelo teorema de Gauss-Markov. Vejo como isso é importante no Teste de Hipóteses …

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.