Estatísticas e Big Data

Perguntas e respostas para pessoas interessadas em estatística, aprendizado de máquina, análise de dados, mineração de dados e visualização de dados


8
Definição rigorosa de um outlier?
As pessoas costumam falar sobre como lidar com discrepantes nas estatísticas. O que me incomoda é que, até onde eu sei, a definição de um outlier é completamente subjetiva. Por exemplo, se a verdadeira distribuição de alguma variável aleatória for muito pesada ou bimodal, qualquer visualização padrão ou estatística resumida …

4
Modelos estatísticos
Fiquei me perguntando se existe um modelo estatístico de "folha de dicas" que lista qualquer uma ou mais informações: quando usar o modelo quando não usar o modelo entradas necessárias e opcionais resultados esperados o modelo foi testado em diferentes áreas (política, bio, engenharia, manufatura, etc.)? é aceito na prática …

5
Por que a comparação múltipla é um problema?
Acho difícil entender qual é realmente o problema com várias comparações . Com uma analogia simples, diz-se que uma pessoa que tomará muitas decisões cometerá muitos erros. Uma precaução tão conservadora é aplicada, como a correção de Bonferroni, de modo a aumentar a probabilidade de que essa pessoa cometa algum …

6
Por que a multicolinearidade não é verificada nas estatísticas modernas / aprendizado de máquina
Nas estatísticas tradicionais, durante a construção de um modelo, verificamos a multicolinearidade usando métodos como estimativas do fator de inflação de variância (VIF), mas no aprendizado de máquina, usamos a regularização para a seleção de recursos e não parecemos verificar se os recursos estão correlacionados em absoluto. Por que nós …




4
Qual função de ativação para a camada de saída?
Embora a escolha das funções de ativação para a camada oculta seja bastante clara (principalmente sigmóide ou tanh), pergunto-me como decidir sobre a função de ativação para a camada de saída. As escolhas comuns são funções lineares, funções sigmóides e funções softmax. No entanto, quando devo usar qual?





5
Implementações otimizadas do algoritmo Random Forest
Notei que existem algumas implementações de floresta aleatória, como ALGLIB, Waffles e alguns pacotes R, como randomForest. Alguém pode me dizer se essas bibliotecas são altamente otimizadas? Eles são basicamente equivalentes às florestas aleatórias, conforme detalhado em Os elementos do aprendizado estatístico, ou foram adicionados muitos truques extras? Espero que …

7
Referências de redes neurais (livros didáticos, cursos on-line) para iniciantes
Eu quero aprender redes neurais. Sou lingüista computacional. Conheço abordagens estatísticas de aprendizado de máquina e posso codificar em Python. Pretendo começar com seus conceitos e conhecer um ou dois modelos populares que podem ser úteis do ponto de vista da Linguística Computacional. Naveguei na Web em busca de referências …

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.