Estatísticas e Big Data

6

Como executar um teste usando R para ver se os dados seguem a distribuição normal

Eu tenho um conjunto de dados com a seguinte estrutura: a word | number of occurrence of a word in a document | a document id Como posso executar um teste para distribuição normal em R? Provavelmente é uma pergunta fácil, mas eu sou um novato em R.

44 r distributions normality-assumption

8

Definição rigorosa de um outlier?

As pessoas costumam falar sobre como lidar com discrepantes nas estatísticas. O que me incomoda é que, até onde eu sei, a definição de um outlier é completamente subjetiva. Por exemplo, se a verdadeira distribuição de alguma variável aleatória for muito pesada ou bimodal, qualquer visualização padrão ou estatística resumida …

44 outliers definition

4

Modelos estatísticos

Fiquei me perguntando se existe um modelo estatístico de "folha de dicas" que lista qualquer uma ou mais informações: quando usar o modelo quando não usar o modelo entradas necessárias e opcionais resultados esperados o modelo foi testado em diferentes áreas (política, bio, engenharia, manufatura, etc.)? é aceito na prática …

44 references modeling

5

Por que a comparação múltipla é um problema?

Acho difícil entender qual é realmente o problema com várias comparações . Com uma analogia simples, diz-se que uma pessoa que tomará muitas decisões cometerá muitos erros. Uma precaução tão conservadora é aplicada, como a correção de Bonferroni, de modo a aumentar a probabilidade de que essa pessoa cometa algum …

44 hypothesis-testing multiple-comparisons

6

Por que a multicolinearidade não é verificada nas estatísticas modernas / aprendizado de máquina

Nas estatísticas tradicionais, durante a construção de um modelo, verificamos a multicolinearidade usando métodos como estimativas do fator de inflação de variância (VIF), mas no aprendizado de máquina, usamos a regularização para a seleção de recursos e não parecemos verificar se os recursos estão correlacionados em absoluto. Por que nós …

44 regression machine-learning multicollinearity regularization vif

4

Existe um teste para determinar se a sobredispersão GLM é significativa?

Estou criando Poisson GLMs em R. Para verificar se há sobredispersão, estou analisando a proporção de desvio residual para graus de liberdade fornecidos por summary(model.name). Existe um valor de corte ou teste para que essa proporção seja considerada "significativa"? Eu sei que se for> 1, os dados serão super-dispersos, mas …

44 statistical-significance overdispersion

2

A normalização média e o dimensionamento de recursos são necessários para o cluster k-means?

Quais são as melhores etapas de pré-processamento (recomendadas) antes de executar o K-means?

44 clustering normalization k-means

6

Como evito a sobreposição de etiquetas em um gráfico R? [fechadas]

Estou tentando rotular um gráfico de dispersão bastante simples em R. É isso que eu uso: plot(SI, TI) text(SI, TI, Name, pos=4, cex=0.7) O resultado é medíocre, como você pode ver (clique para ampliar): Tentei compensar isso usando a textxyfunção, mas não é melhor . Aumentar a imagem em si …

44 r data-visualization scatterplot

4

Qual função de ativação para a camada de saída?

Embora a escolha das funções de ativação para a camada oculta seja bastante clara (principalmente sigmóide ou tanh), pergunto-me como decidir sobre a função de ativação para a camada de saída. As escolhas comuns são funções lineares, funções sigmóides e funções softmax. No entanto, quando devo usar qual?

44 neural-networks

3

Testando a igualdade de coeficientes de duas regressões diferentes

Essa parece ser uma questão básica, mas acabei de perceber que, na verdade, não sei como testar a igualdade de coeficientes a partir de duas regressões diferentes. Alguém pode lançar alguma luz sobre isso? Mais formalmente, suponha que eu corri as duas regressões seguintes: e onde refere-se à matriz de …

44 hypothesis-testing inference

5

É importante dimensionar os dados antes do armazenamento em cluster?

Encontrei este tutorial , que sugere que você execute a função de escala nos recursos antes de agrupar (acredito que converte dados em z-scores). Eu estou querendo saber se isso é necessário. Estou perguntando principalmente porque há um bom ponto de cotovelo quando não dimensiono os dados, mas ele desaparece …

44 clustering k-means

4

Erro padrão para a média de uma amostra de variáveis aleatórias binomiais

Suponhamos que estou correndo uma experiência que pode ter 2 resultados, e estou assumindo que o subjacente "verdadeiro" distribuição dos resultados 2 é uma distribuição binomial com parâmetros nnn e ppp : B i n o m i a l (n,p)Binomial(n,p){\rm Binomial}(n, p) . Eu posso calcular o erro padrão, …

44 binomial standard-error

5

Qual é a diferença entre os algoritmos forward-backward e Viterbi?

Quero saber quais são as diferenças entre o algoritmo forward-backward e o algoritmo Viterbi para inferência em modelos ocultos de Markov (HMM).

44 algorithms hidden-markov-model viterbi-algorithm forward-backward

5

Implementações otimizadas do algoritmo Random Forest

Notei que existem algumas implementações de floresta aleatória, como ALGLIB, Waffles e alguns pacotes R, como randomForest. Alguém pode me dizer se essas bibliotecas são altamente otimizadas? Eles são basicamente equivalentes às florestas aleatórias, conforme detalhado em Os elementos do aprendizado estatístico, ou foram adicionados muitos truques extras? Espero que …

43 random-forest algorithms model-evaluation

7

Referências de redes neurais (livros didáticos, cursos on-line) para iniciantes

Eu quero aprender redes neurais. Sou lingüista computacional. Conheço abordagens estatísticas de aprendizado de máquina e posso codificar em Python. Pretendo começar com seus conceitos e conhecer um ou dois modelos populares que podem ser úteis do ponto de vista da Linguística Computacional. Naveguei na Web em busca de referências …

43 neural-networks deep-learning references natural-language computer-vision