Estatísticas e Big Data

1

Por que usamos a divergência Kullback-Leibler em vez de entropia cruzada na função objetivo t-SNE?

Na minha opinião, a divergência de KL da distribuição da amostra para a distribuição verdadeira é simplesmente a diferença entre entropia cruzada e entropia. Por que usamos a entropia cruzada para ser a função de custo em muitos modelos de aprendizado de máquina, mas usamos a divergência de Kullback-Leibler em …

39 kullback-leibler tsne cross-entropy

5

LDA vs word2vec

Estou tentando entender qual é a semelhança entre Alocação de Dirichlet Latente e word2vec para calcular a similaridade de palavras. Pelo que entendi, o LDA mapeia palavras para um vetor de probabilidades de tópicos latentes , enquanto o word2vec as mapeia para um vetor de números reais (relacionado à decomposição …

39 machine-learning self-study natural-language latent-variable word2vec

4

Replicando a opção "robusta" da Stata em R

Eu tenho tentado replicar os resultados da opção Stata robustem R. Eu usei o rlmcomando do pacote MASS e também o comando lmrobdo pacote "robustbase". Nos dois casos, os resultados são bem diferentes da opção "robusta" no Stata. Alguém pode sugerir algo neste contexto? Aqui estão os resultados obtidos quando …

39 r stata robust robust-standard-error

5

Minimizar o erro ao quadrado é equivalente a minimizar o erro absoluto? Por que o erro quadrado é mais popular que o último?

Ao realizarmos regressão linear para encaixar um grupo de pontos de dados ( x 1 , y 1 ) , ( x 2 , Y 2 ) , . . . , ( x n , y n ) , a abordagem clássica minimiza o erro ao quadrado. Há muito …

39 least-squares error

3

A padronização é necessária antes de ajustar a regressão logística?

Minha pergunta é: precisamos padronizar o conjunto de dados para garantir que todas as variáveis tenham a mesma escala, entre [0,1], antes de ajustar a regressão logística. A fórmula é: xEu- min ( xEu)max ( xEu) - min ( xEu)xi−min(xi)max(xi)−min(xi)\frac{x_i-\min(x_i)}{\max(x_i)-\min(x_i)} Meu conjunto de dados tem 2 variáveis, elas descrevem a …

39 regression logistic standardization

3

Justificativa empírica para a regra de erro padrão ao usar a validação cruzada

Existem estudos empíricos que justifiquem o uso da regra de erro padrão em favor da parcimônia? Obviamente, depende do processo de geração de dados, mas qualquer coisa que analise um grande conjunto de conjuntos de dados seria uma leitura muito interessante. A "regra de erro padrão" é aplicada ao selecionar …

39 cross-validation model-selection regularization

1

Classificação em R - ordem descendente [fechado]

Eu estou procurando classificar dados que, em alguns casos, o valor maior tem a classificação 1. Eu sou relativamente novo em R, mas não vejo como posso ajustar essa configuração na função de classificação. x <- c(23,45,12,67,34,89) rank(x) gera: [1] 2 4 1 5 3 6 quando eu quero que …

39 r

5

Valores negativos para AICc (critério de informação de Akaike corrigido)

Eu calculei o AIC e o AICc para comparar dois modelos mistos lineares gerais; Os AICs são positivos, com o modelo 1 tendo um AIC menor que o modelo 2. No entanto, os valores do AICc são ambos negativos (o modelo 1 ainda é <modelo 2). É válido usar e …

39 mixed-model model-selection aic

11

Existe algum bom livro de ciências popular sobre estatística ou aprendizado de máquina?

Há um monte de bons livros de ciências populares por aí, que lidam com a ciência real, bem como a história e as razões por trás das teorias atuais, embora sejam extremamente agradáveis de ler. Por exemplo, "Chaos", de James Gleick (caos, fractais, não-linearidade), "Uma breve história do tempo", de …

39 references communication

1

Qual é a variação da mistura ponderada de dois gaussianos?

Digamos que eu tenha duas distribuições normais A e B com médias e e variações e . Quero dar uma mistura ponderada destas duas distribuições utilizando pesos e onde e . Eu sei que a média dessa mistura seria .μ B σ A σ B p q 0 ≤ p …

39 normal-distribution mixture

5

Qual é a diferença entre uma população e uma amostra?

Qual é a diferença entre uma população e uma amostra? Quais variáveis e estatísticas comuns são usadas para cada uma e como elas se relacionam?

38 standard-deviation variance sample population

3

Por que as árvores de decisão não são computacionalmente caras?

Em Introdução ao aprendizado estatístico com aplicações em R , os autores escrevem que o ajuste de uma árvore de decisão é muito rápido, mas isso não faz sentido para mim. O algoritmo precisa passar por todos os recursos e particioná-lo de todas as maneiras possíveis para encontrar a divisão …

38 cart

6

Por que recebo uma árvore de decisão com 100% de precisão?

Estou obtendo uma precisão de 100% para minha árvore de decisão. O que estou fazendo errado? Este é o meu código: import pandas as pd import json import numpy as np import sklearn import matplotlib.pyplot as plt data = np.loadtxt("/Users/Nadjla/Downloads/allInteractionsnum.csv", delimiter=',') x = data[0:14] y = data[-1] from sklearn.cross_validation import …

38 machine-learning python cart accuracy

4

Para plotar com R, devo aprender ggplot2 ou ggvis?

Para plotar com R, devo aprender ggplot2 ou ggvis? Não quero necessariamente aprender os dois se um deles for superior em qualquer aspecto. Por que a comunidade R continua criando novos pacotes com funcionalidades sobrepostas? A publicação do blog de introdução não menciona uma palavra por que o ggvis é …

38 r data-visualization software

3

Qual é o significado de um intervalo de confiança extraído de reamostragens inicializadas?

Estive analisando várias perguntas neste site sobre intervalos de inicialização e confiança, mas ainda estou confuso. Parte do motivo da minha confusão é provavelmente o fato de eu não ter avançado o suficiente em meus conhecimentos estatísticos para entender muitas respostas. Eu estou na metade do curso introdutório de estatística …

38 confidence-interval bootstrap