Estatísticas e Big Data

3

Executar a normalização de recursos antes ou dentro da validação do modelo?

Uma boa prática comum no Machine Learning é apresentar normalização ou padronização de dados das variáveis preditoras, é isso, centralizar os dados subtraindo a média e normalizá-los dividindo pela variação (ou desvio padrão também). Para auto-contenção e para minha compreensão, fazemos isso para alcançar duas coisas principais: Evite pesos de …

52 machine-learning normalization standardization multidimensional-scaling

4

Cumming (2008) afirma que a distribuição dos valores de p obtidos nas repetições depende apenas do valor de p original. Como isso pode ser verdade?

Eu tenho lido o artigo de 2008 de Geoff Cumming, Replication Intervalos: os valores de prevêem o futuro apenas vagamente, mas os intervalos de confiança são muito melhores pppppp p p[~ 200 citações no Google Scholar] - e estou confuso com uma de suas alegações centrais. Este é um dos …

52 hypothesis-testing p-value power replicability

8

Sucessor moderno da Análise Exploratória de Dados por Tukey?

Eu tenho lido o livro de Tukey "Análise Exploratória de Dados". Sendo escrito em 1977, o livro enfatiza os métodos de papel / lápis. Existe um sucessor mais "moderno" que leva em conta que agora podemos traçar instantaneamente grandes conjuntos de dados?

52 data-visualization references descriptive-statistics eda

5

Redes neurais vs máquinas de vetores de suporte: a segunda é definitivamente superior?

Muitos autores de artigos que li afirmam que os SVMs são uma técnica superior para enfrentar seu problema de regressão / classificação, cientes de que não puderam obter resultados semelhantes por meio de NNs. Frequentemente, a comparação afirma que SVMs, em vez de NNs, Tenha uma forte teoria fundadora Alcance …

52 machine-learning svm neural-networks

6

As previsões de um modelo de floresta aleatória têm um intervalo de previsão?

Se eu executar um randomForestmodelo, posso fazer previsões com base no modelo. Existe uma maneira de obter um intervalo de previsão de cada uma das previsões, de modo que eu saiba o quão "seguro" o modelo é de sua resposta. Se isso é possível, é simplesmente baseado na variabilidade da …

52 r confidence-interval random-forest

2

Derivação da solução de laço de forma fechada

Para o problema do laço minβ(Y−Xβ)T(Y−Xβ)minβ(Y−Xβ)T(Y−Xβ)\min_\beta (Y-X\beta)^T(Y-X\beta) tal que ∥β∥1≤t‖β‖1≤t\|\beta\|_1 \leq t . Muitas vezes, vejo o resultado do limiar suave βlassoj=sgn(βLSj)(|βLSj|−γ)+βjlasso=sgn(βjLS)(|βjLS|−γ)+ \beta_j^{\text{lasso}}= \mathrm{sgn}(\beta^{\text{LS}}_j)(|\beta_j^{\text{LS}}|-\gamma)^+ para o caso X ortonormal XXX. Alega-se que a solução pode ser "facilmente mostrada", mas nunca vi uma solução funcionada. Alguém viu um ou talvez tenha …

52 lasso

3

ANOVA suposição normalidade / distribuição normal de resíduos

A página da Wikipedia na ANOVA lista três suposições , a saber: Independência de casos - esta é uma suposição do modelo que simplifica a análise estatística. Normalidade - as distribuições dos resíduos são normais. Igualdade (ou "homogeneidade") de variações, chamada homoscedasticidade ... O ponto de interesse aqui é a …

52 anova residuals assumptions normality-assumption

2

Qual é a relação entre um teste do qui quadrado e teste de proporções iguais?

Suponha que eu tenha três populações com quatro características mutuamente exclusivas. Coleto amostras aleatórias de cada população e construo uma tabela de referência cruzada ou de frequência para as características que estou medindo. Estou correto ao dizer que: Se eu quisesse testar se existe alguma relação entre as populações e …

52 chi-squared proportion contingency-tables z-test

8

Excel como bancada de estatística

Parece que muitas pessoas (inclusive eu) gostam de fazer análise exploratória de dados no Excel. Algumas limitações, como o número de linhas permitido em uma planilha, são dolorosas, mas na maioria dos casos não tornam impossível o uso do Excel para brincar com dados. Um artigo de McCullough e Heiser …

52 software computational-statistics excel

14

Qual é a caracterização mais surpreendente da distribuição gaussiana (normal)?

Uma distribuição gaussiana padronizada em pode ser definida fornecendo explicitamente sua densidade: RR\mathbb{R}12π−−√e−x2/212πe−x2/2 \frac{1}{\sqrt{2\pi}}e^{-x^2/2} ou sua função característica. Como lembrado nesta pergunta, também é a única distribuição para a qual a média e a variância da amostra são independentes. Quais são outras caracterizações alternativas surpreendentes das medidas gaussianas que você …

52 probability normal-distribution mathematical-statistics characteristic-function

10

Clustering com uma matriz de distância

Eu tenho uma matriz (simétrica) Mque representa a distância entre cada par de nós. Por exemplo, ABCDEFGHIJKL A 0 20 20 20 40 60 60 60 100 120 120 120 B 20 0 20 20 60 80 80 80 120 140 140 140 C 20 20 0 20 60 80 …

52 clustering

6

Classificação binária com classes fortemente desequilibradas

Eu tenho um conjunto de dados na forma de (recursos, saída binária 0 ou 1), mas 1 acontece muito raramente, portanto, sempre prevendo 0, obtenho precisão entre 70% e 90% (dependendo dos dados específicos que vejo) ) Os métodos de ML me dão a mesma precisão e, acredito, deve haver …

52 machine-learning classification binary-data unbalanced-classes

2

Como uma rede neural artificial pode ser usada para agrupamentos não supervisionados?

Eu entendo como um artificial neural network (ANN), pode ser treinado de maneira supervisionada usando a retropropagação para melhorar o ajuste, diminuindo o erro nas previsões. Ouvi dizer que uma RNA pode ser usada para aprendizado não supervisionado, mas como isso pode ser feito sem uma função de custo de …

52 clustering neural-networks unsupervised-learning self-organizing-maps

5

É necessário escalar o valor alvo, além dos recursos de escala para análise de regressão?

Estou construindo modelos de regressão. Como uma etapa de pré-processamento, dimensiono meus valores de recurso para ter média 0 e desvio padrão 1. É necessário normalizar também os valores-alvo?

52 regression machine-learning

4

Sob quais condições as escalas Likert devem ser usadas como dados ordinais ou de intervalo?

Muitos estudos nas ciências sociais usam escalas Likert. Quando é apropriado usar os dados da Likert como ordinal e quando é apropriado usá-los como dados de intervalo?

52 ordinal-data likert scales measurement