Estatísticas e Big Data spss

25

Python como um ambiente de trabalho de estatística

Muitas pessoas usam uma ferramenta principal como o Excel ou outra planilha, SPSS, Stata ou R para suas necessidades estatísticas. Eles podem recorrer a algum pacote específico para necessidades muito especiais, mas muitas coisas podem ser feitas com uma planilha simples ou um pacote geral de estatísticas ou um ambiente …

355 r spss stata python

3

Um exemplo: regressão do LASSO usando glmnet para resultado binário

Estou começando a se envolver com o uso de glmnetcom LASSO Regressão onde meu desfecho de interesse é dicotômica. Criei um pequeno quadro de dados simulado abaixo: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p …

78 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

3

Quando R ao quadrado é negativo?

Meu entendimento é que não pode ser negativo, pois é o quadrado de R. No entanto, executei uma regressão linear simples no SPSS com uma única variável independente e uma variável dependente. Minha saída do SPSS me fornece um valor negativo para . Se eu fosse calcular isso manualmente a …

77 regression spss r-squared

8

O PCA seguido de uma rotação (como o varimax) ainda é PCA?

Eu tentei reproduzir alguma pesquisa (usando PCA) do SPSS em R. Na minha experiência, a principal() função do pacote psychfoi a única função que se aproximou (ou se minha memória me serve bem, inoperante) para corresponder à saída. Para combinar com os mesmos resultados que no SPSS, eu tive que …

63 r spss pca factor-analysis factor-rotation

7

Por que “estatisticamente significativo” não é suficiente?

Concluí minha análise de dados e obtive "resultados estatisticamente significativos", o que é consistente com minha hipótese. No entanto, um estudante de estatística me disse que esta é uma conclusão prematura. Por quê? É necessário incluir mais alguma coisa no meu relatório?

46 hypothesis-testing statistical-significance spss p-value

3

Interpretação do preditor e / ou resposta transformada em log

Gostaria de saber se faz diferença na interpretação se apenas as variáveis dependentes, dependentes e independentes ou apenas as independentes são transformadas em log. Considere o caso de log(DV) = Intercept + B1*IV + Error Eu posso interpretar o IV como o aumento percentual, mas como isso muda quando eu …

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

3

Por que existe uma diferença entre calcular manualmente um intervalo de confiança de 95% da regressão logística e usar a função confint () em R?

Caro pessoal, notei algo estranho que não sei explicar, não é? Em resumo: a abordagem manual para calcular um intervalo de confiança em um modelo de regressão logística e a função R confint()fornecem resultados diferentes. Eu tenho passado pela regressão logística aplicada de Hosmer & Lemeshow (2ª edição). No terceiro …

34 r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

1

Fazendo análise de componente principal ou análise fatorial em dados binários

Eu tenho um conjunto de dados com um grande número de respostas Sim / Não. Posso usar componentes principais (PCA) ou qualquer outra análise de redução de dados (como análise fatorial) para esse tipo de dados? Por favor, informe como eu faço isso usando o SPSS.

30 spss categorical-data pca factor-analysis binary-data

5

Como lidar com dados hierárquicos / aninhados no aprendizado de máquina

Vou explicar meu problema com um exemplo. Suponha que você queira prever a renda de um indivíduo, com alguns atributos: {Idade, Sexo, País, Região, Cidade}. Você tem um conjunto de dados de treinamento como esse train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

Melhores métodos de extração de fatores na análise fatorial

O SPSS oferece vários métodos de extração fatorial: Componentes principais (que não são análise de fatores) Mínimos quadrados não ponderados Mínimos quadrados generalizados Máxima verossimilhança Eixo principal Factoring alfa Factoring de imagem Ignorando o primeiro método, que não é análise fatorial (mas análise de componentes principais, PCA), qual desses métodos …

29 spss pca factor-analysis

4

Teste exato de Fisher em tabelas de contingência maiores que 2x2

Fui ensinado a aplicar apenas o teste exato de Fisher em tabelas de contingência 2x2. Questões: O próprio Fisher imaginou que esse teste seria usado em tabelas maiores que 2x2 (eu sei que ele o inventou ao tentar adivinhar se uma velha poderia dizer se o leite foi adicionado ao …

29 spss stata contingency-tables fishers-exact

1

Cálculo da repetibilidade dos efeitos de um modelo mais antigo

Acabei de me deparar com este artigo , que descreve como calcular a repetibilidade (também conhecida como confiabilidade, também conhecida como correlação intraclasse) de uma medição via modelagem de efeitos mistos. O código R seria: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

4

Diferença entre binomial, binomial negativo e regressão de Poisson

Estou procurando algumas informações sobre a diferença entre regressão binomial, negativa binomial e de Poisson e para quais situações essas regressões são mais adequadas. Existem testes que posso executar no SPSS que possam me dizer qual dessas regressões é a melhor para minha situação? Além disso, como executo um Poisson …

26 spss references binomial poisson-distribution negative-binomial

2

CHAID vs CRT (ou CARRINHO)

Estou executando uma classificação de árvore de decisão usando o SPSS em um conjunto de dados com cerca de 20 preditores (categóricos com poucas categorias). CHAID (Detecção Automática de Interação Qui-Quadrado) e CRT / CART (Árvores de Classificação e Regressão) estão me dando árvores diferentes. Alguém pode explicar os méritos …

23 spss cart

2

Como agrupar séries temporais?

Eu tenho uma pergunta sobre análise de cluster. Existem 3000 empresas, que precisam ser agrupadas de acordo com o uso de energia ao longo de 5 anos. Cada empresa possui valores para cada hora durante 5 anos. Gostaria de descobrir se algumas empresas têm o mesmo padrão de uso de …

22 time-series clustering spss

Perguntas com a marcação «spss»