Estatísticas e Big Data categorical-data

3

Posso usar regressão múltipla quando misturo preditores categóricos e contínuos?

Parece que você pode usar a codificação para uma variável categórica, mas eu tenho duas variáveis categóricas e uma variável preditora contínua. Posso usar regressão múltipla para isso no SPSS? Em caso afirmativo, como? obrigado!

12 regression spss categorical-data continuous-data

3

Quais algoritmos requerem codificação one-hot?

Eu nunca tenho certeza de quando usar a codificação one-hot para variáveis categóricas não ordenadas e quando não usar . Eu o uso sempre que o algoritmo usa uma métrica de distância para calcular a similaridade. Alguém pode dar uma regra geral a respeito de quais tipos de algoritmos exigiriam …

12 machine-learning categorical-data categorical-encoding data-preprocessing

2

Por que R leva muito tempo para ajustar um modelo com um fator de vários níveis?

Eu ajustei um modelo com um fator com muitos níveis e o R leva muito tempo para ajustá-lo. Por que é isso? Por exemplo, se eu ajustar uma regressão para prever os salários dos jogadores e incluir um fator preditivo para todas as respectivas nacionalidades dos jogadores, levaria mais tempo …

12 regression categorical-data

2

Coeficiente de correlação para variável nominal não dicotômica e variável ordinal ou numérica

Eu já li todas as páginas deste site tentando encontrar a resposta para o meu problema, mas ninguém parece ser o certo para mim ... Primeiro, explico o tipo de dados com o qual estou trabalhando ... Digamos que eu tenha um vetor de matriz com vários nomes de cidade, …

12 correlation matlab ordinal-data categorical-data continuous-data

1

Qual é a função de distância ideal para indivíduos quando os atributos são nominais?

Não sei qual função de distância entre indivíduos usar no caso de atributos nominais (categóricos não ordenados). Eu estava lendo alguns livros e eles sugerem a função Correspondência Simples , mas alguns livros sugerem que eu deva alterar os atributos nominais para binários e usar o Coeficiente Jaccard . No …

12 distance-functions distance similarities association-measure categorical-data

2

glmnet: Como entender a parametrização multinomial?

Problema a seguir: desejo prever uma variável de resposta categórica com uma (ou mais) variáveis categóricas usando glmnet (). No entanto, não consigo entender a saída que o glmnet me fornece. Ok, primeiro vamos gerar duas variáveis categóricas relacionadas: Gerar dados p <- 2 #number variables mu <- rep(0,p) sigma …

11 categorical-data multinomial glmnet

2

Como encontro a medida de correlação entre duas variáveis nominais?

Foi feita uma pesquisa na qual as pessoas escolheram o que eles usam para exibir um certo smiley e entraram no país de origem. Recodifiquei as respostas de texto em numérico. Que forma de análise deve ser usada (preferencialmente no SPSS) para verificar o nível de correlação entre de onde …

11 correlation spss categorical-data

2

Regressão baseada, por exemplo, em dias da semana

Preciso de uma ajudinha para seguir na direção certa. Faz muito tempo que não estudei nenhuma estatística e o jargão parece ter mudado. Imagine que eu tenho um conjunto de dados relacionados a carros, como Tempo de viagem da cidade A para a cidade B Distância da cidade A à …

11 regression categorical-data categorical-encoding

2

Colinearidade entre variáveis categóricas

Há muito sobre colinearidade em relação a preditores contínuos, mas não tanto que eu possa encontrar em preditores categóricos. Eu tenho dados deste tipo ilustrados abaixo. O primeiro fator é uma variável genética (contagem de alelos), o segundo fator é uma categoria de doença. Claramente, os genes precedem a doença …

11 r anova categorical-data multicollinearity sums-of-squares

2

Devo executar regressões separadas para cada comunidade ou a comunidade pode simplesmente ser uma variável de controle em um modelo agregado?

Estou executando um modelo OLS com uma variável de índice de ativos contínua como o DV. Meus dados são agregados de três comunidades semelhantes em estreita proximidade geográfica entre si. Apesar disso, achei importante usar a comunidade como uma variável de controle. Como se vê, a comunidade é significativa no …

11 regression categorical-data stata multiple-regression aggregation

2

Avalie rapidamente (visualmente) correlações entre dados categóricos ordenados em R?

Estou procurando correlações entre as respostas para diferentes perguntas em uma pesquisa ("hum, vamos ver se as respostas da pergunta 11 se correlacionam com as da pergunta 78"). Todas as respostas são categóricas (a maioria delas varia de "muito infeliz" a "muito feliz"), mas algumas têm um conjunto diferente de …

11 r correlation categorical-data data-visualization

6

Como encontrar estatísticas de resumo para todas as combinações exclusivas de fatores em um data.frame no R? [fechadas]

Fechadas. Esta questão está fora de tópico . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela esteja no tópico de Validação cruzada. Fechado há 2 anos . Eu quero calcular um resumo de uma variável em um data.frame para cada combinação única …

11 r categorical-data aggregation plyr

4

Vários testes qui-quadrado

Eu tenho dados classificados cruzados em uma tabela 2 x 2 x 6. Vamos chamar as dimensões response, Ae B. Ajustei uma regressão logística aos dados com o modelo response ~ A * B. Uma análise de desvio desse modelo diz que os termos e sua interação são significativos. No …

11 categorical-data logistic multiple-comparisons chi-squared

1

R / mgcv: Por que os produtos tensores te () e ti () produzem superfícies diferentes?

O mgcvpacote para Rpossui duas funções para ajustar as interações do produto tensorial: te()e ti(). Entendo a divisão básica do trabalho entre os dois (ajustando uma interação não linear versus decompondo essa interação em efeitos principais e uma interação). O que não entendo é o porquê te(x1, x2)e ti(x1) + …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

2

Como realizar análise residual de preditores independentes binários / dicotômicos em regressão linear?

Estou executando a regressão linear múltipla abaixo em R para prever retornos sobre o fundo gerenciado. reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata) Aqui, apenas GRI e MBA são preditores binários / dicotômicos; os preditores restantes são contínuos. Estou usando esse código para gerar gráficos residuais para as variáveis binárias. plot(rawdata$GRI, reg$residuals) abline(lm(reg$residuals~rawdata$GRI, …

11 r multiple-regression categorical-data heteroscedasticity residuals

Perguntas com a marcação «categorical-data»