Estatísticas e Big Data categorical-data

1

Interpretação da saída .L & .Q de um GLM binomial negativo com dados categóricos

Acabei de executar um GLM binomial negativo e esta é a saída: Call: glm.nb(formula = small ~ method + site + depth, data = size.dat, init.theta = 1.080668549, link = log) Deviance Residuals: Min 1Q Median 3Q Max -2.2452 -0.9973 -0.3028 0.3864 1.8727 Coefficients: Estimate Std. Error z value Pr(>|z|) …

14 r categorical-data generalized-linear-model interpretation negative-binomial

3

variáveis dummy de centralização e dimensionamento

Eu tenho um conjunto de dados que contém variáveis categóricas e variáveis contínuas. Fui aconselhado a transformar as variáveis categóricas como variáveis binárias para cada nível (por exemplo, A_level1: {0,1}, A_level2: {0,1}) - acho que alguns chamaram isso de "variáveis fictícias". Com isso dito, seria enganoso centralizar e dimensionar todo …

13 categorical-data data-transformation centering

6

Floresta aleatória: como lidar com novos níveis de fatores no conjunto de testes?

Estou tentando fazer previsões usando um modelo aleatório de floresta em R. No entanto, recebo erros, pois alguns fatores têm valores diferentes no conjunto de testes e no conjunto de treinamento. Por exemplo, um fator Cat_2possui valores 34, 68, 76, etc., no conjunto de testes que não aparecem no conjunto …

13 r categorical-data random-forest

2

Como transformar dados ordinais do questionário em dados de intervalo adequados?

Existem métodos simples de transformar dados de nível ordinal em nível de intervalo (assim como existem para fazê-lo ao contrário)? E performable no Excel ou SPSS? Tendo os dados, digamos: 10 perguntas no nível ordinal (digamos, escala 0-5, onde 0 = "nada", 5 = "o tempo todo"), quero transformá-las para …

13 categorical-data ordinal-data scales psychometrics

4

Como resumir dados categóricos?

Eu tenho lutado com o seguinte problema, espero que seja fácil para estatísticos (eu sou um programador com alguma exposição a estatísticas). Preciso resumir as respostas a uma pesquisa (para gerenciamento). A pesquisa tem mais de 100 perguntas, agrupadas em diferentes áreas (com cerca de 5 a 10 perguntas por …

13 categorical-data data-transformation descriptive-statistics

2

Capturando a sazonalidade em regressão múltipla para dados diários

Tenho dados de vendas diárias de um produto altamente sazonal. Eu quero capturar a sazonalidade no modelo de regressão. Eu li que, se você tiver dados trimestrais ou mensais, nesse caso, poderá criar 3 e 11 variáveis fictícias, respectivamente - mas posso lidar com dados diários? Eu tenho três anos …

13 regression time-series multiple-regression categorical-data

2

Entendendo a criação de variáveis fictícias (manual ou automatizada) no GLM

Se uma variável fator (por exemplo, gênero com níveis M e F) for usada na fórmula glm, as variáveis fictícias serão criadas e poderão ser encontradas no resumo do modelo glm juntamente com seus coeficientes associados (por exemplo, gêneroM) Se, em vez de confiar em R para dividir o fator …

13 r generalized-linear-model categorical-data categorical-encoding

2

Ao codificar recursos categóricos para regressão linear, existe uma regra: o número de manequins deve ser um a menos que o número total de níveis (para evitar colinearidade). Existe uma regra semelhante para as Árvores de Decisão (ensacadas, reforçadas)? Estou perguntando isso, porque uma prática padrão em Python parece ser …

13 categorical-data random-forest cart boosting

1

Regressão logística ordinal em Python

Gostaria de executar uma regressão logística ordinal em Python - para uma variável de resposta com três níveis e com alguns fatores explicativos. O statsmodelspacote suporta os modelos binário de logit e multinomial logit (MNLogit), mas não o logit ordenado. Como a matemática subjacente não é tão diferente, gostaria de …

12 categorical-data python logit ordered-logit statsmodels

3

Estimador de probabilidade máxima de distribuição conjunta, considerando apenas contagens marginais

Seja px,ypx,yp_{x,y} uma distribuição conjunta de duas variáveis categóricas X,YX,YX,Y , com x,y∈{1,…,K}x,y∈{1,…,K}x,y\in\{1,\ldots,K\} . Digamos que nnn amostras foram retiradas dessa distribuição, mas recebemos apenas as contagens marginais, ou seja, para j=1,…,Kj=1,…,Kj=1,\ldots,K : Sj=∑i=1nδ(Xi=l),Tj=∑i=1nδ(Yi=j),Sj=∑i=1nδ(Xi=l),Tj=∑i=1nδ(Yi=j), S_j = \sum_{i=1}^{n}{\delta(X_i=l)}, T_j = \sum_{i=1}^{n}{\delta(Y_i=j)}, Qual é o estimador de máxima verossimilhança para px,ypx,yp_{x,y} , …

12 categorical-data maximum-likelihood joint-distribution marginal maximum-entropy

5

Como executar a imputação de valores em um número muito grande de pontos de dados?

Eu tenho um conjunto de dados muito grande e faltam cerca de 5% de valores aleatórios. Essas variáveis estão correlacionadas entre si. O exemplo a seguir do conjunto de dados R é apenas um exemplo de brinquedo com dados correlatos simulados. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

1

Inversão de Berry

Eu tenho um grande conjunto de dados de mercado agregados sobre as vendas de vinhos nos EUA e gostaria de estimar a demanda por determinados vinhos de alta qualidade. Estas partes de mercado foram basicamente derivadas a partir de um modelo de utilidade aleatória da forma vocêeu j t= X′j …

12 logistic estimation multiple-regression categorical-data

3

O procedimento de efeitos fixos de Mundlak é aplicável à regressão logística com manequins?

Eu tenho um conjunto de dados com 8000 clusters e 4 milhões de observações. Infelizmente, meu software estatístico, Stata, roda lentamente ao usar sua função de dados em painel para regressão logística: xtlogitmesmo com uma subamostra de 10%. No entanto, ao usar a logitfunção não painel , os resultados aparecem …

12 logistic categorical-data stata fixed-effects-model

1

Diferenças entre PROC Mixed e lme / lmer em R - graus de liberdade

Nota: esta pergunta é um repost, pois minha pergunta anterior teve que ser excluída por razões legais. Ao comparar o PROC MIXED do SAS com a função lmedo nlmepacote no R, deparei-me com algumas diferenças bastante confusas. Mais especificamente, os graus de liberdade nos diferentes testes diferem entre PROC MIXEDe …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

3

Maneira apropriada de lidar com uma tabela de contingência de três níveis

Eu tenho uma tabela de contingência de três níveis, com dados de contagem de várias espécies, a planta hospedeira da qual elas foram coletadas e se essa coleta ocorreu em um dia chuvoso (isso realmente importa!). Usando R, dados falsos podem ser algo assim: count <- rpois(8, 10) species <- …

12 r categorical-data log-linear

Perguntas com a marcação «categorical-data»