Por que um modelo estatístico superajustaria se recebesse um grande conjunto de dados?


8

Meu projeto atual pode exigir que eu construa um modelo para prever o comportamento de um determinado grupo de pessoas. o conjunto de dados de treinamento contém apenas 6 variáveis ​​(id é apenas para fins de identificação):

id, age, income, gender, job category, monthly spend

em que monthly spendé a variável de resposta. Mas o conjunto de dados de treinamento contém aproximadamente 3 milhões de linhas, e o conjunto de dados (que contém id, age, income, gender, job categorymas nenhuma variável de resposta) a ser previsto contém 1 milhão de linhas. Minha pergunta é: existe algum problema em potencial se eu lançar muitas linhas (3 milhões neste caso) em um modelo estatístico? Entendo que as despesas computacionais são uma das preocupações, existem outras preocupações? Existem livros / documentos que explicam completamente o problema do tamanho do conjunto de dados?

modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

15
Ter muitas linhas não resulta em ajuste excessivo. Ter muitas colunas faz.
Peter Flom

5
Como essa pergunta se baseia em múltiplas suposições falsas - que as pessoas relutam em usar muitos casos para análises e que a maioria dos modelos estatísticos não consegue lidar com grandes conjuntos de dados - é provável que acumule respostas irrelevantes ou confusas. Considere editar sua pergunta para remover essas deturpações.
whuber

Você ainda não levou em conta o que o @whuber disse. As premissas estão erradas. Não é verdade que "a maioria dos modelos estatísticos não pode lidar com grandes conjuntos de dados", então você não receberá uma resposta útil para sua pergunta. Também não é verdade que você possa usar informações de todas as pessoas de um país em um determinado momento (acho que é isso que você quer dizer com "população").
Pkofod

2
ID é, se for uma análise sã, não uma única variável contínua. O ID é uma variável categórica porque as diferenças entre os indivíduos não correspondem à atribuição numérica arbitrária que eles recebem. Isso significa que você tem 1 variável para cada indivíduo na análise. Potencialmente milhões.
AdamO 27/01

obrigado pelo comentário, mas ainda fico confuso por que não consigo usar as informações de todas as pessoas de um país em um determinado momento (este é um exemplo artificial, então vamos supor que eu tenha essas informações)?
user2926523

Respostas:


12

Existem dois tipos de problemas que você pode encontrar:

1) Problemas no computador porque o conjunto de dados é muito grande. Atualmente, alguns milhões de linhas com 6 colunas não são tão grandes assim. Mas, dependendo do seu programa, do seu computador, da sua quantidade de RAM e provavelmente de outras coisas, isso pode acontecer.

2) problemas estatísticos. Aqui, um problema que você discute terá um "problema" que eu conheço: até pequenos efeitos serão altamente significativos. Isso não é realmente um problema com regressão, é um problema com valores de p. Melhor observar os tamanhos dos efeitos (parâmetros de regressão).

3) Outro tipo de problema com o seu modelo não se deve ao número de linhas, mas à natureza da variável de resposta (gasto mensal). Embora a regressão OLS não faça nenhuma suposição sobre a distribuição da resposta (apenas sobre o erro), no entanto, modelos com dinheiro como variável dependente geralmente apresentam erros não normais. Além disso, muitas vezes faz sentido, substancialmente, registrar o log da resposta. Se isso é verdade no seu caso, depende exatamente do que você está tentando fazer.


Olá Peter, você pode explicar com mais detalhes por que a variável de resposta (ou seja, gasto mensal) deve ser registrada? Que benefício podemos obter disso?
shihpeng

1
1000to10to

2

O importante é o número de indivíduos (linhas) em comparação com o número de coeficientes que você precisa estimar para o modelo que deseja ajustar. As regras típicas sugerem, no mínimo, cerca de 20 observações por coeficiente, portanto, você deve poder estimar até 150.000 coeficientes - certamente mais do que adequado para seus quatro preditores.

De fato, você tem uma oportunidade, não um problema, neste caso: ajustar um modelo bastante complexo, incluindo relações não lineares da resposta aos preditores e interações entre preditores; que pode prever a resposta muito melhor do que uma resposta mais simples, na qual se supõe que as relações da resposta aos preditores sejam lineares e aditivas.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.