Por que um modelo estatístico superajustaria se recebesse um grande conjunto de dados?

Meu projeto atual pode exigir que eu construa um modelo para prever o comportamento de um determinado grupo de pessoas. o conjunto de dados de treinamento contém apenas 6 variáveis (id é apenas para fins de identificação):

id, age, income, gender, job category, monthly spend

em que monthly spendé a variável de resposta. Mas o conjunto de dados de treinamento contém aproximadamente 3 milhões de linhas, e o conjunto de dados (que contém id, age, income, gender, job categorymas nenhuma variável de resposta) a ser previsto contém 1 milhão de linhas. Minha pergunta é: existe algum problema em potencial se eu lançar muitas linhas (3 milhões neste caso) em um modelo estatístico? Entendo que as despesas computacionais são uma das preocupações, existem outras preocupações? Existem livros / documentos que explicam completamente o problema do tamanho do conjunto de dados?

modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

— user2926523
fonte

Ter muitas linhas não resulta em ajuste excessivo. Ter muitas colunas faz.

— Peter Flom

Como essa pergunta se baseia em múltiplas suposições falsas - que as pessoas relutam em usar muitos casos para análises e que a maioria dos modelos estatísticos não consegue lidar com grandes conjuntos de dados - é provável que acumule respostas irrelevantes ou confusas. Considere editar sua pergunta para remover essas deturpações.

— whuber

Você ainda não levou em conta o que o @whuber disse. As premissas estão erradas. Não é verdade que "a maioria dos modelos estatísticos não pode lidar com grandes conjuntos de dados", então você não receberá uma resposta útil para sua pergunta. Também não é verdade que você possa usar informações de todas as pessoas de um país em um determinado momento (acho que é isso que você quer dizer com "população").

— Pkofod

ID é, se for uma análise sã, não uma única variável contínua. O ID é uma variável categórica porque as diferenças entre os indivíduos não correspondem à atribuição numérica arbitrária que eles recebem. Isso significa que você tem 1 variável para cada indivíduo na análise. Potencialmente milhões.

— AdamO 27/01

obrigado pelo comentário, mas ainda fico confuso por que não consigo usar as informações de todas as pessoas de um país em um determinado momento (este é um exemplo artificial, então vamos supor que eu tenha essas informações)?

— user2926523

Respostas:

Existem dois tipos de problemas que você pode encontrar:

1) Problemas no computador porque o conjunto de dados é muito grande. Atualmente, alguns milhões de linhas com 6 colunas não são tão grandes assim. Mas, dependendo do seu programa, do seu computador, da sua quantidade de RAM e provavelmente de outras coisas, isso pode acontecer.

2) problemas estatísticos. Aqui, um problema que você discute terá um "problema" que eu conheço: até pequenos efeitos serão altamente significativos. Isso não é realmente um problema com regressão, é um problema com valores de p. Melhor observar os tamanhos dos efeitos (parâmetros de regressão).

3) Outro tipo de problema com o seu modelo não se deve ao número de linhas, mas à natureza da variável de resposta (gasto mensal). Embora a regressão OLS não faça nenhuma suposição sobre a distribuição da resposta (apenas sobre o erro), no entanto, modelos com dinheiro como variável dependente geralmente apresentam erros não normais. Além disso, muitas vezes faz sentido, substancialmente, registrar o log da resposta. Se isso é verdade no seu caso, depende exatamente do que você está tentando fazer.

— Peter Flom
fonte

Olá Peter, você pode explicar com mais detalhes por que a variável de resposta (ou seja, gasto mensal) deve ser registrada? Que benefício podemos obter disso?

— shihpeng

1000 t o

$1000 to$

10 t o

$10 to$

O importante é o número de indivíduos (linhas) em comparação com o número de coeficientes que você precisa estimar para o modelo que deseja ajustar. As regras típicas sugerem, no mínimo, cerca de 20 observações por coeficiente, portanto, você deve poder estimar até 150.000 coeficientes - certamente mais do que adequado para seus quatro preditores.

De fato, você tem uma oportunidade, não um problema, neste caso: ajustar um modelo bastante complexo, incluindo relações não lineares da resposta aos preditores e interações entre preditores; que pode prever a resposta muito melhor do que uma resposta mais simples, na qual se supõe que as relações da resposta aos preditores sejam lineares e aditivas.

— Scortchi - Restabelecer Monica
fonte