Meu projeto atual pode exigir que eu construa um modelo para prever o comportamento de um determinado grupo de pessoas. o conjunto de dados de treinamento contém apenas 6 variáveis (id é apenas para fins de identificação):
id, age, income, gender, job category, monthly spend
em que monthly spend
é a variável de resposta. Mas o conjunto de dados de treinamento contém aproximadamente 3 milhões de linhas, e o conjunto de dados (que contém id, age, income, gender, job category
mas nenhuma variável de resposta) a ser previsto contém 1 milhão de linhas. Minha pergunta é: existe algum problema em potencial se eu lançar muitas linhas (3 milhões neste caso) em um modelo estatístico? Entendo que as despesas computacionais são uma das preocupações, existem outras preocupações? Existem livros / documentos que explicam completamente o problema do tamanho do conjunto de dados?