Eu tenho um arquivo bastante larege 100M linhas e 30 colunas ou mais em que eu gostaria de executar várias regressões. Eu tenho código especializado para executar as regressões em todo o arquivo, mas o que eu gostaria de fazer é extrair amostras aleatórias do arquivo e executá-las em R. A estratégia é: amostrar N linhas aleatoriamente do arquivo sem substituição, executar uma regressão e salve os coeficientes de interesse repita esse processo M vezes com amostras diferentes para cada coeficiente calcule as médias e os erros padrão dos coeficientes sobre M corridas.
Gostaria de interpretar a média calculada sobre M execuções como uma estimativa dos valores dos coeficientes computados em todo o conjunto de dados e os erros padrão das médias como estimativas dos erros padrão dos coeficientes computados em todo o conjunto de dados.
As experiências mostram que essa é uma estratégia promissora, mas não tenho certeza sobre a teoria subjacente. Meus estimadores são consistentes, eficientes e imparciais? Se eles são consistentes, com que rapidez devem convergir? Quais são as melhores vantagens e desvantagens de M e N?
Eu apreciaria muito se alguém pudesse me indicar artigos, livros etc. com a teoria relevante.
Com os melhores cumprimentos e muito obrigado,
Joe Rickert