Fazendo regressões em amostras de um arquivo muito grande: as médias e SEs dos coeficientes de amostra são estimadores consistentes?

8

Eu tenho um arquivo bastante larege 100M linhas e 30 colunas ou mais em que eu gostaria de executar várias regressões. Eu tenho código especializado para executar as regressões em todo o arquivo, mas o que eu gostaria de fazer é extrair amostras aleatórias do arquivo e executá-las em R. A estratégia é: amostrar N linhas aleatoriamente do arquivo sem substituição, executar uma regressão e salve os coeficientes de interesse repita esse processo M vezes com amostras diferentes para cada coeficiente calcule as médias e os erros padrão dos coeficientes sobre M corridas.

Gostaria de interpretar a média calculada sobre M execuções como uma estimativa dos valores dos coeficientes computados em todo o conjunto de dados e os erros padrão das médias como estimativas dos erros padrão dos coeficientes computados em todo o conjunto de dados.

As experiências mostram que essa é uma estratégia promissora, mas não tenho certeza sobre a teoria subjacente. Meus estimadores são consistentes, eficientes e imparciais? Se eles são consistentes, com que rapidez devem convergir? Quais são as melhores vantagens e desvantagens de M e N?

Eu apreciaria muito se alguém pudesse me indicar artigos, livros etc. com a teoria relevante.

Com os melhores cumprimentos e muito obrigado,

Joe Rickert

r regression large-data bootstrap

— csgillespie
fonte

Joshep, se eu entendi sua pergunta, o objetivo do seu trabalho seria demonstrar que, ao executar análises de regressão em amostras aleatórias, você obteve resultados semelhantes aos de todo o conjunto de dados, se a suposição permutável for válida. Minha pergunta é se alguém conhece alguma referência na qual esse método foi usado.

— Manuel Ramón

5

Se você pode supor que suas linhas de sua matriz de dados são permutáveis , sua estratégia de modelagem deve funcionar bem. Seu método deve ser bom nas condições estabelecidas por Gaetan Lion antes.

A razão pela qual seu método funcionará ( dada a suposição de permutabilidade ) é que ele é tomado como um caso especial de autoinicialização paramétrica, no qual você recoloca N amostras de grandes amostras, ajusta um modelo e armazena os coeficientes e repete este M vezes (na terminologia tradicional de autoinicialização, seu M é equivalente a B ) e calcula a média das estimativas do coeficiente M. Você também pode vê-lo do ponto de vista de teste de permutação.

Mas todos esses resultados são verdadeiros se a suposição de permutabilidade ( difícil de verificar ) se mantiver. Se a suposição de permutabilidade não se mantiver, a resposta nesse caso se tornará um pouco complicada. Provavelmente, você precisa cuidar dos subgrupos em seus dados que podem ser trocados e executar seu processo condicionado nesses subgrupos. Basicamente, modelagem hierárquica.

— suncoolsu
fonte

Olá suncoolsu. Sim, acho que a suposição de permutabilidade é crucial. Obrigado por apontar isso. Você conhece algum resultado sobre taxas de convergência?

1

Olá José, como na maioria dos resultados ( em geral ) das estatísticas clássicas: o bootstrap paramétrico converge em torno das taxas , em que é o tamanho da amostra. No seu caso, corresponde a , pois você está calculando a média das estimativas de bootstrap. Isso é equivalente à normalidade assintótica (ou CLT ). As suposições e os detalhes do resultado podem ser encontrados em: Hall, P. 1988. Rate of Convergence in Bootstrap Approximations. Anais de Probabilidade.

n^{\frac{1}{2}}

$n^{\frac{1}{2}}$

n

$n$

n

$n$

M

$M$

M

$M$

— suncoolsu

Adendo: quando digo , quero dizer que o erro chega a zero com essa taxa .

n^{1 / 2}

$n^{1/2}$

O (n^{- 1 / 2})

$O(n^{-1/2})$

— suncoolsu

Olá suncoolsu. Obrigado pela referência. Eu aprecio muito isso. Eu vou fazer minha lição de casa.

4

A resposta para sua pergunta original é sim, porque a teoria clássica se aplica ao seu esquema de amostragem. Você não precisa de nenhuma suposição na matriz de dados original. Toda a aleatoriedade (implicitamente por trás de erros e consistência padrão) vem do seu esquema para amostrar linhas da matriz de dados. $N$

Pense no seu conjunto de dados inteiro (100 milhões de linhas) como sendo a população. Cada estimativa (supondo que sua amostra do tamanho seja uma amostra aleatória simples das linhas) é uma estimativa consistente dos coeficientes de regressão (digamos, ) calculados a partir de todo o conjunto de dados. Além disso, é aproximadamente Normal com média igual a e alguma covariância. A estimativa usual da covariância da estimativa também é consistente. Se você repetir esse tempo e calcular a média dessas estimativas, a estimativa resultante (por exemplo, ) também será aproximadamente Normal. Você pode tratar essas estimativas como quase independentes (não correlacionadas), desde que $N$ $\hat{\beta}_*$ $\hat{\beta}_*$ $M$ $M$ $\hat{\beta}_{avg}$ $M$ $N$ e são pequenos em relação a 100M. Essa é uma suposição importante. A idéia é que a amostragem sem substituição é aproximadamente a mesma que a amostragem com substituição quando o tamanho da amostra é pequeno comparado ao tamanho da população. $M$

Dito isto, acho que seu problema é realmente uma maneira de aproximar eficientemente a estimativa de regressão ( ) calculada a partir de todo o conjunto de dados. Há uma diferença entre (1) a média de estimativas com base em amostras de tamanho e (2) uma estimativa com base em uma amostra de tamanho . O MSE de (2) será geralmente menor que o MSE de (1). Eles seriam iguais apenas se a estimativa fosse linear nos dados, mas esse não é o caso. Presumo que você esteja usando menos quadrados. A estimativa dos mínimos quadrados é linear no vetor (resposta), mas não na matriz (covariáveis). Está a amostragem aleatoriamente e . $\hat{\beta}_*$ $M$ $N$ $MN$ $Y$ $X$ $Y$ $X$

(1) e (2) são esquemas simples, mas não necessariamente eficientes. (Embora isso não importe, pois você tem apenas 30 variáveis.) Existem maneiras melhores. Aqui está um exemplo: http://arxiv.org/abs/0710.1435

— vqv
fonte

2

Quanto maior a amostra N, menor o erro padrão (maior estatística t e menores os respectivos valores de p) associados a todos os seus coeficientes de regressão. Quanto maior M, mais pontos de dados você terá e menor será o seu erro padrão da média dos coeficientes sobre as execuções de M. Esses meios devem ter um erro padrão que normalmente é distribuído pelo Teorema do Limite Central. Em termos de convergência de tais meios, não tenho certeza se existem princípios estatísticos que ditem isso. Eu suspeito que, se sua amostragem aleatória for bem-feita (sem viés estrutural, etc ...), a convergência deve ocorrer rapidamente. Isso é algo que você pode ter que observar empiricamente.

Caso contrário, seu método parece bom, não vejo nenhum problema com ele.

— Sympa
fonte

Olá Gaten, Obrigado por analisar isso. Ainda não tenho certeza de que entendo a lógica. A amostra completa beta.hat é e estimativa do verdadeiro beta. Meu sample.mean.beta.hat é uma estimativa de beta.hat não é? O argumento CLT de que beta.hat e sample.mean.beta.hat convergem entre si?

@Joseph. Não sei se entendi seu comentário. Nós apenas usamos uma sintaxe um pouco diferente. Não sei o que beta.hat significa. Meu argumento foi que uma amostra N maior fornecerá uma significância estatística maior (erro padrão mais baixo, estatuto t mais alto, valor mais baixo de p) em todos os coeficientes de regressão em uma única execução. Enquanto isso, o maior número de iterações M fornecerá maior significância estatística para a Média de cada coeficiente específico em todas as iterações. São duas coisas diferentes.

— Sympa

@ Joseph, usando seu idioma. Não tenho certeza de que o argumento CLT sugira que beta.hat e sample.mean.beta.hat convergirão um para o outro. Mas, que suas respectivas distribuições de resultado (definidas pelo erro padrão em torno da média) serão normalmente distribuídas. Eu acho que os dois beta.hat (s) irão convergir em direção ao outro, simplesmente porque eles vão cada tornam-se mais firmadas acima ou estatisticamente significativa como você usa mais N e maior M.

— Sympa