Você perguntou:
no caso em que 10 é de milhões, a regressão gaussiana de processos ainda funciona?
Não no sentido padrão de construir e inverter uma matriz grande. Você tem duas opções: 1) escolha um modelo diferente ou 2) faça uma aproximação.
1) Alguns modelos baseados em GP podem ser dimensionados para conjuntos de dados muito grandes, como a máquina do comitê bayesiano vinculada na resposta acima. Acho essa abordagem bastante insatisfatória: existem boas razões para escolher um modelo de GP e, se quisermos mudar para um modelo mais computável, talvez não retenhamos as propriedades do modelo original. As variações preditivas do BCM dependem fortemente da divisão de dados, por exemplo.
2) A abordagem 'clássica' de aproximação nos GPs é aproximar a matriz do kernel. Há uma boa revisão desses tipos de métodos aqui: http://www.jmlr.org/papers/volume6/quinonero-candela05a/quinonero-candela05a.pdf . De fato, geralmente podemos ver essas aproximações matriciais como aproximações do modelo e agrupá-las com a máquina do comitê bayesiano: são mudanças no modelo e pode ser difícil entender quando essas mudanças podem ser patológicas. Aqui está uma super revisão: https://papers.nips.cc/paper/6477-understanding-probabilistic-sparse-gaussian-process-approximations.pdf
A maneira que eu defendo para fazer aproximações para GPs grandes é evitar aproximar a matriz do kernel ou o modelo e aproximar a distribuição posterior usando inferência variacional. Muitos cálculos se parecem com uma aproximação de matriz de 'classificação baixa', mas há uma propriedade muito desejável: quanto mais cálculos você usar (mais "classificações"), mais próxima será a aproximação do verdadeiro posterior, medido pelo KL divergência.
Estes artigos são um bom ponto de partida: http://proceedings.mlr.press/v5/titsias09a/titsias09a.pdf
https://arxiv.org/pdf/1309.6835
Eu escrevi um artigo mais longo sobre o mesmo argumento aqui: https://www.prowler.io/blog/sparse-gps-approximate-the-posterior-not-the-model
Na prática, a aproximação variacional funciona muito bem em muitos casos. Eu o usei extensivamente em aplicativos reais. E, mais recentemente, tem havido uma teoria excelente para apoiar o porquê de funcionar ( https://arxiv.org/abs/1903.03571 ).
Um plug final: a inferência variacional nos GPs é implementada no gpflow ( https://github.com/GPflow/GPflow )