EDIT: Ajustar ou selecionar um modelo com base na validação cruzada está essencialmente tentando minimizar o erro de previsão (por exemplo, erro de previsão ao quadrado médio). Você seleciona um modelo condicional para algum subconjunto de dados de entrada e prevê a saída nos locais deixados de fora. Intuitivamente, é uma previsão porque você está avaliando o modelo em locais fora da amostra. Sua pergunta é o que acontece se o seu conjunto de modelos candidatos for independente dos dados de entrada (ou seja, você não usa nenhum dado ao gerar modelos aleatoriamente).
Essa suposição não é tão diferente de qualquer outro procedimento de ajuste de modelo. Por exemplo, se eu começar com um modelo parametrizado e os parâmetros puderem ser um número real, também tenho um conjunto infinito de modelos candidatos. Nós dois ainda precisamos selecionar o melhor modelo do conjunto de modelos possíveis, minimizando algumas métricas de erro. Portanto, ambas as nossas opções de modelo dependem de alguns dados de treinamento (talvez um subconjunto de todos os dados de treinamento, se estiver usando validação cruzada). Você não especifica uma métrica de erro, portanto, vamos assumir que é erro quadrático médio (MSE). Eu escolho os parâmetros do modelo e, portanto, meu modelo usando algum procedimento de caixa preta, assumindo que a métrica MSE depende dos dados de treinamento. Você escolhe seu modelo no seu conjunto de modelos aleatórios, assumindo a métrica MSE condicional nos dados de treinamento.
Nós escolhemos o mesmo modelo? Depende se você iniciou com diferentes conjuntos de modelos candidatos.
Superestimamos os dados? Depende do conjunto de modelos candidatos com os quais começamos e dos dados de treinamento.
Sabemos que superestimamos os dados? Se fizermos a validação cruzada, podemos verificar o erro de previsão.
RESPOSTA ORIGINAL: Em um sentido amplo, há algum sinal nos dados e algum ruído. Quando superestimamos, estamos essencialmente ajustando o ruído.
Na validação cruzada, deixamos de fora partes dos dados ao ajustar e avaliamos o erro ao prever os pontos deixados de fora. É semelhante a ter dados de treinamento e teste, pois estamos medindo um erro fora da amostra. O modelo deve generalizar bem, independentemente de quais pontos são omitidos. Se ajustarmos o ruído, o modelo não generalizará bem. O conjunto de modelos que estamos comparando provavelmente não inclui aqueles que tentam interpolar um ponto de dados quando ele é omitido dos dados de treinamento. Se o modelo se comportar dessa maneira (por exemplo, comportamento aleatório para melhorar o ajuste), é provável que não tenhamos um procedimento geral razoável de ajuste do modelo e a validação cruzada não possa nos ajudar.
Se você tem um conjunto infinito de modelos e uma quantidade infinita de tempo, acho que em teoria você poderia gerar um modelo que fosse tão bom ou melhor do que qualquer modelo que fosse gerado por qualquer outro procedimento. Como você saberá qual modelo do seu conjunto infinito é? Se for o modelo que interpola os dados de treinamento, sim, ele será super ajustado quando os dados de treinamento forem barulhentos.