Não sei se isso se qualifica como comentário ou resposta. Estou colocando aqui porque parece uma resposta.
Na validação cruzada k-fold, você está particionando seus dados em k grupos. Se você está cobrindo até o "básico", está selecionando uniformemente aleatoriamente membros para cada um dos k bins.
Quando falo de dados, penso em cada linha como uma amostra e em cada coluna como uma dimensão. Estou acostumado a usar vários métodos para determinar importância variável, importância da coluna.
E se você, como exercício de pensamento, se afastasse do uniforme "manual" aleatoriamente e determinasse quais linhas eram importantes? Talvez eles informem uma única variável de cada vez, mas talvez informem mais. Existem algumas linhas menos importantes que outras? Talvez muitos dos pontos sejam informativos, talvez poucos sejam.
Sabendo a importância da variável, talvez você possa classificá-las por importância. Talvez você possa fazer uma única caixa com as amostras mais importantes. Isso pode definir o tamanho do seu "k". Dessa maneira, você determinaria o k-ésimo "informativo" e o compararia com outros e com o menos informativo.
Isso pode lhe dar uma idéia da variação máxima dos parâmetros do seu modelo. É apenas uma forma.
Uma segunda maneira de dividir os enésimos baldes é pela magnitude e pela direção da influência. Assim, você pode colocar amostras que balançam um parâmetro ou parâmetros em uma direção em um balde e colocar amostras que balançam o mesmo parâmetro ou parâmetros na direção oposta em um balde diferente.
A variação de parâmetro neste formulário pode dar uma varredura mais ampla às variáveis, com base não na densidade de informações, mas na geração de informações.
Boa sorte.