A estratificação procura garantir que cada dobra seja representativa de todos os estratos dos dados. Geralmente, isso é feito de maneira supervisionada para classificação e visa garantir que cada classe seja (aproximadamente) igualmente representada em cada dobra de teste (que é obviamente combinada de maneira complementar para formar dobras de treinamento).
A intuição por trás disso está relacionada ao viés da maioria dos algoritmos de classificação. Eles tendem a ponderar cada instância igualmente, o que significa que classes super-representadas ganham muito peso (por exemplo, otimização da medida F, precisão ou uma forma complementar de erro). A estratificação não é tão importante para um algoritmo que pesa cada classe igualmente (por exemplo, otimizando Kappa, Informedness ou ROC AUC) ou de acordo com uma matriz de custos (por exemplo, que está atribuindo um valor a cada classe corretamente ponderado e / ou um custo para cada maneira de classificação incorreta). Veja, por exemplo, DMW Powers (2014), O que a medida F não mede: Recursos, falhas, falácias e correções. http://arxiv.org/pdf/1503.06410
Uma questão específica que é importante em algoritmos imparciais ou equilibrados é que eles tendem a não ser capazes de aprender ou testar uma classe que não é representada de maneira alguma e, além disso, mesmo o caso em que apenas uma de uma classe é representado em uma dobra não permite que a generalização execute resp. avaliados. No entanto, mesmo essa consideração não é universal e, por exemplo, não se aplica tanto ao aprendizado em uma classe, que tenta determinar o que é normal para uma classe individual e identifica efetivamente os outliers como sendo uma classe diferente, considerando que a validação cruzada trata-se de determinar estatísticas que não geram um classificador específico.
Por outro lado, a estratificação supervisionada compromete a pureza técnica da avaliação, pois os rótulos dos dados de teste não devem afetar o treinamento, mas na estratificação são utilizados na seleção das instâncias de treinamento. A estratificação não supervisionada também é possível com base na disseminação de dados semelhantes, observando apenas os atributos dos dados, não a classe real. Ver, por exemplo,
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.469.8855
NA Diamantidis, D. Karlis, EA Giakoumakis (1997), estratificação não supervisionada de validação cruzada para estimativa de precisão.
A estratificação também pode ser aplicada à regressão, e não à classificação. Nesse caso, como a estratificação não supervisionada, a similaridade ao invés da identidade é usada, mas a versão supervisionada usa o valor verdadeiro da função conhecida.
Complicações adicionais são classes raras e classificação de vários rótulos, onde classificações estão sendo feitas em múltiplas dimensões (independentes). Aqui, tuplas dos rótulos verdadeiros em todas as dimensões podem ser tratadas como classes com a finalidade de validação cruzada. No entanto, nem todas as combinações ocorrem necessariamente, e algumas combinações podem ser raras. Classes raras e combinações raras são um problema, pois uma classe / combinação que ocorre pelo menos uma vez, mas menos de K vezes (em K-CV) não pode ser representada em todas as dobras de teste. Nesses casos, pode-se considerar uma forma de boostrapping estratificado (amostragem com substituição para gerar uma dobra de treinamento em tamanho real com repetições esperadas e 36,8% esperadas não selecionadas para teste, com uma instância de cada classe selecionada inicialmente sem substituição para a dobra de teste) .
Outra abordagem para a estratificação de vários rótulos é tentar estratificar ou inicializar cada dimensão de classe separadamente, sem procurar garantir a seleção representativa de combinações. Com rótulos L e instâncias N e instâncias Kkl da classe k para o rótulo l, podemos escolher aleatoriamente (sem substituição) o conjunto correspondente de instâncias rotuladas Dkl aproximadamente instâncias N / LKkl. Isso não garante o equilíbrio ideal, mas sim o equilíbrio heuristicamente. Isso pode ser melhorado com a restrição da seleção de rótulos na cota ou acima dela, a menos que não haja escolha (pois algumas combinações não ocorrem ou são raras). Problemas tendem a significar que existem poucos dados ou que as dimensões não são independentes.