O raciocínio intuitivo foi explicado no post do blog:
Se nosso objetivo for Previsão, isso causará um viés definido. E pior, será um viés permanente, no sentido de que não teremos estimativas consistentes à medida que o tamanho da amostra aumentar.
Portanto, sem dúvida o problema dos dados (artificialmente) balanceados é pior que o caso desequilibrado.
Os dados balanceados são bons para classificação, mas você obviamente perde informações sobre as frequências de aparência, o que afetará as métricas de precisão e o desempenho da produção.
Digamos que você esteja reconhecendo letras manuscritas do alfabeto inglês (26 letras). Desbalancear cada aparência de letra dará a cada letra uma probabilidade de ser classificada (corretamente ou não) em aproximadamente 1/26, para que o classificador esqueça a distribuição real de letras na amostra original. E tudo bem quando o classificador é capaz de generalizar e reconhecer todas as letras com alta precisão .
Mas se a precisão e a generalização mais importante não são "tão altas" (não posso lhe dar uma definição - você pode pensar nisso como um "pior caso") - os pontos mal classificados provavelmente distribuirão igualmente entre todas as letras , algo como:
"A" was misclassified 10 times
"B" was misclassified 10 times
"C" was misclassified 11 times
"D" was misclassified 10 times
...and so on
Ao contrário de sem balanceamento (supondo que "A" e "C" tenham maiores probabilidades de aparência no texto)
"A" was misclassified 3 times
"B" was misclassified 14 times
"C" was misclassified 3 times
"D" was misclassified 14 times
...and so on
Casos tão freqüentes receberão menos erros de classificação. Se é bom ou não, depende da sua tarefa. Para o reconhecimento de texto natural, pode-se argumentar que letras com frequências mais altas são mais viáveis, pois preservariam a semântica do texto original, aproximando a tarefa de reconhecimento da previsão (onde a semântica representa tendências ). Mas se você estiver tentando reconhecer algo como a captura de tela da chave ECDSA (mais entropia -> menos previsão) - manter os dados desequilibrados não ajudaria. Então, novamente, depende.
A distinção mais importante é que a estimativa de precisão está, por si só, tendenciosa (como você pode ver no exemplo do alfabeto balanceado), para que você não saiba como o comportamento do modelo está sendo afetado pelos pontos mais raros ou mais frequentes.
PS Você sempre pode rastrear o desempenho da classificação desequilibrada com as métricas de Precisão / Recuperação primeiro e decidir se precisa adicionar balanceamento ou não.
EDIT : Existe uma confusão adicional que reside na teoria das estimativas, precisamente na diferença entre a média da amostra e a média da população. Por exemplo, você pode saber (sem dúvida) a distribuição real de letras em inglês no alfabeto , mas sua amostra (conjunto de treinamento) não é grande o suficiente para estimar corretamente (com ). Portanto, para compensar a , às vezes é recomendável reequilibrar as classes de acordo com a própria população ou com os parâmetros conhecidos de uma amostra maiorp ( xEu| θ)p ( xEu| θ^)θ i - θ iθ^Eu- θEu(melhor avaliador). No entanto, na prática, não há garantia de que uma "amostra maior" seja identicamente distribuída devido ao risco de obter dados tendenciosos em todas as etapas (digamos letras inglesas coletadas da literatura técnica versus ficção versus toda a biblioteca), portanto o equilíbrio ainda pode ser prejudicial.
Esta resposta também deve esclarecer os critérios de aplicabilidade para o balanceamento:
O problema do desequilíbrio de classe é causado por não haver padrões suficientes pertencentes à classe minoritária, e não pela proporção de padrões positivos e negativos propriamente ditos. Geralmente, se você tiver dados suficientes, o "problema de desequilíbrio de classe" não surge
Como conclusão, o equilíbrio artificial raramente é útil se o conjunto de treinamento for grande o suficiente. A ausência de dados estatísticos de uma amostra maior distribuída de forma idêntica também sugere a necessidade de balanceamento artificial (especialmente para previsão); caso contrário, a qualidade do estimador é tão boa quanto a "probabilidade de encontrar um dinossauro":
Qual é a probabilidade de encontrar um dinossauro na rua?
1/2 você encontra um dinossauro ou não encontra um dinossauro