Venho brincando com a regressão logística com vários algoritmos de otimização de lote (gradiente conjugado, newton-raphson e vários métodos de quasinewton). Uma coisa que notei é que, às vezes, adicionar mais dados a um modelo pode tornar o treinamento do modelo muito menos demorado. Cada iteração requer a observação de mais pontos de dados, mas o número total de iterações necessárias pode cair significativamente ao adicionar mais dados. Obviamente, isso só acontece em determinados conjuntos de dados e, em algum momento, adicionar mais dados fará com que a otimização diminua a velocidade.
Esse é um fenômeno bem estudado? Onde posso encontrar mais informações sobre por que / quando isso pode acontecer?