Se você pode continuar adicionando novos dados (com base em um conceito principal, como área, por exemplo, o CEP) e o desempenho do seu modelo melhorar, é claro que é permitido ... supondo que você se preocupe apenas com o resultado final.
Existem métricas que tentarão guiá-lo com isso, como o Critério de informação de Akaike (AIC) ou o Critério de informação bayesiano comparável (BIC). Eles ajudam a escolher um modelo com base em seu desempenho, sendo punidos por todos os parâmetros adicionais introduzidos e que devem ser estimados. A AIC fica assim:
A I C =2k-2ln( L^)
onde é o número de parâmetros a serem estimados, ou seja, número de recursos que você aplica, porque cada um terá um coeficiente na sua regressão logística. é o valor máximo da Máxima Verossimilhança (equivalente à pontuação ideal). O BIC simplesmente usa um pouco diferente para punir os modelos.L kkL^k
Esses critérios podem ajudá-lo a dizer quando parar, pois você pode experimentar modelos com mais e mais parâmetros e simplesmente escolher o modelo que possui o melhor valor de AIC ou BIC.
Se você ainda tiver outros recursos no modelo, que não estão relacionados ao ZIP, eles poderão ficar sobrecarregados - isso depende do modelo usado. No entanto, eles também podem explicar coisas sobre o conjunto de dados que simplesmente não podem estar contidas nas informações do CEP, como a área útil de uma casa (assumindo que isso seja relativamente independente do CEP).
Nesse caso, você pode compará-las a algo como Análise de componentes principais, onde uma coleção de recursos explica uma dimensão da variação no conjunto de dados, enquanto outros recursos explicam outra dimensão. Portanto, não importa quantos recursos relacionados ao ZIP você tenha, você nunca poderá explicar a importância da área do piso.