Um dos meus usos favoritos dos dados do CEP é procurar variáveis demográficas com base no CEP que talvez não estejam disponíveis no nível individual, caso contrário ...
Por exemplo, com http://www.city-data.com/, você pode procurar distribuição de renda, faixas etárias etc., o que pode lhe dizer algo sobre seus dados. Essas variáveis contínuas costumam ser muito mais úteis do que apenas basear-se em códigos postais binários, pelo menos para quantidades relativamente finitas de dados.
Além disso, os códigos postais são hierárquicos ... se você pegar os dois ou três primeiros dígitos e se binarizar com base nesses dados, você tem alguma quantidade de informações regionais, o que fornece mais dados do que os zips individuais.
Como Zach disse, latitude e longitude usadas também podem ser úteis, especialmente em um modelo baseado em árvore. Para um modelo linear regularizado, você pode usar quadríceps, dividindo os Estados Unidos em quatro grupos geográficos, binarizados e, em seguida, cada uma dessas áreas em quatro grupos e incluindo aqueles como variáveis binárias adicionais ... portanto, para n regiões totais de folhas você termine com [(4n - 1) / 3 - 1] variáveis totais (n para as regiões menores, n / 4 para o próximo nível acima, etc). É claro que isso é multicolinar, e é por isso que a regularização é necessária para fazer isso.