Simplificando, porque um nível de seu recurso categórico (aqui local) se torna o grupo de referência durante a codificação fictícia para regressão e é redundante. Estou citando a forma aqui "Uma variável categórica de categorias ou níveis K geralmente entra em uma regressão como uma sequência de variáveis fictícias K-1. Isso equivale a uma hipótese linear sobre as médias de nível".
Isso já foi discutido nesta resposta muito legal de stats.stackexchange .
Me disseram que há um curso avançado da Yandex no Coursera que aborda esse assunto com mais detalhes, se você ainda tiver dúvidas, veja aqui . Observe que você sempre pode auditar o conteúdo do curso gratuitamente. ;-)
Outro bom post, se você quiser uma explicação completa com muitos exemplos com perspectiva estatística e não se limitando apenas à codificação fictícia, veja isso na UCLA (em R)
Observe que, se você estiver usando pandas.get_dummies
, existe um parâmetro, ou drop_first
seja, para obter k-1 manequins de k níveis categóricos removendo o primeiro nível. Observe default = False
, o que significa que a referência não é descartada e k são criados fora de k níveis categóricos!