Digamos que eu queira criar um Classificador Logístico para um filme M. Meus recursos seriam algo como idade da pessoa, gênero, ocupação, local. Portanto, o conjunto de treinamento seria algo como:
- Idade Sexo Ocupação Localização Gosto (1) / Não gosto (0)
- 23 M Software EUA 1
- 24 M Médico Reino Unido 0
e assim por diante ... Agora, minha pergunta é como devo dimensionar e representar meus recursos. Uma maneira que pensei: Divida a idade como faixas etárias, então 18-25, 25-35, 35 anos acima, Sexo como M, F, Localização como EUA, Reino Unido, Outros. Agora crie um recurso binário para todos esses valores; portanto, a idade terá três recursos binários, cada um correspondente a um grupo etário e assim por diante. Portanto, um homem de 28 anos dos EUA seria representado como 010 10100 (010-> Faixa etária 25-35, 10 -> Masculino, 100 -> EUA)
Qual poderia ser a melhor maneira de representar recursos aqui? Além disso, notei em alguns exemplos: do sklearn que todos os recursos foram dimensionados / normalizados de alguma forma, por exemplo, o gênero é representado por dois valores, 0,0045 e -0,0045, para masculino e feminino. Eu não tenho idéia de como fazer escala / mormalização como esta?