Eu tenho uma pergunta sobre clusters que estou pensando em tratar com uma abordagem de mistura não paramétrica (eu acho). Estou trabalhando na explicação do comportamento humano.
Cada linha do meu banco de dados contém:
- o ID de alguém
- alguns parâmetros do ambiente X (exemplo: temperatura, vento, etc.)
- uma variável binária Y representando a reação da pessoa aos parâmetros (exemplo: adoecer ou não adoecer devido ao clima).
Minha idéia (baseada na intuição e não nos dados) é que podemos reunir pessoas em um número finito de grupos para que, em um grupo, as pessoas tenham a mesma reação à temperatura (algumas ficam facilmente doentes, outras nunca estão doentes ...) . Em um determinado grupo, mais formalmente, a lei de Y condicional aos parâmetros X é a mesma.
Eu não tenho idéia da lei de Y condicional para X . Para os parâmetros X , posso fazer algumas hipóteses, se necessário.
Eu gostaria de criar um grupo de pessoas "tendo mais ou menos" a mesma reação ao parâmetro. Além disso, gostaria de prever a reação de uma determinada pessoa a um determinado valor dos parâmetros (mesmo que esse evento nunca tenha acontecido no banco de dados).
- Minha abordagem está correta?
- Você recomendaria outro ponto de vista para esse problema?
Eu ficaria muito interessado em quaisquer referências sobre isso.
Não hesite em me pedir para reformular a declaração do problema.