Eu tenho quatro variáveis numéricas. Todos eles são medidas da qualidade do solo. Quanto maior a variável, maior a qualidade. O intervalo para todos eles é diferente:
Var1 de 1 a 10
Var2 de 1000 a 2000
Var3 de 150 a 300
Var4 de 0 a 5
Preciso combinar quatro variáveis em um único índice de qualidade do solo, que classificará com êxito a ordem.
Minha ideia é muito simples. Padronize todas as quatro variáveis, resuma-as e o que você obtiver é a pontuação que deve ser ordenada. Você vê algum problema com a aplicação dessa abordagem. Existe alguma outra (melhor) abordagem que você recomendaria?
obrigado
Editar:
Obrigado rapazes. Muita discussão foi sobre "domínio especializado" ... Coisas sobre agricultura ... Enquanto eu esperava mais discussões sobre estatísticas. Em termos de técnica que vou usar ... Provavelmente será um somatório do escore z + regressão logística como um experimento. Como a grande maioria das amostras tem 90% de baixa qualidade, vou combinar 3 categorias de qualidade em uma e basicamente ter um problema binário (alguma qualidade versus não qualidade). Eu mato dois coelhos com uma cajadada só. Aumentei minha amostra em termos de taxa de eventos e utilizo especialistas ao classificá-las. Amostras classificadas por especialistas serão usadas para ajustar o modelo log-reg para maximizar o nível de concordância / discordância com os especialistas ... Como isso soa para você?