Disclaimer: Isto é para um projeto de lição de casa.
Estou tentando encontrar o melhor modelo para os preços dos diamantes, dependendo de várias variáveis e, até agora, pareço ter um modelo muito bom. No entanto, encontrei duas variáveis que são obviamente colineares:
>with(diamonds, cor(data.frame(Table, Depth, Carat.Weight)))
Table Depth Carat.Weight
Table 1.00000000 -0.41035485 0.05237998
Depth -0.41035485 1.00000000 0.01779489
Carat.Weight 0.05237998 0.01779489 1.00000000
Tabela e Profundidade dependem uma da outra, mas ainda quero incluí-las no meu modelo preditivo. Fiz uma pesquisa sobre diamantes e descobri que a tabela e a profundidade são o comprimento na parte superior e a distância da ponta da parte superior à inferior de um diamante. Como esses preços dos diamantes parecem estar relacionados à beleza e a beleza parece ter proporções relacionadas, eu incluiria a proporção delas, digamos , para prever os preços. Esse procedimento padrão é para lidar com variáveis colineares? Se não, o que é?
Edit: Aqui está um gráfico de Profundidade ~ Tabela: