Uma das metodologias para selecionar um subconjunto de recursos disponíveis para o seu classificador é classificá-los de acordo com um critério (como ganho de informações) e, em seguida, calcular a precisão usando seu classificador e um subconjunto dos recursos classificados.
Por exemplo, se seus recursos são A, B, C, D, E
e são classificados da seguinte forma D,B,C,E,A
, você calcula a precisão usando D
, D, B
então D, B, C
, então D, B, C, E
... até que sua precisão comece a diminuir. Quando começar a diminuir, você para de adicionar recursos.
No exemplo 1 (acima), você selecionaria recursos F, C, D, A
e descartaria os outros recursos, pois eles diminuem sua precisão.
Essa metodologia pressupõe que a adição de mais recursos ao seu modelo aumenta a precisão do seu classificador até um certo ponto, após o qual a adição de recursos adicionais diminui a precisão (como visto no exemplo 1)
No entanto, minha situação é diferente. Eu apliquei a metodologia descrita acima e descobri que a adição de mais recursos diminuía a precisão até um ponto após o qual aumenta.
Em um cenário como este, como você escolhe seus recursos? Você só escolhe F
e descarta o resto? Você tem alguma idéia de por que a precisão diminuiria e aumentaria?