De um modo geral, informações sobre o valor fornece uma medida de quão bem uma variável é capaz de distinguir entre uma resposta binária (por exemplo, "bom" versus "mau") em alguma variável alvo . A idéia é que, se uma variável tiver um Valor baixo da informação, ela pode não ser suficiente para classificar a variável de destino e, portanto, é removida como uma variável explicativa.Y XXYX
Para ver como isso funciona, deixe o ser agrupado em compartimentos. Cada corresponde a um que pode assumir um dos dois valores, digamos 0 ou 1. Em seguida, para os compartimentos , ,nXnx∈Xy∈YXi1≤i≤n
IV=∑i=1n(gi−bi)∗ln(gi/bi)
Onde
bi=(# de 's em de ' s em a proporção de 's no compartimento versus todos os compartimentos0Xi)/(#0X)=0i
1 X i ) / ( # 1 X ) = 1 igi=(# de 's em de ' s em a proporção de 's no compartimento versus todos os compartimentos1Xi)/(#1X)=1i
X i I V < 0,3ln(gi/bi) também é conhecido como o Peso da evidência (para a posição ). Os valores de corte podem variar e a seleção é subjetiva. Costumo usar (como faz [1] abaixo).XiIV<0.3
No contexto da pontuação de crédito, esses dois recursos devem ajudar:
[1] http://www.mwsug.org/proceedings/2013/AA/MWSUG-2013-AA14.pdf.
[2] http://support.sas.com/resources/papers/proceedings12/141-2012.pdf.