Por que alguém deveria fazer uma transformação WOE de preditores categóricos em regressão logística?


10

Quando é útil a transformação do peso da evidência (WOE) das variáveis ​​categóricas?

O exemplo pode ser visto na transformação WOE

(Assim, para uma resposta , & um preditor categórica com categorias, & sucessos de ensaios no âmbito do th categoria de este preditor, o AI para o th categoria é definido comok y j n j j jykyjnjjj

logyjjkyjjk(njyj)njyj

& a transformação consiste em codificar cada categoria do preditor categórico com seu WOE para formar um novo preditor contínuo.)

Gostaria de aprender o motivo pelo qual a transformação WOE ajuda na regressão logística. Qual é a teoria por trás disso?

Respostas:


6

No exemplo ao qual você vincula, o preditor categórico é representado por uma única variável contínua, assumindo um valor para cada nível igual às chances de log observadas da resposta nesse nível (mais uma constante):

logyjnjyj+logjk(njyj)jkyj

Essa ofuscação não serve a nenhum propósito em que eu possa pensar: você obterá a mesma resposta prevista como se tivesse usado a codificação fictícia usual; mas os graus de liberdade estão errados, invalidando várias formas úteis de inferência sobre o modelo.

Na regressão múltipla, com vários preditores categóricos a serem transformados, suponho que você calcule os WOEs para cada um usando probabilidades marginais de log. Isso mudará as respostas previstas; mas como a confusão não é levada em consideração - as probabilidades condicionais de log não são uma função linear das probabilidades marginais de log - não vejo motivo para supor que seja uma melhoria, e os problemas inferenciais permanecem.


Você pode explicar por que os graus de liberdade estão errados com o WOE? É apenas uma transformação, certo? E se tivéssemos várias variáveis ​​categóricas e obtivemos o WOE para cada uma delas uma a uma? Na minha experiência, quando você tem muitas variáveis ​​categóricas, alguns intervalos entre diferentes variáveis ​​se sobrepõem muito e você começa a ver alguns coeficientes que são insignificantes. E você também precisa carregar vários coeficientes.
adam

11
(1) Uma transformação que depende da avaliação da relação dos preditores com a resposta - algo que deveria ser deixado para a regressão. Portanto, por exemplo, a estatística do teste da razão de verossimilhança não terá a mesma distribuição de quando uma transformação é pré-especificada. (2) Bom ponto! - uma regressão múltipla no WOEs não será equivalente à das variáveis ​​fictícias (a menos que os modelos estejam saturados). (3) e daí? (4) Os coeficientes não são mais pesados ​​que os WOEs.
Scortchi - Restabelece Monica

1

A classificação grosseira usando a medida do peso da evidência (WoE) tem a seguinte vantagem: a WoE exibe uma relação linear com o logaritmo natural da razão de chances, que é a variável dependente na regressão logística.
Portanto, a questão da especificação incorreta do modelo não surge na regressão logística quando usamos o WoE em vez dos valores reais da variável.

α β W o E ( V a r 1 ) γ W o E ( V a r 2 ) η W o E ( V a r 3 )ln(p/1p) = + * + * + *αβWoE(Var1)γWoE(Var2)ηWoE(Var3)

Fonte: Em um dos PPTs, meu treinador me mostrou durante o treinamento da empresa.


11
"a especificação incorreta do modelo não surge na regressão logística quando usamos o WoE em vez dos valores reais da variável". Você pode explicar / provar isso matematicamente?
adam

Eu não sou de análise de risco de fundo, mas pg 131.132 deste livro parece dizer assim books.google.co.in/...
Srikanth Guhan

Também este link afirma o mesmo, embora nenhuma matemática seja explicada analyticbridge.com/forum/topics/…
Srikanth Guhan

Obrigado pelos links, mas é claramente falso que as chances marginais de log às quais a WoE é proporcional tenham uma relação linear com as chances condicionais de log com as quais a regressão logística se refere. Confundir com outros preditores pode até resultar em categorias de pedidos de WoE de maneira diferente.
Scortchi - Reinstate Monica

1

As transformações do WOE ajudam quando você tem dados numéricos e categóricos dos quais precisa combinar e valores ausentes nos quais gostaria de extrair informações. A conversão de tudo no WOE ajuda a "padronizar" muitos tipos diferentes de dados (até mesmo dados ausentes) na mesma escala de chances de log. Esta postagem do blog explica as coisas razoavelmente bem: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/

O resumo da história é que a regressão logística com o WOE deve ser apenas (e é) chamada de classificador semi-ingênuo bayesiano (SNBC). Se você está tentando entender o algoritmo, o nome SNBC é, para mim, muito mais informativo.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.