Como eu manejo variáveis preditoras de diferentes distribuições na regressão logística?

8

Eu estou usando regressão logística para prever y dado x1 e x2:

z = B0 + B1 * x1 + B2 * x2
y = e^z / (e^z + 1)

Como a regressão logística deve lidar com casos em que minhas variáveis têm escalas muito diferentes? As pessoas constroem modelos de regressão logística com coeficientes de ordem superior para variáveis? Estou imaginando algo assim (para duas variáveis):

z = B0 + B1 * x1 + B2 * x1^2 + B3 * x2 + B4 * x2^2

Como alternativa, é a resposta certa para simplesmente normalizar, padronizar ou redimensionar os valores x1 e x2 antes de usar a regressão logística?

— James Thompson
fonte

6

Claro que você pode normalizar seus parâmetros, isso também aumentaria a velocidade do algoritmo de aprendizado.

Para ter comparável no final da execução do algoritmo , calcule para cada recurso sua média e seu intervalo . Então você altera cada valor de , ou seja, o valor do recurso para um registro , com: Agora seus valores de estão no intervalo [- 1,1], para que você possa comparar seu com mais confiança e, portanto, seu odds ratio. Isso também reduz o tempo para encontrar o melhor conjunto de $\beta$ $x_i$ $\mu_i$ $r_i = \max_i - \min_i$ $r[x_i]$ $x_i$ $r$

\frac{r [x_{i}] - μ_{i}}{r_{i}}

$\frac{r[x_i] - \mu_i}{r_i}$

r [x_{i}]

$r[x_i]$

β

$\beta$

β

$\beta$ se você estiver usando descida gradiente. Lembre-se de normalizar seus recursos se desejar prever a classe de um novo registro .

r^{'}

$r'$

Você também pode adicionar recursos de ordem superior, mas isso leva ao ajuste excessivo. Normalmente, contanto que você adicione mais parâmetros, é melhor adicionar regularização, que tenta evitar o excesso de ajustes diminuindo a magnitude do seu . Isso é obtido adicionando esse termo à função de custo de regressão logística que o poder da regularização. $\beta$

λ \sum_{i = 0}^{n} β_{i}^{2}

$\lambda\sum_{i=0}^{n}\beta_i^2$

λ

$\lambda$

Sugiro dar uma olhada nas aulas de Stanford sobre aprendizado de máquina aqui: http://www.ml-class.org/course/video/preview_list , Unidades 6 e 7.

— Simone
fonte

só para esclarecer, quando você diz para normalizar um novo registro r ', você usa e derivados dos dados originais, correto? Obrigado

m u_{i}

$mu_i$

r_{i}

$r_i$

— FMZ 26/11/11

Sim, ele é. Você deve usar e computados no conjunto de treinamento para normalizar os valores de um novo registro. Ps: você também pode usar o desvio padrão do seu recurso vez de .

μ_{i}

$\mu_i$

r_{i}

$r_i$

x_{i}

$x_i$

r_{i}

$r_i$

— Simone

6

O @Simone faz alguns pontos positivos, então vou dar alguns petiscos complementares. Embora a normalização possa ajudar em questões como velocidade, a regressão logística não faz suposições sobre as distribuições de suas variáveis preditoras. Assim, você não precisa normalizar. Segundo, a adição de um termo ao quadrado pode levar ao sobreajuste (e você precisa ter cuidado com isso); é permitido. O que isso significa é que a probabilidade de sucesso é maior no meio do alcance de um preditor do que nos extremos (ou vice-versa).

— - Reinstate Monica
fonte

4

Em teoria, a escala de suas entradas é irrelevante para a regressão logística. Você pode "teoricamente" multiplicar por e a estimativa para será ajustada de acordo. Será vezes menor que o original , devido à propriedade de invariância dos MLEs. $X_1$ $10^{10^{10^{10}}}$ $\beta_1$ $10^{-10^{10^{10}}}$ $\beta_1$

Mas tente fazer com que R faça a regressão ajustada acima - ela surtará (nem será capaz de construir a matriz X).

É um pouco como o algoritmo de decomposição de Cholesky para calcular uma raiz quadrada de matriz. Sim, na matemática exata , a decomposição de Cholesky nunca envolve obter raiz quadrada de número negativo, mas arredondar erros e a aritmética de ponto flutuante pode levar a esses casos.

Você pode usar qualquer combinação linear de suas variáveis X e os valores previstos serão os mesmos.

Se seguirmos o conselho de @ simone, e usar as variáveis X redimensionadas para ajustar o modelo . Mas podemos usar a propriedade invariância do MLE para obter a versão beta desejada, depois de usar variáveis de entrada X numericamente estáveis. Pode ser que a versão beta na escala original seja mais fácil de interpretar do que a versão beta na transformada pela @ simone. Então, nós temos o transformou ( th observação para a th variável), chamá-lo de , definido por: $x_{ij}$ $i$ $j$ $\tilde{x}_{ij}$

{\tilde{x}}_{i j} = a_{j} x_{i j} + b_{j}

$\tilde{x}_{ij}=a_{j}x_{ij}+b_{j}$

A escolha de @ simone corresponde a e (usando para denotar a estatística de ordem da variável ésima, ou seja, $a_{j}=\frac{1}{x_{[N]j}-x_{[1]j}}$ $b_j=\frac{\overline{x}_{j}}{x_{[N]j}-x_{[1]j}}$ $x_{[i]j}$ $i$ $j$ $x_{[N]j}\geq x_{[N-1]j}\geq\dots\geq x_{[1]j}$ ) o $a_j$ e $b_j$ pode ser pensado como parâmetros do algoritmo (escolhido para tornar o algoritmo mais estável e / ou executar mais rápido). Em seguida, ajustamos uma regressão logística usando $\tilde{x}_{ij}$ e obtenha estimativas de parâmetros $\tilde{\beta}_j$ . Assim, escrevemos o preditor linear:

z_{i} = {\tilde{β}}_{0} + \sum_{j} {\tilde{x}}_{i j} {\tilde{β}}_{j}

$z_i = \tilde{\beta}_0 + \sum_j\tilde{x}_{ij}\tilde{\beta}_j$

Agora substitua a equação por $\tilde{x}_{ij}$ e você obtém:

z_{i} = {\tilde{β}}_{0} + \sum_{j} (a_{j} x_{i j} + b_{j}) {\tilde{β}}_{j} = β_{0} + \sum_{j} x_{i j} β_{j}

$z_i = \tilde{\beta}_0 + \sum_j(a_{j}x_{ij}+b_{j})\tilde{\beta}_j=\beta_0+\sum_jx_{ij}\beta_j$ Onde

\begin{array}{cc} β_{0} = {\tilde{β}}_{0} + \sum_{j} b_{j} {\tilde{β}}_{j} & β_{j} = a_{j} {\tilde{β}}_{j} \end{array}

$\begin{array}{c c}\beta_0=\tilde{\beta}_0+\sum_jb_{j}\tilde{\beta}_j & \;\;\;\;\;\; & \beta_j=a_j\tilde{\beta}_j \end{array}$

Você pode ver que, teoricamente, os parâmetros $a_j,b_j$ não faz nenhuma diferença: qualquer escolha (além de $a_j=0$ ) levará à mesma probabilidade, porque o preditor linear não é alterado. Até funciona para transformações lineares mais complicadas, como representar a matriz X por seus principais componentes (o que envolve rotações). Assim, podemos transformar os resultados de volta para obter os betas que queremos para interpretação.

— probabilityislogic
fonte

Boa prova teórica. Sem normalização, as razões de chances têm um significado realmente prático. No entanto, às vezes os profissionais usam essas razões de chances para avaliar a importância desse recurso, e isso é de alguma forma enganoso, porque um recurso pode ser significativo, mas também pode variar em um amplo intervalo e, portanto, ter um baixo índice de chances. Com a normalização, eles são imediatamente comparáveis, mesmo se perdendo seu significado prático. Obviamente, um teste estatístico deve ser feito para avaliar a importância de um recurso.

— Simone

Como eu manejo variáveis ​​preditoras de diferentes distribuições na regressão logística?

Como eu manejo variáveis preditoras de diferentes distribuições na regressão logística?