Métodos penalizados para dados categóricos: combinando níveis em um fator

Modelos penalizados podem ser usados para estimar modelos em que o número de parâmetros é igual ou até maior que o tamanho da amostra. Essa situação pode surgir em modelos log-lineares de grandes tabelas esparsas de dados categóricos ou de contagem. Nessas configurações, geralmente também é desejável ou útil recolher tabelas combinando níveis de um fator em que esses níveis não são distinguíveis em termos de como eles interagem com outros fatores. Duas questões:

Existe uma maneira de usar modelos penalizados, como LASSO ou rede elástica, para testar a capacidade de recolhimento de níveis dentro de cada fator?
Se a resposta para a primeira pergunta for afirmativa, pode e deve ser configurada de tal maneira que o colapso dos níveis e a estimativa dos coeficientes do modelo ocorram em uma única etapa?

— andrewH
fonte

Este documento, doi.org/10.1177/1471082X16642560 , fornece uma boa visão geral do que foi feito nessa área nos últimos dez anos.

— Jorne Biccler

Nota: a penalidade que discuto abaixo é a equação 3.4 no link de @JorneBiccler. (É interessante ver que essa pergunta já foi considerada antes!) #

— User795305 6/17/17

Possível duplicado de variáveis categóricas pré-processo com muitos valores

— b Kjetil Halvorsen

Como podemos chamar isso de duplicado para uma pergunta que o precedeu?

— Michael R. Chernick

É possível. Podemos usar uma variante do laço fundido para fazer isso.

\hat{β} = \arg min_{β} \frac{- 1 1}{n} \sum_{Eu = 1 1}^{n} (y_{Eu} β^{T} x_{Eu} - e^{β^{T} x_{Eu}}) + \sum_{fatores g} λ_{g} (\sum_{j \in g} | β_{j} | + \frac{1 1}{2} \sum_{j, k \in g} | β_{j} - β_{k} |) .

$\hat{\beta} = \arg\min_{\beta} \frac{-1}{n} \sum_{i=1}^n \left(y_i \beta^T x_i - e^{\beta^T x_i} \right) + \sum_{\textrm{factors g}} \lambda_g \left(\sum_{j \in g} |\beta_j| + \frac{1}{2} \sum_{j,k \in g} |\beta_j - \beta_k| \right).$

Observe que é a função de perda para log-linear modelos. $\frac{-1}{n} \sum_{i=1}^n \left(y_i \beta^T x_i - e^{\beta^T x_i} \right)$

Isso incentiva os coeficientes dentro de um grupo a serem iguais. Essa igualdade de coeficientes é equivalente ao colapso dos níveis e do fator juntos. No caso de quando , é equivalente a recolher o nível com o nível de referência. Os parâmetros de ajuste podem ser tratados como constantes, mas, se houver apenas alguns fatores, seria melhor tratá-los como separados. $j^{th}$ $k^{th}$ $\hat{\beta}_j=0$ $j^{th}$ $\lambda_g$

O estimador é um minimizador de uma função convexa, para que possa ser computado eficientemente através de solucionadores arbitrários. É possível que, se um fator tiver muitos, muitos níveis, essas diferenças aos pares fiquem fora de controle - nesse caso, será necessário conhecer mais estrutura sobre possíveis padrões de colapso.

Observe que tudo isso é realizado em uma única etapa! Isso faz parte do que torna os estimadores do tipo laço tão legais!

Outra abordagem interessante é usar o estimador OSCAR, que é como acima, exceto a penalidade é substituída por . $\|[-1 \, 1] \cdot [\beta_i \, \beta_j]'\|_1$ $\|[\beta_i \, \beta_j]\|_\infty$

— user795305
fonte