Sim, você está certo de que há uma falta de identificação, a menos que um dos vetores coeficientes seja corrigido. Existem algumas razões que não mencionam isso. Não sei explicar por que eles omitem esse detalhe, mas aqui está uma explicação do que é e como corrigi-lo.
Descrição
Digamos que você tenha observações e preditores , onde vou de a denota o número / índice da observação. Você vai precisar de estimar dimensional coeficiente de vetores .yi∈{0,1,2,…,K−1}x⊺i∈Rpi1nK pβ0,β1,…,βK−1
A função softmax é realmente definida como
que possui boas propriedades, como diferenciabilidade, soma , etc.softmax(z)i=exp(zi)∑K−1l=0exp(zl),
1
A regressão logística multinomial usa a função softmax para cada observação no vetor
i⎡⎣⎢⎢⎢⎢⎢x⊺iβ0x⊺iβ1⋮x⊺iβK−1,⎤⎦⎥⎥⎥⎥⎥
que significa
⎡⎣⎢⎢⎢⎢⎢P(yi=0)P(yi=1)⋮P(yi=K−1)⎤⎦⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢exp[x⊺iβ0]∑K−1k=0exp[x⊺iβk]exp[x⊺iβ1]∑K−1k=0exp[x⊺iβk]⋮exp[x⊺iβK−1]∑K−1k=0exp[x⊺iβk]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥.
O problema
No entanto, a probabilidade não é identificável porque várias coleções de parâmetros fornecerão a mesma probabilidade. Por exemplo, mudar todos os vetores de coeficiente pelo mesmo vetor produzirá a mesma probabilidade. Isso pode ser visto se você multiplicar cada numerador e denominador de cada elemento do vetor por uma constante , nada muda:cexp[−x⊺ic]
⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢exp[x⊺iβ0]∑K−1k=0exp[x⊺iβk]exp[x⊺iβ1]∑K−1k=0exp[x⊺iβk]⋮exp[x⊺iβK−1]∑K−1k=0exp[x⊺iβk]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢exp[x⊺i(β0−c)]∑K−1k=0exp[x⊺i(βk−c)]exp[x⊺i(β1−c)]∑K−1k=0exp[x⊺i(βk−c)]⋮exp[x⊺i(βK−1−c)]∑K−1k=0exp[x⊺i(βk−c)]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥.
Consertando-o
A maneira de corrigir isso é restringir os parâmetros. A correção de um deles levará à identificabilidade, porque a mudança de todos eles não será mais permitida.
Existem duas opções comuns:
- defina , o que significa (você mencionou este) ec=β0β0=0
- defina , o que significa .c=βK−1βK−1=0
Ignorando
Às vezes, a restrição não é necessária. Por exemplo, se você estava interessado em formar um intervalo de confiança para a quantidade , então é o mesmo que . relativamente quantidades realmente não importa. Além disso, se sua tarefa for previsão em vez de inferência de parâmetros, suas previsões não serão afetadas se todos os vetores de coeficiente forem estimados (sem restringir um).β01−β21β01−c−[β21−c]