Como calcular os intervalos de confiança nos coeficientes de regressão no PLS?

10

O modelo subjacente do PLS é que um dado vetor e vetor são relacionados por onde é uma matriz latente , e são termos de ruído (as operações estão centralizadas). $n \times m$ $X$ $n$ $y$

X = T P^{'} + E,

$X = T P' + E,$

y = T q^{'} + f,

$y = T q' + f,$

T

$T$

n \times k

$n \times k$

E, f

$E, f$

X, y

$X, y$

O PLS produz estimativas de e um vetor 'atalho' de coeficientes de regressão, modo que . Gostaria de encontrar a distribuição de sob algumas suposições simplificadoras, que provavelmente devem incluir o seguinte: $T, P, q$ $\hat{\beta}$ $y \sim X \hat{\beta}$ $\hat{\beta}$

O modelo está correto, ou seja , para desconhecido ; $X = T P' + E,y = T q' + f$ $T, P, q$
O número de fatores latentes, , é conhecido e usado no algoritmo PLS; $k$
Os termos de erro reais são normais zero-mean normal com variações conhecidas;

Essa pergunta é um pouco sub-definida, porque existem dezenas de variantes do algoritmo 'the' PLS, mas eu aceitaria resultados para qualquer uma delas. Eu também aceitaria orientações sobre como estimar a distribuição de através, por exemplo, de um bootstrap, mas talvez essa seja uma pergunta separada. $\hat{\beta}$

— shabbychef
fonte

9

Você conhece este artigo: Regressão PLS: uma ferramenta básica da quimiometria ? A derivação de SE e CI para os parâmetros PLS é descrita em §3.11.

Geralmente, confio no Bootstrap para calcular ICs, como sugerido em Abdi, H. Regressão e projeção de mínimos quadrados parciais na regressão de estrutura latente (Regressão PLS) . Lembro-me de que existem soluções teóricas discutidas em Tenenhaus M. (1998) A réplica PLS: Théorie et pratique (Technip), mas não posso verificar por enquanto, pois não tenho o livro. Por enquanto, existem alguns pacotes R úteis, como o plsRglm .

PS : Acabei de descobrir o artigo de Nicole Krämer , em referência ao pacote plsdof R.

— chl
fonte

2

Eu descobri um trabalho de Reiss, et. al. , Cálculo parcial do intervalo de confiança dos mínimos quadrados para previsão industrial de qualidade de final de lote , na qual aparece a citação:

A previsão do PLS deve ser acompanhada de um intervalo de confiança online para indicar a precisão da previsão. A formulação do intervalo de confiança para a previsão do PLS é uma área de estudo que não concluiu um “padrão ouro”.

Este artigo contém uma referência ao 'excelente levantamento desse trabalho', erro padrão de previsão para PLS de várias vias , por Faber e Bro, e um artigo por Faber e Kowalski, Propagação de erros de medição para a validação de previsões obtidas por regressão de componentes principais e mínimos quadrados parciais . Resumirei esses resultados assim que estiverem disponíveis ...

— shabbychef
fonte

(+1) É bom saber, obrigado. Deveria olhar novamente no trabalho de Michel Tenenhaus - avisarei se achar interessante.

— chl