Na regressão de mínimos quadrados parciais (PLSR) ou modelagem de equações estruturais de mínimos quadrados parciais (PLS-SEM), a que se refere o termo "parcial"?
Na regressão de mínimos quadrados parciais (PLSR) ou modelagem de equações estruturais de mínimos quadrados parciais (PLS-SEM), a que se refere o termo "parcial"?
Respostas:
Gostaria de responder a essa pergunta, amplamente baseada na perspectiva histórica , que é bastante interessante. Herman Wold, que inventou a abordagem de mínimos quadrados parciais (PLS) , não começou a usar o termo PLS (ou mesmo mencionar o termo parcial ) imediatamente. Durante o período inicial (1966-1969), ele se referiu a essa abordagem como NILES - abreviação do termo e título de seu trabalho inicial sobre esse tópico Estimação não linear por procedimentos de mínimos quadrados iterativos , publicado em 1966.
Como podemos ver, os procedimentos que mais tarde serão chamados parciais foram referidos como iterativos , com foco na natureza iterativa do procedimento de estimativa de pesos e variáveis latentes (LVs). O termo "mínimos quadrados" vem do uso da regressão de mínimos quadrados ordinários (OLS) para estimar outros parâmetros desconhecidos de um modelo (Wold, 1980). Parece que o termo "parcial" tem suas raízes nos procedimentos NILES, que implementaram "a idéia de dividir os parâmetros de um modelo em subconjuntos para que possam ser estimados em partes" (Sanchez, 2013, p. 216; grifo meu) .
O primeiro uso do termo PLS ocorreu nos procedimentos de estimativa de mínimos quadrados parciais iterativos não lineares (NIPALS) , cuja publicação marca o próximo período da história do PLS - o período de modelagem do NIPALS . As décadas de 1970 e 1980 se tornam o período de modelagem suave , quando, influenciado pela abordagem LISREL de Karl Joreskog para SEM, a Wold transforma a abordagem NIPALS em modelagem suave, que essencialmente formou o núcleo da abordagem moderna de PLS (o termo PLS se torna popular no final da década de 1970 ) Nos anos 90, o próximo período na história do PLS, que Sanchez (2013) chama de período de "gap", é marcado em grande parte pela diminuição de seu uso. Felizmente, a partir dos anos 2000 ( período de consolidação), O PLS desfrutou de seu retorno como uma abordagem muito popular à análise SEM, especialmente nas ciências sociais.
UPDATE (em resposta ao comentário da ameba):
ATUALIZAÇÃO 2 (esclarecimentos adicionais):
Em resposta a preocupações, expressas na resposta da ameba, gostaria de esclarecer algumas coisas. Parece-me que precisamos distinguir o uso da palavra "parcial" entre NIPALS e PLS. Isso cria duas perguntas separadas sobre 1) o significado de "parcial" no NIPALS e 2) o significado de "parcial" no PLS (essa é a pergunta original de Phil2014). Embora não tenha certeza sobre o primeiro, posso oferecer mais esclarecimentos sobre o último.
Segundo Wold, Sjöström e Eriksson (2001),
O "parcial" no PLS indica que esta é uma regressão parcial, uma vez que ...
Em outras palavras, "parcial" decorre do fato de que a decomposição de dados pelo algoritmo NIPALS para PLS pode não incluir todos os componentes , portanto, "parcial". Suspeito que o mesmo motivo se aplique ao NIPALS em geral, se for possível usar o algoritmo em dados "parciais". Isso explicaria "P" em NIPALS.
Em termos de uso da palavra "não linear" na definição do NIPALS (não confunda com PLS não linear , que representa uma variante não linear da abordagem PLS!), Acho que ela não se refere ao algoritmo em si , mas a modelos não lineares , que podem ser analisados, usando NIPALS baseados em regressão linear.
ATUALIZAÇÃO 3 (explicação de Herman Wold):
Embora o artigo de Herman Wold em 1969 pareça ser o primeiro artigo sobre o NIPALS, consegui encontrar outro artigo mais antigo sobre esse assunto. Este é um artigo de Wold (1974), onde o "pai" da PLS apresenta sua justificativa para usar a palavra "parcial" na definição da NIPALS (p. 71):
3.1.4 Estimativa de NIPALS: OLS iterativo. Se uma ou mais variáveis do modelo são latentes, as relações do preditor envolvem não apenas parâmetros desconhecidos, mas também variáveis desconhecidas, com o resultado de que o problema de estimativa se torna não linear. Conforme indicado em 3.1 (iii), o NIPALS resolve esse problema por um procedimento iterativo, digamos, com as etapas s = 1, 2, ... Cada etapa s envolve um número finito de regressões OLS, uma para cada relação preditora do modelo. Cada regressão fornece estimativas de proxy para um subconjunto de parâmetros desconhecidos e variáveis latentes (daí o nome de mínimos quadrados parciais ) e essas estimativas de proxy são usadas na próxima etapa do procedimento para calcular novas estimativas de proxy.
Referências
Rosipal, R. (2011). Mínimos quadrados parciais não lineares: uma visão geral. Em Lodhi H. e Yamanishi Y. (Eds.), Chemoinformatics e Advanced Machine Learning Perspectives: Métodos Computacionais Complexos e Técnicas Colaborativas , pp. 169-189. ACCM, IGI Global. Disponível em http://aiolos.um.savba.sk/~roman/Papers/npls_book11.pdf
Sanchez, G. (2013). Modelagem de caminho PLS com R. Berkeley, CA: Trowchez Editions. Disponível em http://gastonsanchez.com/PLS_Path_Modeling_with_R.pdf
Wold, H. (1974). Fluxos causais com variáveis latentes: Separações dos caminhos à luz da modelagem NIPALS. European Economic Review, 5 , 67-86. Publicação da Holanda do Norte.
Wold, H. (1980). Construção e avaliação de modelos quando o conhecimento teórico é escasso: Teoria e aplicações de mínimos quadrados parciais. Em J. Kmenta e JB Ramsey (Eds.), Avaliação de modelos econométricos , pp. 47-74. Nova York: Academic Press. Recuperado em http://www.nber.org/chapters/c11693
Wold, S., Sjöström, M., & Eriksson, L. (2001). Regressão PLS: uma ferramenta básica da quimiometria. Chemometrics and Intelligent Laboratory Systems, 58 , 109-130. doi: 10.1016 / S0169-7439 (01) 00155-1 Recuperado em http://www.libpls.net/publication/PLS_basic_2001.pdf
Entretanto, historicamente, como @Aleksandr explica muito bem (+1), o PLS foi introduzido por Wold, que usou seu algoritmo NIPALS para implementá-lo; NIPALS significa "mínimos quadrados parciais iterados não lineares", portanto, obviamente, o P no PLS acabou de chegar do NIPALS.
(Por que ele chamou de "não linear", eu ainda não entendo.)
Esse termo é notavelmente enganador, porque, se for "parcial", todo algoritmo de maximização de expectativa também é "parcial" (na verdade, o NIPALS pode ser visto como uma forma primitiva de EM, ver Roweis 1998 ). Acho que o PLS é um bom candidato para o concurso O mais enganador no aprendizado de máquina. Infelizmente, é improvável que mude, apesar dos esforços de Wold Jr. (veja o comentário de @ Momo acima).