Diferença entre regressão PLS e modelagem de caminho PLS. Críticas ao PLS

Esta pergunta foi feita aqui, mas ninguém deu uma boa resposta. Então eu acho que é uma boa idéia trazê-lo novamente e também gostaria de adicionar mais alguns comentários / perguntas.

A primeira pergunta é qual é a diferença entre "modelagem de caminho PLS" e "regressão PLS"? Para torná-lo mais geral, o que são modelagem de equações estruturais (SEM), modelagem de caminhos e regressão? Para meu entendimento, a regressão se concentra mais na previsão, enquanto o foco no SEM está na relação entre resposta e preditores, e a modelagem de caminhos é um caso especial de SEM?
Minha segunda pergunta é quão confiável é o PLS? Recentemente, foi objeto de muitas críticas, como destacado em Rönkkö et al. 2016 e Rönkkö et al. 2015 que leva à rejeição de papéis com base no PLS em revistas de grande nível, como Journal of Operations Management ( aqui é a nota do editor da revista):

Estamos rejeitando praticamente todos os manuscritos baseados em PLS, porque concluímos que o PLS foi, sem exceção, a abordagem de modelagem incorreta nos tipos de modelos que os pesquisadores de OM usam .

Devo observar que meu campo é espectroscopia, nem administração / psicologia nem estatística. Nos artigos acima, os autores estão falando mais sobre o PLS como método SEM, mas para mim, suas críticas também se aplicam à regressão do PLS.

sem partial-least-squares path-model

— Ress
fonte

Seus links estão todos por trás de paywalls.

— Jeremy Miles

você está absolutamente certo! desculpe, tenho os PDFs, mas não tenho certeza se posso carregar ou compartilhar. A ciência deve ser :) livre

— Ress

A regressão PLS é explicada e discutida com bastante detalhe em stats.stackexchange.com/questions/179733 . Infelizmente, não sei quase nada sobre "modelagem de caminhos".

— Ameba

Eu acho que "modelagem caminho" é apenas outro nome para SEM

— rep_ho

No artigo de 2016: "A maioria dos textos introdutórios sobre PLS encobre os objetivos dos pesos, argumentando que PLS é SEM e, portanto, deve fornecer uma vantagem sobre a regressão com compósitos (por exemplo, Gefen et al., 2011); no entanto, tais trabalhos muitas vezes não apontam explicitamente que o próprio PLS também é simplesmente regressão com compósitos ". é enganoso. O principal argumento do argumento é que os autores afirmam que o MEE deve ser um construto teórico puro e que desprezam as equações estruturais derivadas empiricamente. Mas o PLS derivou equações 'estruturadas' por covariância.

— precisa saber é o seguinte

A primeira pergunta é qual é a diferença entre "modelagem de caminho PLS" e "regressão PLS"?

Nenhum, eles são sinônimos.

Para torná-lo mais geral, o que são modelagem de equações estruturais (SEM), modelagem de caminhos e regressão? Para meu entendimento, a regressão se concentra mais na previsão, enquanto o foco no SEM está na relação entre resposta e preditores e a modelagem de caminhos é um caso especial de SEM?

SEM é uma forma de regressão. Regressão é qualquer método que correlaciona variáveis independentes e dependentes e inclui métodos que usam várias variáveis tratadas como entidades separadas. O SEM usa especificamente relações matemáticas entre as variáveis para restringir o modelo final; no caso do PLS, essa é a covariância. Meu entendimento é que a modelagem de caminho é um termo específico do domínio (não meu, eu sou um espectroscopista como você).

Minha segunda pergunta é quão confiável é o PLS? Recentemente, foi objeto de muitas críticas, como destacado em Rönkkö et al. 2016 e Rönkkö et al. 2015

Uma excelente refutação é encontrada em Henseler et al. 2013 Crenças comuns e realidade sobre PLS . Uma das principais preocupações de Rönkkö et al. é que o PLS não teve um ótimo desempenho em algumas situações que assumem um fator latente comum. De fato, o PLS foi projetado para lidar com vários fatores latentes, uma situação muito mais comum no mundo real.

Quão confiável? Para espectroscopia, é uma excelente ferramenta, mas tem suas limitações. Ele corre o risco de se ajustar demais, pois pode criar modelos complexos que capturam contribuições de vários fatores subjacentes. Por esse motivo, ele precisa ser usado com cuidado e a validação externa apropriada é essencial, mas essas advertências se aplicam a todas as ferramentas de construção de modelos. Trabalho principalmente em conjuntos de dados do mundo real há 2 décadas e não encontrei nenhum conjunto de dados experimental que tivesse apenas um fator comum subjacente à variável dependente (nem com base em dados nem na teoria científica).

— ReneBt
fonte

+1, embora eu gostaria que esta resposta tivesse mais detalhes sobre Ronkko et al. vs Henseler et al. desacordo. Não sou um espectroscopista, mas tenho um entendimento relativamente bom do PLS como um método de regularização para regressão linear (é assim que é apresentado em The Elements of Statistical Learning por Hastie et al.). Eu acho que é chamado PLS1 em quimiometria. Aqui "desempenho" se refere ao erro de reconstrução, pode-se usar a validação cruzada para escolher a força da regularização, etc. Essa é uma configuração muito familiar para quem encontrou regressão de crista ou PCR ou algo assim.

— Ameba

[cont.] Também conheço o PLS2 com várias variáveis dependentes, mas não sei com que frequência isso é usado. Ao mesmo tempo, tentando entender o que Ronkko et al. quer dizer, parece que o foco de "SEM" está exclusivamente em relacionar múltiplos X a múltiplos Y (é PLS2 então?) e talvez mais em interpretar a relação entre X e Y em vez de prever Y como tal. Não tenho certeza do que eles querem dizer com "desempenho" e não tenho idéia do que eles preferem usar em vez do PLS quando criticam o PLS.

— Ameba

Obrigado tanto ReneBT e ameba. Eu postei essa pergunta no Reddit aqui e alguém (soumya_ray) respondeu que a regressão e o SEM são fundamentalmente diferentes. Ela não explicou as diferenças técnicas. Aliás, a resposta dela é contra o que você disse (sua resposta faz sentido para mim).

— Ress

Btw, eu faço seleção de banda usando PLS. Confirmo sua opinião sobre o desempenho do PLS, embora possa resultar em boas previsões (tanto no teste quanto na calibração), mas o modelo pode estar fundamentalmente errado ou pelo menos muito difícil de interpretar, pois seleciona os preditores como variáveis importantes que não têm nada a ver com o resposta variável.

— Ress

Um comentário adicional sobre as principais questões levantadas pelos autores é "O algoritmo PLS produz pesos que aumentam a correlação entre os compósitos adjacentes em comparação com os compósitos com ponderação de unidade usados como ponto de partida, usando qualquer correlação nos dados, mas isso faz não garante a realização de qualquer ótimo global ". É uma preocupação válida, em poucas palavras, o que isso significa é que o modelo se aplicará apenas a populações com a mesma estrutura de covariância subjacente, isso não invalida o PLS, mas significa que é preciso criar e usar um modelo com cuidado.

— precisa saber é o seguinte