Meu aviso : sei que essa pergunta ficou inativa por algum tempo, mas parece ser importante e que você pretendia obter várias respostas. Sou psicólogo social e, pelo que parece, provavelmente é um pouco mais confortável com esses projetos do que Henrik (embora suas preocupações com interpretações causais sejam totalmente legítimas).
Em que condições o SEM é uma técnica apropriada de análise de dados?
Para mim, essa pergunta realmente chega a duas sub-perguntas distintas:
- Por que usar o SEM em primeiro lugar?
- Se um pesquisador decidiu usar o SEM, quais são os requisitos relacionados a dados para o uso do SEM?
Por que usar o SEM em primeiro lugar?
O SEM é uma abordagem mais sutil e complicada - e, portanto, menos acessível - para a análise de dados do que outras abordagens de modelagem linear geral mais típicas (por exemplo, ANOVAs, correlações, regressão e suas extensões, etc.). Tudo o que você pode pensar em fazer com essas abordagens, você pode fazer com o SEM.
Como tal, acho que os usuários em potencial devem primeiro avaliar fortemente por que são obrigados a usar o SEM em primeiro lugar. Certamente, o SEM oferece alguns benefícios poderosos para seus usuários, mas revi artigos em que nenhum desses benefícios é utilizado, e o produto final é uma seção de análise de dados em um artigo que é desnecessariamente mais difícil para os leitores comuns entenderem. . Simplesmente não vale a pena - para o pesquisador ou o leitor - se os benefícios do SEM versus outras abordagens de análise de dados não estão sendo colhidos.
Então, quais são os principais benefícios de uma abordagem SEM? Os grandes, na minha opinião são:
(1) Modelando variáveis latentes : o SEM permite que os usuários examinem relações estruturais (variações, covariâncias / correlações, regressões, diferenças de médias de grupos) entre variáveis latentes não observadas, que são essencialmente a covariância compartilhada entre um grupo de variáveis (por exemplo, itens de uma ansiedade medir seus alunos podem usar).
O grande ponto de venda para analisar variáveis latentes (por exemplo, ansiedade latente) versus uma pontuação observada do construto (por exemplo, uma média dos itens de ansiedade) é que as variáveis latentes estão livres de erros - as variáveis latentes são formadas por covariância compartilhada, e o erro é teoricamente covário com nada. Isso se traduz em maior poder estatístico, pois os usuários não precisam mais se preocupar com a falta de confiabilidade da medição, atenuando os efeitos que estão tentando modelar.
Outro motivo, mais discreto, para considerar o uso de SEM é, em alguns casos, uma maneira mais válida de testar nossas teorias sobre construções. Se seus alunos, por exemplo, usassem três medidas diferentes de ansiedade, não seria melhor entender as causas / consequências daquilo que essas três medidas têm em comum - presumivelmente ansiedade - em uma estrutura SEM, em vez de privilegiar qualquer uma medida específica como a medida da ansiedade?
(2) Modelando múltiplas variáveis dependentes: Mesmo que alguém não use o SEM para modelar variáveis latentes, ainda pode ser bastante útil como uma estrutura para analisar simultaneamente várias variáveis de resultado em um modelo. Por exemplo, talvez seus alunos estejam interessados em explorar como os mesmos preditores estão associados a vários resultados clinicamente relevantes (por exemplo, ansiedade, depressão, solidão, auto-estima etc.). Por que executar quatro modelos separados (aumentando a taxa de erro do Tipo I), quando você pode executar apenas um modelo para todos os quatro resultados nos quais está interessado? Esse também é um motivo para usar o SEM ao lidar com certos tipos de dados dependentes, em que vários respondentes dependentes podem gerar respostas preditivas e de resultados (por exemplo, dados diádicos; ver Kenny, Kashy e Cook, 2006,
(3) Modelar premissas, em vez de fazê-las : com muitas outras abordagens para análise de dados (por exemplo, ANOVA, correlação, regressão), fazemos uma tonelada de premissas sobre as propriedades dos dados com os quais estamos lidando - como a homogeneidade de variação / homocedasticidade. O SEM (geralmente combinado com uma abordagem de variável latente) permite que os usuários modelem os parâmetros de variação simultaneamente, ao lado de meios e / ou correlações / caminhos regressivos. Isso significa que os usuários podem começar a teorizar e testar hipóteses sobre variabilidade, além de diferenças / covariabilidade médias, em vez de apenas tratar a variabilidade como uma reflexão tardia relacionada à suposição.
Outra suposição testável, ao comparar os níveis médios de grupo em alguma variável, é se essa variável realmente significa a mesma coisa para cada grupo - referida como invariância de medição na literatura SEM (ver Vandenberg & Lance, 2000, para uma revisão desse processo). ) Nesse caso, as comparações nos níveis médios dessa variável são válidas, mas se os grupos têm uma compreensão significativamente diferente do que é algo, a comparação dos níveis médios entre os grupos é questionável. Fazemos essa suposição em particular implicitamente o tempo todo em pesquisas usando comparações de grupo.
E existe a suposição de que, quando você calcula a média ou soma as pontuações dos itens (por exemplo, em uma medida de ansiedade) para criar um índice agregado, cada item é uma medida igualmente boa da construção subjacente (porque cada item é ponderado igualmente no média / soma). O SEM elimina essa suposição quando variáveis latentes são usadas, estimando diferentes valores de carregamento de fatores (a associação entre o item e a variável latente) para cada item.
Por fim, outras suposições sobre os dados (por exemplo, normalidade), embora ainda sejam importantes para o MEV, podem ser gerenciadas (por exemplo, através do uso de estimadores "robustos", ver Finney & DiStefano, 2008) quando os dados falham em atender certos critérios (baixos níveis de assimetria e curtose).
(4) Especificando restrições de modelo: O último grande motivo, na minha opinião, para considerar o uso do SEM, é porque torna muito fácil testar hipóteses particulares que você pode ter sobre seu modelo de dados, forçando ("restringindo" em termos de SEM)) certos caminhos em seu modelo para assumir valores específicos e examinar como isso afeta o ajuste do seu modelo aos seus dados. Alguns exemplos incluem: (A) restringir um caminho de regressão a zero, para testar se é necessário no modelo; (B) contendo múltiplas vias de regressão iguais em magnitude (por exemplo, a força associativa de algum preditor é aproximadamente igual para ansiedade e depressão?); (C) restringir os parâmetros de medição necessários para avaliar a invariância da medida (descrita acima); (D) restringir uma via de regressão com força igual entre dois grupos diferentes,
Quais são os requisitos relacionados a dados para o SEM?
Os requisitos relacionados a dados para SEM são bastante modestos; você precisa de um tamanho de amostra adequado e para que seus dados atendam às premissas do estimador de modelo que você selecionou (a probabilidade máxima de probabilidade é típica).
É difícil dar uma recomendação única para o tamanho da amostra. Com base em algumas simulações diretas, Little (2013) sugere que, para modelos muito simples, 100-150 observações podem ser suficientes, mas as necessidades de tamanho da amostra aumentarão à medida que os modelos se tornarem mais complexos e / ou como a confiabilidade / validade das variáveis usadas em o modelo diminui. Se a complexidade do modelo é uma preocupação, você pode considerar o parcelamento dos indicadores de suas variáveis latentes, mas nem todos estão de acordo com essa abordagem (Little, Cunningham, Shahar e Widaman, 2002). Mas, de um modo geral, sendo tudo igual, amostras maiores (eu me esforço para 200 mínimos em minha própria pesquisa) são melhores.
Quanto ao atendimento das premissas de um estimador selecionado, geralmente isso é muito fácil de avaliar (por exemplo, observe os valores de assimetria e curtose para obter um estimador de máxima verossimilhança). E mesmo que os dados se afastem das propriedades assumidas, uma pesquisa pode considerar o uso de um estimador "robusto" (Finney & DiStefano, 2008), ou um estimador que assume um tipo diferente de dados (por exemplo, um estimador categórico, como o menos diagonalmente ponderado). quadrados).
Alternativas ao SEM para análise de dados?
Se um pesquisador não quiser tirar proveito dos benefícios proporcionados por uma abordagem SEM destacada acima, eu recomendaria a versão mais direta e acessível dessa análise específica (por exemplo, testes, ANOVAs, análise de correlação, modelos de regressão [incluindo modelos de mediação, moderação e processos condicionais]). Os leitores estão mais familiarizados com eles e, portanto, os entenderão com mais facilidade. Não vale a pena confundir os leitores com as minúcias do SEM, se você estiver essencialmente usando o SEM para o mesmo efeito que uma abordagem analítica mais simples.
Conselhos aos pesquisadores que consideram o uso do SEM?
Para aqueles novatos no SEM:
- Obtenha um texto SEM básico abrangente e escrito de forma acessível. Gosto de Beaujean (2014), Brown (2015; a edição anterior também é sólida) e Little (2013; boa introdução geral, embora mais tarde se concentre especificamente em modelos longitudinais).
- Aprenda a usar o
lavaan
pacote para R
(Rosseel, 2012). Sua sintaxe é tão fácil quanto a sintaxe SEM, sua funcionalidade é ampla o suficiente para as necessidades de SEM de muitas pessoas (definitivamente para iniciantes) e é gratuita. O livro Beaujean oferece uma ótima introdução simultânea ao SEM e ao lavaan
pacote.
- Consulte / use CrossValidated e StacksOverflow regularmente. Coisas inesperadas podem acontecer ao ajustar modelos SEM, e é provável que muitas das coisas estranhas que você possa experimentar já tenham sido descritas e tenham problemas no Stacks.
- Como Herik aponta, observe que, apenas porque você está especificando um modelo que implica associações causais, isso não significa que o SEM ajuda a estabelecer a causalidade em um estudo transversal / não experimental. Além disso, vale totalmente a pena considerar o uso do SEM para analisar dados de desenhos longitudinais e / ou experimentais.
E para aqueles que estão começando a realmente usar o SEM:
- Em algum momento, você será tentado a especificar resíduos correlacionados, a qualquer custo, em um esforço para melhorar o ajuste do seu modelo. Não. Pelo menos não sem uma boa razão a priori . Na maioria das vezes, uma amostra maior ou um modelo mais simples é a cura.
- Evite o uso do método de identificação de variáveis marcadoras para variáveis latentes (ou seja, fixando o primeiro fator de carregamento como 1). Ele privilegia esse indicador como o indicador "padrão-ouro" da sua variável latente, quando na maioria dos casos, não há razão para supor que esse seja o caso. Esteja ciente de que esta é a configuração de identificação padrão na maioria dos programas.
Referências
Beaujean, AA (2014). Modelagem de variáveis latentes usando R: um guia passo a passo . Nova York, NY: Routledge.
Brown, TA (2015). Análise fatorial confirmatória para pesquisadores aplicados (2ª edição). Nova York, NY: Guilford Press.
Finney, SJ e DiStefano, C. (2008). Dados não normais e categóricos na modelagem de equações estruturais. Em GR Hancock e RD Mueller (Eds.), Modelagem de equações estruturais: Um segundo curso (pp. 269-314). Publicação na Era da Informação.
Kenny, DA, Kashy, DA e Cook, WL (2006). Análise de dados diádicos . Nova York, NY: Guilford Press.
Little, TD (2013). Modelagem de equações estruturais longitudinais . Nova York, NY: Guilford Press.
Little, TD, Cunningham, WA, Shahar, G. e Widaman, KF (2002). Para parcelar ou não parcelar: Explorando a questão, ponderando os méritos. Modelagem de Equações Estruturais , 9 , 151-173.
Rosseel, Y. (2012). lavaan: Um pacote R para modelagem de equações estruturais. Journal of Statistical Software , 48 (2), 1-36.
Vandenberg, RJ, & Lance, CE (2000). Uma revisão e síntese da literatura de invariância de medição: sugestões, práticas e recomendações para pesquisadores organizacionais. Métodos de Pesquisa Organizacional , 3 , 4-70.