Complicações de ter uma amostra muito pequena em um modelo de equações estruturais


13

Estou executando um modelo de equação estrutural (SEM) em Amos 18. Eu estava procurando por 100 participantes para o meu experimento (usado livremente), que foi considerado provavelmente não suficiente para realizar um SEM bem-sucedido. Foi-me dito repetidamente que SEM (junto com EFA, CFA) é um procedimento estatístico de "grande amostra". Para encurtar a história, não cheguei a 100 participantes (que surpresa!) E só tenho 42 depois de excluir dois pontos de dados problemáticos. Por interesse, tentei o modelo de qualquer maneira e, para minha surpresa, ele parecia se encaixar muito bem! CFI> .95, RMSEA <.09, SRMR <.08.

O modelo não é simples, na verdade, eu diria que é relativamente complexo. Eu tenho duas variáveis ​​latentes, uma com duas observadas e outra com 5 variáveis ​​observadas. Eu também tenho quatro variáveis ​​observadas adicionais no modelo. Existem inúmeras relações entre as variáveis, indiretas e diretas, com algumas variáveis ​​endógenas a outras quatro, como exemplo.

Eu sou um pouco novo no SEM; no entanto, duas pessoas que eu conheço bastante familiarizadas com o SEM me dizem que, desde que as indicações de ajuste sejam boas, os efeitos serão interpretáveis ​​(desde que sejam significativos) e não haja nada significativamente "errado" com o modelo. Sei que algumas indicações de ajuste são tendenciosas a favor ou contra pequenas amostras em termos de sugestão de bom ajuste, mas as três que mencionei anteriormente parecem boas e acredito que não sejam tendenciosas da mesma forma. Para testar os efeitos indiretos, estou usando o bootstrapping (aproximadamente 2000 amostras), o viés de 90% corrigiu a confiança, monte carlo. Uma observação adicional é que estou executando três SEMs diferentes para três condições diferentes.

Tenho duas perguntas que gostaria que alguns de vocês considerassem e responda se tiver algo com que contribuir:

  1. Existem pontos fracos significativos no meu modelo que não são demonstrados pelos índices de ajuste? A pequena amostra será destacada como uma fraqueza do estudo, mas fico me perguntando se existe algum problema estatístico enorme ao qual estou completamente alheio. Eu pretendo receber outros 10 a 20 participantes no futuro, mas isso ainda me deixará com uma amostra relativamente pequena para essas análises.

  2. Há algum problema com o uso do bootstrap devido à minha pequena amostra ou ao contexto em que estou usando?

Espero que essas perguntas não sejam muito "básicas" para este fórum. Eu li vários capítulos sobre SEM e assuntos relacionados, mas acho que as pessoas estão muito dispersas em termos de opiniões nessa área!

Felicidades


1
@ Behacad - problema bem explicado. Você está estimando muitos parâmetros usando dados muito esparsos. Portanto, a inferência será terrivelmente instável. Mas eu gostaria de dar um passo atrás e perguntar - você está usando esses 42 para inferir relacionamentos entre uma população maior? Em caso afirmativo, o 42 é uma amostra aleatória ou, pelo menos, demonstrativamente representativa?
Rolando2

Obrigado pelo seu comentário rolando2! A amostra inclui 42 estudantes universitários e estou analisando a relação entre vários fatores e ansiedade. Os relacionamentos que pretendo inferir estariam entre a população em geral. Minhas inferências são limitadas porque os participantes são todos estudantes relativamente jovens, mas não estou procurando uma população específica (por exemplo, indivíduos que sofrem de um transtorno de ansiedade). Estou interessado em afirmar amplamente, por exemplo, que X está indiretamente associado a Y em uma amostra não clínica. Isto responde às suas perguntas?
Behacad

1
@Behacad - supondo que você possa defender a seus críticos em potencial a representatividade de sua amostra, diria inequivocamente que tentar estimar o relacionamento entre 12 variáveis ​​está exigindo muito dos seus 42 casos. Veja se você pode simplificar seu modelo para incluir apenas os 3 preditores mais interessantes. Embora eu perceba que é doloroso separar os dados que você pode ter trabalhado duro para coletar!
Rolando2

Obrigado pela resposta. Tenho um "pressentimento" de que estimar relacionamentos entre todas essas variáveis ​​é difícil de fazer com 42 pontos de dados e vejo de onde você é. Dito isto, qual seria uma razão estatística (preferencialmente citada) para esse problema? Como isso é diferente de executar várias regressões / correlações em diferentes variáveis ​​dependentes? O ajuste é bom (e na verdade estou executando três modelos diferentes para diferentes tarefas experimentais) e os resultados são consistentes entre os modelos e alinhados com a teoria. Desculpe se estou saindo na defensiva!
Behacad

(Não defensivo - não se preocupe!) Ter 42 casos o expõe a erros de amostragem, no mínimo, mesmo ao estimar estatísticas univariadas. Agora, no SEM, cada variável é usada muitas vezes, porque você está estimando o relacionamento de A para B enquanto controla para C, D, etc. Portanto, os efeitos do erro de amostragem serão propagados, o que, pelo que entendi, é por isso normalmente se quer amostras grandes. No seu caso, você tem potencialmente mais tipos de erro do que erro de amostragem porque não possui uma amostra aleatória. Portanto, você precisa desenhar um intervalo credível muito grande em torno de qualquer resultado obtido.
Rolando2

Respostas:


4

Um ponto: não existe uma "questão básica", você só sabe o que sabe e não o que não sabe. fazer uma pergunta geralmente é a única maneira de descobrir.

Sempre que você vê pequenas amostras, descobre quem realmente tem "fé" em seus modelos e quem não tem. Digo isso porque em pequenas amostras geralmente é onde os modelos têm maior impacto.

Sendo um modelador afiado (psicótico?), Eu digo: vá em frente! Você parece estar adotando uma abordagem cautelosa e reconheceu um possível viés etc. devido a uma pequena amostra. Uma coisa a ter em mente ao ajustar modelos a dados pequenos é que você tem 12 variáveis. Agora você deve pensar - quão bem um modelo com 12 variáveis ​​pode ser determinado por 42 observações? Se você tivesse 42 variáveis, qualquer modelo poderia se encaixar perfeitamente nessas 42 observações (falando pouco), para que seu caso não esteja muito longe de ser muito flexível. O que acontece quando o seu modelo é muito flexível? Tende a se ajustar ao barulho - isto é, aos relacionamentos que são determinados por outras coisas além daquelas que você supõe.

Você também tem a oportunidade de colocar seu ego onde está o seu modelo, prevendo quais serão as futuras amostras de 10 a 20 do seu modelo. Eu me pergunto como seus críticos reagirão a um modelo "desonesto", que fornece as previsões corretas. Observe que você obteria um "eu te disse" semelhante se o seu modelo não prever bem os dados.

Outra maneira de garantir que seus resultados sejam confiáveis ​​é tentar quebrá-los. Mantendo seus dados originais intactos, crie um novo conjunto de dados e veja o que você deve fazer com esse novo conjunto de dados para fazer com que seus resultados SEM pareçam ridículos. Então olhe o que você tinha que fazer e considere: esse é um cenário razoável? Meus dados "ridículos" se assemelham a uma possibilidade genuína? Se você precisar levar seus dados a um território ridículo para produzir resultados ridículos, ele fornece alguma garantia (heurística, não formal) de que seu método é sólido.


1

O principal problema que vejo com isso é falta de energia. O fator de confirmação e o teste SEM parecem aceitar o valor nulo - você deseja ver um valor-p não significativo - então a falta de energia pode ser um problema. A potência do teste depende do tamanho da amostra (42) e dos graus de liberdade. O AMOS oferece os graus de liberdade. Você não citou, mas não será grande neste caso. Com 12 variáveis, você começa com 66 DFs e subtrai 1 para cada parâmetro estimado. Não sei quantos seriam, mas você diz que possui vários fatores e correlações entre várias construções.

Eu não concordo inteiramente com Rolando2. No SEM, você ganha por ter muitas variáveis, assumindo que elas são indicadores confiáveis ​​das construções subjacentes. Portanto, não reduza o número de variáveis. Pelo mesmo motivo, não concordo inteiramente com @probabilityislogic. No SEM, você não está tentando modelar 12 variáveis ​​com 42 observações. Você está tentando modelar as construções por meio de 12 indicadores, reforçados por 42 repetições. Um modelo de fator muito simples - 1 fator com 12 indicadores - possivelmente poderia ser testado com 42 pessoas.

O RMSEA e outras medidas de qualidade de ajuste tenderão a melhorar à medida que você se aproxima da saturação do modelo, então, novamente, você corre o risco de um resultado enganoso.

Dito isto, vi pequenos conjuntos de dados rejeitarem um modelo de fatores. Provavelmente significa algo que o ajuste parece ser bom.

Nota: Você também pode verificar os resíduos de um modelo SEM. Essas são as diferenças entre a matriz de covariância estimada e a matriz de covariância do modelo. O AMOS os entregará a você, se você solicitar. O exame dos resíduos pode indicar se eles estão distribuídos uniformemente ou se certas covariâncias estão muito mal ajustadas.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.