Como reduzir o número de itens usando análise fatorial, consistência interna e teoria da resposta ao item em conjunto?

Estou desenvolvendo empiricamente um questionário e usarei números arbitrários neste exemplo para ilustrar. Para contextualizar, estou desenvolvendo um questionário psicológico destinado a avaliar padrões de pensamento comumente identificados em indivíduos com transtornos de ansiedade. Um item pode se parecer com " Preciso verificar o forno repetidamente, porque não tenho certeza se está desligado ".

Tenho 20 perguntas (Likert de 5 pontos) que podem ser compostas por um ou dois fatores (observe que, na realidade, tenho mais de 200 perguntas, compostas por 10 escalas, e cada escala pode ser composta por dois fatores). Estou disposto a apagar cerca de metade dos itens, deixando 10 perguntas sobre um dos dois fatores.

Estou familiarizado com a análise fatorial exploratória (AFE), consistência interna (alfa de Cronbach) e curvas de característica de item na teoria de resposta ao item (TRI). Eu posso ver como eu usaria qualquer um desses métodos para determinar quais itens são os "piores" em uma única escala. Compreendo que cada método também responda a perguntas diferentes, embora possam levar a resultados semelhantes e não tenho certeza de qual "pergunta" é mais importante.

Antes de começarmos, vamos ter certeza de que sei o que estou fazendo com cada um desses métodos individualmente.

Usando o EFA, eu identificaria o número de fatores e removeria os itens que carregam menos (digamos <0,30) em seus respectivos fatores ou que carregam substancialmente vários fatores.
Usando consistência interna, eu removia itens com o pior "alfa se o item for excluído". Eu poderia fazê-lo assumindo um fator na minha escala ou depois de um EFA inicial para identificar o número de fatores e, posteriormente, executar meu alfa para cada fator.
Usando o IRT, eu removia itens que não avaliam o fator de interesse nas opções de resposta (5 Likert). Eu estaria olhando as curvas características dos itens. Basicamente, eu estaria procurando uma linha em um ângulo de 45 graus, indo da opção 1 na escala Likert até 5 ao longo da pontuação latente. Eu poderia fazê-lo assumindo um fator ou depois de um
EFA inicial para identificar o número de fatores e, posteriormente, executar as curvas para cada fator.

Não tenho certeza de qual desses métodos usar para identificar melhor quais itens são os "piores". Eu uso o pior em um sentido amplo, de modo que o item seja prejudicial à medida, seja em termos de confiabilidade ou validade, os quais são igualmente importantes para mim. Presumivelmente, posso usá-los em conjunto, mas não sei ao certo como.

Se eu fosse em frente com o que sei agora e desse o meu melhor, faria o seguinte:

Faça um EFA para identificar o número de fatores. Exclua também itens com cargas ruins em seus respectivos fatores, pois não quero itens com carga ruim, independentemente de como seriam em outras análises.
Faça o IRT e remova também os itens defeituosos julgados por essa análise, se houver algum do EFA.
Simplesmente relate o Alpha de Cronbach e não use essa métrica como um meio de excluir itens.

Qualquer orientação geral seria muito apreciada!

Aqui também está uma lista de perguntas específicas que você talvez possa responder:

Qual é a diferença prática entre remover itens com base em cargas fatoriais e remover itens com base no alfa de Chronbach (assumindo que você use o mesmo layout de fator para as duas análises)?
O que devo fazer primeiro? Supondo que eu pratico EFA e TRI com um fator e ambos identifiquem itens diferentes que devem ser removidos, que análise deve ter prioridade?

Não estou decidido a fazer todas essas análises, apesar de relatar o alfa de Chronbach independentemente. Eu sinto que fazer apenas IRT deixaria algo faltando, e da mesma forma apenas para EFA.

— Behacad
fonte

Se você optar por obter validade de construção via FA, é claro que você deve começar com FA (após selecionar itens com "ruim", por exemplo, distribuições muito distorcidas). Seu envolvimento com a FA será complexo e iterativo. Depois de jogar fora a maioria dos itens "fracos", execute novamente FA, verifique índice KMO, grau de restauração de correlações, fator interpretability, seleção se mais itens para excluir, em seguida, execute novamente novamente

— ttnphns

Usar a teoria clássica de teste em combinação com a teoria de resposta ao item é uma boa leitura.

— chl

Você remover os itens com o maior "alpha se o item removido" não menor ...

É estranho! Quanto a essa pergunta básica, não temos uma resposta reconhecida em três anos.

— Whitegirl

Respostas:

Não tenho citações, mas aqui está o que eu sugiro:

Zeroth: se possível, divida os dados em um conjunto de treinamento e teste.

Primeiro faça EFA. Veja várias soluções para ver quais fazem sentido, com base no seu conhecimento das perguntas. Você precisaria fazer isso antes do alfa de Cronbach ou não saberá quais itens entram em qual fator. (Executar alfa em TODOS os itens provavelmente não é uma boa ideia).

Em seguida, execute alfa e exclua itens que têm correlações muito mais pobres que os outros em cada fator. Eu não definiria um corte arbitrário, procuraria por aqueles que eram muito inferiores aos outros. Veja se a exclusão deles faz sentido.

Por fim, escolha itens com uma variedade de níveis de "dificuldade" no IRT.

Então, se possível, refaça isso no conjunto de testes, mas sem fazer nenhuma exploração. Ou seja, veja como o resultado encontrado no conjunto de treinamento funciona no conjunto de teste.

— Peter Flom - Restabelece Monica
fonte

Obrigado pela resposta. Essa é a direção que eu estava pensando, embora não tenha certeza se terei os casos para dividir os dados. Além disso, como os itens estão na escala Likert de 5 pontos, espero que a maioria deles, ou pelo menos os "bons", apresentem dificuldades semelhantes.

— 21412 Behacad

Certamente, você conhece boas referências :-) Eu o provocaria nos seguintes pontos (porque esse tópico provavelmente servirá como referência para futuras perguntas). (a) Geralmente, a exclusão do item com base no alfa de Cronbach é feita sem considerar um esquema de validação cruzada. Obviamente, é uma abordagem tendenciosa, pois os mesmos indivíduos são usados para estimar as duas medidas. (b) Outra alternativa é basear a correlação item / escala considerando a pontuação em repouso (ou seja, a soma da soma sem incluir o item em consideração): você acha que isso importa nesse caso? (...)

— chl

(...) (c) Finalmente, os modelos de TRI são freqüentemente usados para descartar itens (no espírito da purificação de escala ) com base nas estatísticas de ajuste de itens e similares. Qual a sua opinião sobre essa abordagem?

— chl

Para sua informação, provavelmente posso encontrar referências para cada um desses métodos individualmente, mas agradeceria quaisquer possíveis referências ao uso de qualquer um desses métodos em conjunto. Qualquer referência seria ótima, realmente! Você conhece (e provavelmente são!)

— Revisores

@chl Eu poderia desenterrar referências, mas não as conheço de cabeça. Em a) eb), provavelmente importa mais do que a maioria das pessoas pensa; alguém deve fazer uma simulação. c) Já faz um tempo desde que fiz material de TRI (minha graduação é em psicometria, mas isso foi há muito tempo).

— Peter Flom - Restabelece Monica

Na verdade, todos os três critérios sugeridos poderiam ser realizados na TRI, mais especificamente na multidimensional. Se o tamanho da amostra for razoavelmente grande, provavelmente seria uma maneira consistente de fazer isso para cada subescala. Dessa forma, você pode obter os benefícios do IRT para modelar itens de forma independente (usando modelos nominais para alguns itens, crédito parcial generalizado ou classificado para outros, ou, se possível, configurar escalas de classificação para ajudar a interpretar itens politômicos de uma maneira mais parcimoniosa).

$\theta$

Você pode tentar remover itens que não estão em conformidade com os requisitos unidimensionais da maioria dos softwares de TRI, mas eu não recomendaria isso necessariamente se isso afeta a representação teórica das construções em questão. Em aplicações empíricas, geralmente é melhor tentar adaptar nossos modelos à nossa teoria, e não o contrário. Além disso, é nesse ponto que os modelos bifator / duas camadas tendem a ser apropriados, pois você deseja incluir todos os itens possíveis enquanto considera a multidimensionalidade de uma maneira sistemática e teoricamente desejável.

— filósofos
fonte

Obrigado! Como você mede a confiabilidade empírica na TRI? É o mesmo que informação?

— Behacad 7/09/13

\hat{θ}

$\hat{\theta}$

r_{x x} = T / (T + E)

$r_{xx} = T / (T + E)$

θ

$\theta$ mirtfscores()sirtTAM

@ philchalmers, pls dar uma olhada pergunta se você pode responder.

— Whitegirl