Tenho 400 respostas a um questionário de 20 itens que pretende medir uma constância atitudinal em estudantes de medicina. O instrumento foi validado nos EUA por um único ano de estudantes de medicina e os dados publicados são muito "limpos" - todos os valores de ritc> 0,3, alfa 0,84, PCA com uma estrutura estável de quatro fatores, etc. Na minha amostra, encontrei 5 de 20 itens com ritc <0,2 e em uma subpopulação cultural (n = 70) esses valores de ritc são zero / negativos. Se eu reter todos os itens, aqueles com ritmo fraco não carregam nenhum fator ou se transformam em um fator de dois itens juntos (fator 4). Sugiro que (e gostaria de investigar) isso se deve a (i) uma pequena subpopulação cultural para a qual a construção pode ser mal capturada, ou (ii) porque tenho respostas dos alunos em todas as etapas de um programa e há um aspecto de desenvolvimento no construto mal capturado pelos itens da escala. Existe um teste estatístico que me permita investigar isso?
Os itens com ritc devem ser excluídos da balança e, em caso afirmativo, faço isso sequencialmente, iniciando com o menor e em que momento devo parar de excluir os itens / perdi algo do questionário? Se eu quiser comparar a estrutura fatorial da escala entre as subpopulações maiores e menores, como tento isso ou a subamostra menor é muito pequena para tirar conclusões? Todas as referências serão muito apreciadas.
Por fim, o objetivo de validar a escala é usá-la para determinar a eficácia de uma intervenção usando um escore pré e pós-intervenção - se um item tem um baixo ritmo, presumo que ele possa impactar a confiabilidade da escala em um ambiente experimental, ou estou incorreto? Existe alguma maneira estatística de determinar a utilidade de uma escala projetada para medir construções que têm um aspecto de desenvolvimento - ou seja, todos os itens funcionam adequadamente quando o aluno desenvolve "mais" do construto atitudinal?