Transformando dados: Todas as variáveis ou apenas as não-normais?

Em Discovering Statistics Using SPSS, de Andy Field, ele afirma que todas as variáveis precisam ser transformadas.

No entanto, na publicação: "Examinando relações espacialmente variáveis entre uso da terra e qualidade da água usando regressão geograficamente ponderada I: desenho e avaliação de modelos", afirmam especificamente que apenas as variáveis não normais foram transformadas.

Essa análise é específica? Por exemplo, em uma comparação de médias, comparar logs com dados brutos obviamente produziria uma diferença significativa, enquanto, ao usar algo como regressão para investigar a relação entre variáveis, isso se torna menos importante.

Editar: Aqui está a página de texto completo na seção "Transformação de dados":

E aqui está o link para o artigo: http://www.sciencedirect.com/science/article/pii/S0048969708009121

normal-distribution data-transformation

— Mim batimentos cardíacos
fonte

Com base na nova imagem que você postou, o autor parece confundir "variável" com "observação". No topo da p. Ele enfatiza, com razão, que quando você transforma uma variável, deve transformar todos os seus valores (observações) da mesma maneira; caso contrário, torna-se impossível comparar qualquer coisa. (Afirmar isso "não mudará os relacionamentos entre variáveis" requer uma interpretação extremamente generosa para estar correta.) A parte inferior da p. 154 é tão claramente errado, sentença por sentença (mesmo nas notas de rodapé), que nem vale a pena enumerar todos os problemas com ela.

— whuber

Respostas:

Você cita vários conselhos, que sem dúvida são úteis, mas é difícil encontrar muito mérito em qualquer um deles.

Em cada caso, confio totalmente no que você cita como resumo. Em defesa dos autores, gostaria de acreditar que eles acrescentam qualificações apropriadas ao material circundante ou a outro material. (Referências bibliográficas completas nos formatos nome (s) usual (s), data, título, (editor, local) ou (título do periódico, volume, páginas) melhorariam a questão.)

Campo

Esse conselho é útil, mas é, na melhor das hipóteses, muito simplificado. O conselho de Field parece ter como objetivo geral; por exemplo, a referência ao teste de Levene implica algum foco temporário na análise de variância.

$(1,0)$

De maneira mais geral, é comum - em muitos campos, a situação usual - que alguns preditores sejam transformados e o restante seja deixado como está.

É verdade que encontrar em um artigo ou dissertação uma mistura de transformações aplicadas de maneira diferente a diferentes preditores (inclusive como um caso especial, transformação de identidade ou deixar como está) costuma ser motivo de preocupação para o leitor. A mistura é um conjunto de escolhas bem pensado ou foi arbitrária e caprichosa?

Além disso, em uma série de estudos, a consistência da abordagem (sempre aplicando logaritmos a uma resposta, ou nunca fazendo isso) ajuda enormemente na comparação de resultados, e diferentes abordagens a tornam mais difícil.

Mas isso não quer dizer que nunca possa haver razões para uma mistura de transformações.

Não vejo que a maior parte da seção que você cita tenha muita influência nos conselhos principais que você destaca em amarelo. Isso por si só é uma questão de preocupação: é um negócio estranho anunciar uma regra absoluta e depois não realmente explicá-la. Por outro lado, a liminar "Lembre-se" sugere que os fundamentos de Field foram fornecidos anteriormente no livro.

Artigo anônimo

O contexto aqui é modelos de regressão. Muitas vezes, falar em OLS enfatiza estranhamente o método de estimativa, e não o modelo, mas podemos entender o que se pretende. GWR I é interpretado como regressão geograficamente ponderada.

O argumento aqui é que você deve transformar preditores não normais e deixar os outros como estão. Novamente, isso levanta uma questão sobre o que você pode e deve fazer com as variáveis indicadoras, que não podem ser normalmente distribuídas (as quais, como acima, podem ser respondidas, apontando que a não normalidade nesse caso não é um problema). Mas a liminar tem o contrário ao sugerir que não é normalidade dos preditores que é o problema. Não tão; não faz parte da modelagem de regressão assumir algo sobre as distribuições marginais dos preditores.

$X\beta$

Há tantos conselhos extraordinariamente bons sobre transformações neste fórum que me concentrei em discutir o que você cita.

PS: Você adiciona uma declaração iniciando "Por exemplo, em uma comparação de médias, comparar logs com dados brutos obviamente produziria uma diferença significativa". Não estou claro o que você tem em mente, mas comparar valores para um grupo com logaritmos de valores para outro grupo seria apenas absurdo. Eu não entendo o resto da sua declaração.

— Nick Cox
fonte

Nick, eu queria expressar meu ponto de vista de forma rápida e concisa, o que sinto que entendi. No mundo do Google, forneci informações suficientes para acessar facilmente os documentos originais, caso sejam necessários. Obrigado por responder, embora de uma maneira geral, você me forneceu exatamente as informações que eu estava procurando: ter que transformar todas as variáveis, como é sugerido por Field, em sua seção de transformação de dados é uma abordagem incorreta à transformação de dados.

— I Heart Beats

+1. Fico maravilhado com a maneira como você conseguiu lidar com o material que é tão errado. Percorrer as páginas aqui e ali no livro do SPSS fornece informações sobre algumas das perguntas realmente confusas que temos neste site: Eu acho que elas devem vir dos leitores desse livro. Está cheio de erros, desinformação e confabulação direta.

— whuber

@I Heart Beats Satisfeito por você ter encontrado a resposta útil, mas meu pedido de referência adequada permanece. Você também pode dizer que referências incompletas são sempre defensáveis porque as pessoas interessadas sempre podem usar o Google. Pelo contrário, boa bolsa de estudos e ciências são auxiliadas por boas práticas bibliográficas, fornecendo detalhes completos e não fazendo com que muitos leitores façam trabalhos desnecessários.

— Nick Cox

@ Nick ver edições na minha pergunta. Acredito que o artigo é de código aberto e adicionei uma página inteira do texto para o contexto.

— I Heart Beats

Obrigado por melhorar as referências. Você citou mais de Field. Há uma seção extra visível, incluindo a afirmação de que "transformar os dados não mudará os relacionamentos entre variáveis". Ou isso gira em torno de um significado idiossincrático de "relacionamento" ou (mais provavelmente, eu temo), é inútil, na verdade completamente errado. Lamento (em certo sentido) concordar com @whuber sobre o livro em questão sobre as evidências à nossa frente . (Update: whuber estava fazendo essencialmente o mesmo ponto simultaneamente: ver o seu comentário sobre a questão.)

— Nick Cox

Antes de tudo, ambas as citações são enganosas, pois qualquer transformação aplicada aos dados destinados ao uso em um modelo de regressão não é feita para tornar os PDFs variáveis mais normalmente distribuídos, mas para tornar os resíduos do modelo mais simétricos, pois uma suposição na regressão clássica é que os erros são gaussianos. Isso implica em um nível mais profundo de rigor e rigor do que apenas simetrizar um PDF.

Além disso, ambas as citações são fracas, pois nenhuma delas se aprofunda nas motivações de suas prescrições (pelo menos com base nas informações fornecidas). Por acaso, eu discordo de ambos.

Na passagem que você destacou, o livro do SPSS afirma que misturas de transformações (por exemplo, log natural para uma variável, raiz quadrada para outra) não são permitidas. Por que isso é ilegal? Misturas de transformações não violam nenhuma suposição de regressão que eu conheço. Verifique todos os textos de regressão sobre suposições de regressão para confirmar que este é o caso. As misturas de transformação podem apresentar um problema descritivo substantivo em termos de interpretação, mas isso não é uma questão de saber se as misturas são ilegais ou não. O cara do SPSS está errado.

No que diz respeito ao segundo texto, novamente, as transformações são totalmente uma questão de escolha do analista - se uma delas é feita, transforma todas as entradas ou algumas variáveis e não outras. Nada disso viola nenhuma suposição.

Onde eu acho que a segunda citação sai dos trilhos, é a afirmação de que "... para evitar a potencial multicolinearidade ... apenas um indicador de uso da terra (foi usado) ..." Esse é um conselho flagrantemente ruim e soa como o tipo de coisa que alguns analistas farão como uma técnica de redução de dimensão, na qual fatorarão uma análise de várias variáveis e escolherão a variável de carregamento mais alta em cada fator. Essa heurística existe há anos e não é uma que eu uso ou recomendo. Novamente, isso é uma questão de preferência e treinamento de analistas. Mas este ponto não tem como objetivo responder a perguntas específicas.

No final do dia, ambas as citações passam a ser afirmações das opiniões dos autores na ausência de qualquer evidência de suporte, com base nas informações fornecidas.

— Mike Hunter
fonte

Apresentamos argumentos bastante semelhantes, mas quero acrescentar que bons textos explicam que os erros gaussianos são a suposição menos importante na modelagem de regressão e não são necessários para muitos propósitos.

— Nick Cox

Bom texto: stat.columbia.edu/~gelman/arm :)

— Matthew Drury

Transformando dados: Todas as variáveis ​​ou apenas as não-normais?

Transformando dados: Todas as variáveis ou apenas as não-normais?