Por que a transformação isométrica da razão logarítmica é preferível ao aditivo (alr) ou centrado (clr) com dados de composição?


8

Estou fazendo regressão linear em dados de composição usando a transformação de razão de log com dados do censo. Os IVs são composicionais (porcentagens que somam 100). O DV é não composicional e contínuo.

Os resultados alr e clr são mais facilmente interpretados. Todos eles produzem a mesma medida de ajuste. Estou inclinado a ir com alr (ou clr). Aitchison caracteriza ilr como a abordagem da "matemática pura", mas meu público não é estatístico ou matemático.

Se meu objetivo é apenas comunicar informações a partir da análise, por que devo adotar a abordagem muito mais difícil de interpretar?

Eu li montes de pesquisas de Aitchison, Juan Jose Egozcue e Vera Pawlosky-Glahn, mas não querendo debater.

Respostas:


6

Continuando fora da resposta da marianess, o clr realmente não é adequado devido ao problema da colinearidade. Em palavras, se você tentar fazer inferências com dados transformados em clr, poderá cair na armadilha de tentar inferir aumentos / diminuições de variáveis, o que você nunca pode fazer com proporções em primeiro lugar.

A transformação ilr tenta resolver isso apenas aderindo às proporções das partições, pois as proporções são quantidades estáveis. Essas partições podem ser representadas como árvores, onde os nós internos na árvore representam a razão de log das médias geométricas das subárvores. Essa proporção de log de subárvores é conhecida como saldo.

Eu também recomendo verificar essas publicações, pois todas elas têm boas explicações sobre como interpretar a transformação ilr.

http://msystems.asm.org/content/2/1/e00162-16

https://peerj.com/articles/2969/

https://elifesciences.org/content/6/e21887

Aqui está um bloco de notas IPython que detalha como calcular saldos em uma árvore

Também dei uma descrição de como fazer isso com os módulos no scikit-bio aqui , caso você esteja curioso.


Por que o tamanho da saída m - 1?
O.rka

Você pode associar diretamente um recurso ao seu valor?
O.rka

seu m-1, pois é um isomorfismo - você só pode ter no máximo contrastes de m-1 antes de começar a enfrentar problemas de colinearidade. E sim, você deve ser capaz de ligar um recurso para uma partição específica ver esta resposta aqui: stats.stackexchange.com/a/270203/79569
mortonjt

5

Há um problema com a transformação clr (). Ele faz preservar as mesmas variáveis quantidade depois de transformar os dados, mas em caso de clr (), obtém um conjunto de dados singulares (na verdade você tem uma matriz de covariância singular): y1 + ... yD = 0. E como você deve saber, algumas análises estatísticas não podem ser executadas em dados singulares. A transformação ilr () reduzirá o número de sua variável, digamos que você tenha espaço D-dimensional, mas depois de ilr () você terminará com D-1. Como resultado, seus dados transformados nada mais são do que proporções. Recomendo a leitura deste artigo aqui: http://is.muni.cz/do/rect/habilitace/1431/Hron/habilitace/15_Filzmoser_et_al__2010_.pdf


uma distinção útil para clr. alr reduz o vetor para D-1 também. as proporções ilr são de grupos de variáveis ​​(uma ou mais), enquanto as proporções alr são de cada variável única com a última variável no vetor, o denominador comum. O ilr poderia fornecer uma visão de que o alr não funciona, mas com meus dados a maioria das proporções do ilr não faz nenhum sentido intuitivo, mesmo com os balanços. Meu pensamento atual é que depende dos seus dados (ou seja, às vezes você deseja ver proporções de grupos de variáveis, às vezes não).
M Kearny

-1

Eu iria com o ALR, pois faz mais sentido. Você usa um componente como linha de base ou referência e depois vê o que os outros fazem em relação a esse.


11
Por favor, leia o tour. Esta não é uma resposta, mas um comentário. Assim que você tiver reputação suficiente, poderá comentar em qualquer postagem.
Ferdi 27/02

3
A transformação ALR é uma base oblíqua. Pode ser muito difícil analisar dados em relação a uma base oblíqua. Além disso, a transformação ALR não preserva conceitos de métricas como distância ou variação e é sensível a qual parte é tomada como denominador.
JDS

Só para acompanhar o meu último comentário: statsathome.com/2017/08/09/…
jds
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.