Qual é a maneira mais apropriada de transformar proporções quando elas são uma variável independente?

Pensei ter entendido esse problema, mas agora não tenho tanta certeza e gostaria de verificar com outras pessoas antes de prosseguir.

Eu tenho duas variáveis Xe Y. Yé uma proporção e não é delimitada por 0 e 1 e geralmente é normalmente distribuída. Xé uma proporção e é delimitada por 0 e 1 (executa de 0,0 a 0,6). Quando eu executar uma regressão linear de Y ~ Xe eu descobrir que Xe Ysão significativamente linearmente relacionadas. Por enquanto, tudo bem.

Mas então eu investigo mais e começo a pensar que o relacionamento de talvez Xe Ypode ser mais curvilíneo que linear. Para mim, parece que a relação entre Xe Ypode estar mais perto Y ~ log(X), Y ~ sqrt(X)ou Y ~ X + X^2, ou algo parecido. Tenho razões empíricas para supor que o relacionamento possa ser curvilíneo, mas não há motivos para supor que qualquer relacionamento não linear possa ser melhor que qualquer outro.

Eu tenho algumas perguntas relacionadas daqui. Primeiro, minha Xvariável utiliza quatro valores: 0, 0,2, 0,4 e 0,6. Quando eu registro ou transforme a raiz quadrada desses dados, o espaçamento entre esses valores distorce, de modo que os valores 0 estão muito mais distantes de todos os outros. Por falta de uma maneira melhor de perguntar, é isso que eu quero? Suponho que não, porque obtenho resultados muito diferentes, dependendo do nível de distorção que aceito. Se não é isso que eu quero, como devo evitá-lo?

Segundo, para transformar esses dados em log, preciso adicionar uma certa quantia a cada Xvalor, porque você não pode assumir o log de 0. Quando adiciono uma quantia muito pequena, digamos 0,001, recebo uma distorção substancial. Quando adiciono uma quantidade maior, digamos 1, recebo muito pouca distorção. Existe uma quantidade "correta" para adicionar a uma Xvariável? Ou é inapropriado adicionar algo a uma Xvariável em vez de escolher uma transformação alternativa (por exemplo, raiz do cubo) ou modelo (por exemplo, regressão logística)?

O pouco que pude descobrir sobre esse assunto me faz sentir que deveria pisar com cuidado. Para outros usuários do R, esse código criaria alguns dados com uma espécie de estrutura semelhante à minha.

X = rep(c(0, 0.2,0.4,0.6), each = 20)
Y1 = runif(20, 6, 10)
Y2 = runif(20, 6, 9.5)
Y3 = runif(20, 6, 9)
Y4 = runif(20, 6, 8.5)
Y = c(Y4, Y3, Y2, Y1)
plot(Y~X)

— Bajcz
fonte

Você diz que Y é uma proporção, mas nos seus dados está entre 6 e 10?

Sim, eu consertei isso acima - é uma proporção, não uma proporção.

— 22716 Bajcz

A principal questão sobre a transformação de proporções (usarei como símbolo, de maneira semelhante, mas não idêntica à sua notação) permite alguns comentários gerais. $x$

No que segue, considero que o principal motivo para transformar proporções que são covariáveis (preditores, variáveis independentes) é melhorar a aproximação à linearidade do relacionamento, ou, no modo exploratório, obter uma idéia mais clara graficamente da forma ou mesmo da existência de qualquer relacionamento. Como de costume, se uma covariável é (por exemplo) aproximadamente normalmente distribuída não é crucial como tal. (As proporções são um parente não muito distante das variáveis indicadoras com valores que nunca podem ser distribuídos normalmente e as proporções também são necessariamente limitadas.) $0, 1$

Se as proporções podem atingir zeros exatos ou exatos, é essencial que uma transformação seja definida para esses limites, que claramente excluem , pois é indeterminado. Além disso, uma forma específica requer, idealmente, alguma justificação substantiva (científica, prática), mas falta, em algumas análises simples, que o seja altamente sensível ao valor de , como você sugere. $\log x$ $\log 0$ $\log (x + c)$ $c$

Isso é um pouco mais fácil de ver com logaritmos na base , então temporariamente vamos considerar para que o mapeie para . $10$ $c = 10^k$ $\log_{10} (x + 10^k)$ $x = 0$ $k$

Por isso mapas a e a cerca de , enquanto que mapas a e a apenas uma pitada mais do que . $k = 0, c = 1$ $x = 0$ $0$ $x = 1$ $0.301$ $k = -3, c = 0.001$ $x = 0$ $-3$ $x = 1$ $0$

Da mesma forma, o que significa que é mapeado para os mesmos limites, enquanto que para uma aproximação cada vez mais boa é mapeado para . $k = -6, -9,$ $0$ $x = 1$ $0$

Portanto, o limite inferior é estendido para fora com constantes adicionadas cada vez menores , enquanto o limite superior permanece aproximadamente o mesmo. Tais transformações, portanto, podem esticar excessivamente a parte inferior do intervalo e até criar valores extremos a partir de valores muito pequenos iguais ou próximos a . $c$ $0$

Simplesmente, as pessoas sugerindo isso presumivelmente imaginam que o (agora para qualquer base que você goste) deve se comportar de maneira muito semelhante ao para pequeno , o que é claramente verdadeiro para grande , mas não é verdade para pequeno . Em outras palavras, a inclinação mais íngreme e mais íngreme do em função de como pode morder aqui com muita força. $\log (x + c)$ $\log x$ $c$ $x$ $x$ $\log x$ $x$ $x \downarrow 0$

Parece preferível focar em transformações que variam mais gradualmente perto de e (por outras razões, mas relacionadas) também perto de . $x = 0$ $x = 1$

Raízes quadradas e raízes de cubo e outras potências estão perfeitamente bem definidas para e geralmente ajudam quando há necessidade de esticar valores próximos de . Mas essas transformações são bem conhecidas e me concentro aqui mais em outra possibilidade. $x^p$ $x = 0, 1$ $0$

A família de poderes dobrados popularizada por JW Tukey ( Análise Exploratória de Dados , Reading, MA: Addison-Wesley, 1977) é uma possibilidade, e é . Embora não haja nenhuma compulsão para escolher poderes que permitem nomes sugestivos simples, as escolhas (raiz dobrado) e (raiz cúbica dobrado) parecem os membros mais úteis desta família. $x^p - (1 - x)^p$ $p = 1/2$ $p = 1/3$

A família se assemelha o familiar de transformação logit de e, na verdade o logit é um caso limite como tende a . Uma diferença chave é que os poderes dobradas são definidos para e . $\text{logit}\ x = \log x - \log (1 - x)$ $p$ $0$ $x = 0, 1$ $p \ne 0$

Potências dobradas, incluindo agora o logit, tratam os casos extremos próximos a e inclinação simétrica e plotam como curvas sigmóides inversas (alguns gráficos abaixo) misturando comportamento aditivo e multiplicativo, ecoando freqüentes qualidades qualitativas (se não físicas, biológicas, econômicas, o que for) fatos para o fenômeno subjacente que $0$ $1$

a diferença entre e pode ser um "grande problema" (com certeza, muda apenas , mas também dobra) $0.01$ $0.02$ $x$ $0.01$
a diferença de dizer a pode ser um "grande problema" (com certeza, muda apenas em , mas a "fração sem" também diminui pela metade) $0.98$ $0.99$ $x$ $0.01$ $1 - x$
a diferença entre e pode ser uma "transação menor" (com certeza, muda em , mas a mudança proporcional é muito menor) $0.50$ $0.51$ $x$ $0.01$

Talvez seja mais fácil pensar em quando alguma dinâmica subjacente é imaginada: a fração crescente de pessoas alfabetizadas precisa de um grande empurrão para avançar, acelera e depois diminui à medida que se aproxima da assíntota da alfabetização universal. Portanto, a curva no tempo pode se parecer com uma logística crescente ou decrescente. O fato proporções e serem abordadas mais ou mais lentamente é naturalmente uma das várias motivações para logit e modelos similares para respostas proporcionais; embora aqui nos concentremos em covariáveis proporcionais, os sigmóides também podem ser úteis aqui. $0$ $1$

Poderes dobrados, como a raiz dobrada ou a raiz do cubo, não são tão sigmóides quanto o logit, mas um mérito valioso aqui é o fato de serem definidos de maneira direta e fácil, sem falsificações, kludges ou cutucadas para . $x = 0, 1$

Voltando ao seu conjunto de dados falso, mas aparentemente realista (que eu importei para o meu próprio software favorito, mas a análise é simples em qualquer coisa decente), verifica-se que nenhuma dessas transformações realmente ajuda. Mas representar graficamente os dados dá um aviso claro de que mesmo o é uma transformação poderosa, como pode ser visto também plotando-o diretamente. $\log(x + 0.001)$

Os dois pontos principais que desejo destacar são que

frequentemente sugerido, e muitas vezes aparentemente considerado inócuo, é uma transformação perigosa, a menos que seja compreendida e frequentemente inadequada sempre que estender a distribuição poderosamente para pequeno(a menos que esse seja realmente o comportamento desejado). $\log (x + c)$ $x$
Para seus dados de exemplo, nenhuma transformação que tentei parece ajudar.

Ao mesmo tempo, outras possibilidades estão longe de esgotar-se. (Notavelmente, eu não tentei raiz quadrada ou raiz de cubo e enfatizo que em muitos outros problemas esses podem ser candidatos óbvios e sérios.)

O primeiro conjunto de gráficos simplesmente mostra algumas transformações candidatas para proporções que podem atingir e . (Usei logaritmos naturais, mas as formas não dependem da base escolhida). $0$ $1$

O segundo conjunto de gráficos não mostra nenhuma transformação ajudando muito nos dados de exemplo. (Para comparação, uma regressão simples nos dados originais gera %, RMSE .) $R^2 = 3.7$ $= 0.994$

Pequeno quebra-cabeça. Diz-se que seu é uma proporção, mas seus valores estão em torno de a . $y$ $6$ $10$

EDIT: Os dados originais podem ser plotados aqui porque o OP publicou brevemente os dados, mas depois os removeu.

Outros tópicos aqui usando poderes dobrados incluem

Transformando dados de proporção: quando a raiz quadrada arcsin não é suficiente

Regressão: Gráfico de dispersão com baixo R ao quadrado e altos valores de p

Plotar um conjunto de dados altamente inclinado

— Nick Cox
fonte

Excelente resposta e muito completo. Acho que devo dizer que Yé uma proporção e não uma proporção, o que provavelmente é uma diferença bastante substancial, por isso foi bom da sua parte ressaltar.

— Bajcz 12/02

As proporções são limitadas como eu as defino. Obrigado pelo esclarecimento, que não faz nenhuma diferença para a minha análise (e foi por isso que eu o rotulei como um pequeno detalhe).

— Nick Cox

Comentário adicional: Em princípio, você pode verificar a curvatura etc. usando splines ou smoothers, mas com apenas 4 níveis distintos do preditor, isso não é fácil. Eu consideraria a regressão quantil para seus dados.

— Nick Cox

x^{2}

$x^2$

x^{3}

$x^3$

1 ↓

$1\downarrow$

0 ↑

$0\uparrow$

x = 0, 1

$x = 0,1$