Por que o coeficiente de variação não é válido ao usar dados com valores positivos e negativos?

Não consigo encontrar uma resposta definitiva para minha pergunta.

Meus dados consistem em vários gráficos com médias medidas variando de 0,27 a 0,57. No meu caso, todos os valores de dados são positivos, mas a medida em si é baseada em uma razão de valores de refletância que pode variar de -1 a +1. As parcelas representam valores do NDVI , um indicador derivado remotamente da "produtividade" da vegetação.

Minha intenção era comparar a variabilidade dos valores em cada parcela, mas como cada parcela possui uma média diferente, optei por usar o CV para medir a dispersão relativa dos valores de NDVI por parcela.

Pelo que entendi, tirar o CV desses gráficos não é kosher porque cada gráfico pode ter valores positivos e negativos. Por que não é apropriado usar o CV nesses casos? Quais seriam algumas alternativas viáveis (isto é, teste semelhante de dispersão relativa, transformações de dados etc.)?

descriptive-statistics

— Profhet60091
fonte

Qual é o objetivo de comparar a variabilidade? Por que você não apenas compara medidas de variabilidade real, como SD, MAD, intervalo ou qualquer outra coisa, em vez de uma medida relativa como o CV (que não faz sentido aqui)?

— whuber

Estou usando o CV para explicar as diferenças nas médias entre parcelas. Não faz sentido porque os valores variam entre -1 e +1 em todos os gráficos? isto é, a "variabilidade real" seria mais indicativa de diferenças entre parcelas?

— perfil completo de Profeta

CV é uma medida relativa de variação, por definição. Ele fornece resultados sem sentido para qualquer média negativa (você não pode interpretar uma quantidade negativa de dispersão ou propagação). Para meios positivos, faz com que uma determinada quantidade de spread pareça muito maior quando a média é pequena. Quando isso é desejado, o que você está fazendo é efetivamente equivalente à comparação de seus dados em uma escala logarítmica - e isso não faz sentido sempre que qualquer dado possa ser zero ou negativo. É possível que seus dados precisem de algum tipo de reexpressão para permitir boas comparações de variabilidade; depende de como eles são gerados.

— whuber

+1 para explicação. Embora todos os meios dos meus gráficos sejam positivos, pode haver valores negativos em cada gráfico. Com base no exposto acima, e na resposta de Peter abaixo, parece que o uso do CV não é garantido. Analisarei potencialmente o redimensionamento dos valores e / ou o uso de medidas de variabilidade real.

— precisa saber é o seguinte

Se você puder redimensionar sensivelmente seus dados adicionando uma constante, isso também significaria que o CV não é uma boa ideia. Isso ocorre porque adicionar uma constante altera o CV, mas não altera a variação.

— Peter Flom - Restabelece Monica

Respostas:

Pense no que é CV: Proporção do desvio padrão em relação à média. Mas se a variável puder ter valores positivos e negativos, a média poderá estar muito próxima de 0; assim, o CV não faz mais o que deveria: ou seja, dê uma noção do tamanho do sd, comparado à média.

EDIT: Em um comentário, eu disse que se você pudesse adicionar sensivelmente uma constante à variável, o CV não seria bom. Aqui está um exemplo:

set.seed(239920)
x <- rnorm(100, 10, 2)
min(x)#To check that none are negative
(CVX <- sd(x)/mean(x))
x2 <- x + 10
(CVX2 <- sd(x2)/mean(x2))

x2 é simplesmente x + 10. Eu acho intuitivamente claro que eles são igualmente variáveis; mas o CV é diferente.

Um exemplo real disso seria se x fosse a temperatura em graus C e x2 fosse a temperatura em graus K (embora se possa argumentar que K é a escala adequada, uma vez que possui um 0 definido).

— Peter Flom - Restabelece Monica
fonte

THX! Portanto, a preocupação é mais em ter uma média próxima de zero e não necessariamente ter valores positivos e negativos em seus dados. Nesse caso, até que ponto uma média de zero é considerada "muito próxima"? No meu caso, eu diria que estou longe de ter meus meios perto de zero. Existe uma maneira definitiva de determinar isso?

— precisa saber é o seguinte

Não, a preocupação é que o CV não faça mais o que deveria fazer, mesmo que haja apenas 1 valor negativo. Se você tiver valores negativos, não use CV. Além disso, se seus valores estiverem em uma escala arbitrária, não use CV.

— Peter Flom - Restabelece Monica

Para ser completo, você poderia fornecer um pouco mais de explicação sobre por que o uso de uma escala arbitrária invalida o uso do CV? THX!

— Prophet60091

Com toda a justiça, acho que a @whuber não estava defendendo a comparação entre dados transformados e não transformados, mas seu argumento ainda é considerado: o dimensionamento afetará o CV, quando se pode pensar que os resultados devem permanecer os mesmos. +1 para o código R do brinquedo!

— precisa saber é o seguinte

Não tenho argumentos com os comentários de @whuber sobre este tópico.

— Peter Flom - Restabelece Monica

Penso neles como diferentes modelos de variação. Existem modelos estatísticos em que o CV é constante. Onde esses trabalhos, pode-se reportar um currículo. Existem modelos em que o desvio padrão é uma função de potência da média. Existem modelos em que o desvio padrão é constante. Como regra, um modelo de CV constante é um palpite inicial melhor do que um modelo de SD constante, para variáveis de escala de proporção. Você pode especular por que isso seria verdade, talvez com base na prevalência de interações multiplicativas em vez de aditivas.

A modelagem de CV constante é frequentemente associada à transformação logarítmica. (Uma exceção importante é uma resposta não negativa que às vezes é zero.) Existem algumas maneiras de analisar isso. Primeiro, se o CV é constante, os logs são a transformação convencional de estabilização de variância. Como alternativa, se o seu modelo de erro for lognormal com SD constante na escala de log, o CV será uma transformação simples desse SD. O CV é quase igual ao SD em escala de log quando ambos são pequenos.

Duas maneiras de aplicar métodos estatísticos 101, como um desvio padrão, são os dados da maneira que você os obteve ou (especialmente se houver escala de proporção) em seus logs. Você faz o melhor primeiro palpite: pode saber que a natureza pode ser um pouco mais complicada e que mais estudos podem estar em ordem. Leve em consideração o que as pessoas consideraram produtivas anteriormente com seu tipo de dados.

Aqui está um caso em que essas coisas são importantes. Às vezes, as concentrações químicas são resumidas com CV ou modeladas em escala logarítmica. No entanto, o pH é uma concentração logarítmica.

— hotgas
fonte

Obrigado por sua contribuição e bem-vindo ao nosso site! Você poderia deixar mais claro como sua resposta aborda a questão sobre a validade do uso de um currículo para caracterizar dados que podem ter valores negativos? Essa situação parece não estar coberta por nenhum de seus comentários.

— whuber