Analógico 2D de desvio padrão?


19

Considere o seguinte experimento: um grupo de pessoas recebe uma lista de cidades e solicita que marque os locais correspondentes em um mapa do mundo (não marcado). Para cada cidade, você receberá uma dispersão de pontos aproximadamente centralizados na respectiva cidade. Algumas cidades, como Istambul, exibem menos dispersão do que outras, diz Moscou.

Vamos supor que, para uma determinada cidade, tenhamos um conjunto de amostras 2D , representando a posição da cidade (por exemplo, em um sistema de coordenadas local) no mapa designado pelo teste sujeito . Eu gostaria de expressar a quantidade de "dispersão" dos pontos deste conjunto como um número único nas unidades apropriadas (km).{(xi,yi)}(x,y)i

Para um problema 1D, eu escolheria o desvio padrão, mas existe um analógico 2D que possa ser escolhido razoavelmente para a situação, conforme descrito acima?


fazendo uma conquista?
RockScience

Eu adicionei a tag espacial, dado que o exemplo é explicitamente espacial. Se você (ou qualquer outra pessoa) sentir que não é necessário, sinta-se à vontade para reverter essa adição.
Andy W

Respostas:


12

Uma coisa que você pode usar é uma medida de distância de um ponto central, , como a média da amostra dos pontos , ou talvez o centróide dos pontos observados. Então, uma medida de dispersão seria a distância média desse ponto central:c=(c1,c2)(x¯,y¯)

1ni=1n||zic||

onde . Existem muitas opções possíveis para uma medida de distância, mas a norma (por exemplo, distância euclidiana) pode ser uma escolha razoável: L 2zi={xi,yi}L2

||zic||=(xic1)2+(yic2)2

Existem muitas outras opções em potencial. Veja http://en.wikipedia.org/wiki/Norm_%28mathematics%29


Embora a distância seja diferente de zero, essa é de fato uma escolha estranha, pois não concorda no caso degenerado com o desvio padrão usual em uma dimensão. Portanto, considere . zic2
Alex R.

6

Uma boa referência sobre métricas para a distribuição espacial de padrões de pontos é o manual CrimeStat (em particular para esta questão, o capítulo 4 será de interesse). Semelhante à macro métrica sugerida, o desvio padrão da distância é semelhante ao desvio padrão 2D (a única diferença é que você dividiria por "n-2" e não "n" na primeira fórmula fornecida pela macro).

Seu exemplo de experiência me lembra um pouco de como os estudos avaliam o perfil do agressor geográfico e, portanto, as métricas usadas nesses trabalhos podem ser interessantes. Em particular, os termos precisão e exatidão são usados ​​bastante e seriam pertinentes ao estudo. As suposições podem ter um pequeno desvio padrão (ou seja, preciso), mas ainda assim têm uma precisão muito baixa.


1

Eu acho que você deve usar 'Distância Mahalanobis' em vez de normas de distância euclidiana, pois leva em conta a correlação do conjunto de dados e é 'invariável em escala'. Aqui está o link:

http://en.wikipedia.org/wiki/Mahalanobis_distance

Você também pode usar 'Half-Space Depth'. É um pouco mais complicado, mas compartilha muitas propriedades atraentes. A profundidade do meio espaço (também conhecida como profundidade de localização) de um determinado ponto a em relação a um conjunto de dados P é o número mínimo de pontos de P localizado em qualquer semiplano fechado determinado por uma linha através de a. Aqui estão os links:

http://www.cs.unb.ca/~bremner/research/talks/depth-survey.pdf http://depth.johnhugg.com/DepthExplorerALENEXslides.pdf


1
Eu entendo o uso das distâncias de Mahalanobis quando você está tentando dizer se determinados pontos "pertencem" ao conjunto, mas a distância euclidiana média do centróide está mais intimamente relacionada ao conceito usual de variância / desvio padrão usado em um configuração univariada?
Macro

2
Você se importa em elaborar as declarações "leva em consideração a correlação dos dados" e "a escala é invariável"? Que pertinência essas duas coisas têm para a questão em questão?
21711 Andy

A extensão usual do desvio padrão para uma dimensão mais alta é, obviamente, uma maneira de calcular a distância de um ponto específico do centro dos dados - mas aqui estamos normalizando cada ponto, o que facilita a análise de cluster ou a detecção externa. Além disso, a distância de Mahalanobis é mais adaptável aos casos em que a distribuição dos pontos é não esférica. Para casos esfericamente simétricos, é o mesmo que o desvio padrão estendido usual - onde a matriz de covariância dos pontos de dados se reduz à matriz de identidade.
21811 VitalStatistix

1

Na verdade, eu tive um problema semelhante recentemente. Parece que você deseja uma maneira de medir o quão bem os pontos estão espalhados por área. Obviamente, para uma determinada medida, você teria que perceber que, se todos os pontos estiverem em uma linha reta, a resposta será zero, pois não há uma variedade bidimensional.

Pelos cálculos que fiz, é isso que eu criei:

SxxSyySxy²

Nesse caso, Sxx e Syy são as variações de xey de respectivamente, enquanto Sxy é como a variação mista de xey.

Para elaborar, assumindo que existem n elementos, e representa o valor médio de x e representa a média de y:xμyμ

Sxx=1ni=1n(xxμ)²
Syy=1ni=1n(yyμ)²
Sxy=1ni=1n(xxμ)(yyμ)

Espero que isso funcione para você.

Além disso, se você está se perguntando como fazê-lo em dimensões mais altas, como medir a propagação do volume ou volume de surteron em 4 dimensões, é necessário formar uma matriz como esta:

Sxx Sxy Sxz ...

Syx Syy Syz ...

Szx Szy Szz ...

... ... ... ...

E continue por quantas dimensões você precisar. Você deve conseguir descobrir os valores S, dadas as definições fornecidas acima, mas para variáveis ​​diferentes.

Depois que a matriz for formada, pegue o determinante, encontre a raiz quadrada e pronto.


0

Para este exemplo específico - onde há uma resposta "correta" predeterminada - eu retrabalharia as coordenadas x / y como coordenadas polares em torno da cidade que estavam sendo solicitadas a marcar no mapa. A precisão é então medida contra o componente radial (média, sd, etc.). Um "ângulo médio" também pode ser usado para medir o viés.

Para mim, ainda estou procurando uma boa solução para quando não há um ponto central predeterminado e não gosto da ideia de uma pré-passagem sobre os dados para criar um centróide.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.