Eu tenho um conjunto de dados e quero encontrar o parâmetro tal que minimize a soma isso é m k ∑ i = 1 | m - x i | .
Eu tenho um conjunto de dados e quero encontrar o parâmetro tal que minimize a soma isso é m k ∑ i = 1 | m - x i | .
Respostas:
Provavelmente você pede uma prova de que a mediana resolve o problema? Bem, isso pode ser feito assim:
O objetivo é linear por partes e, portanto, diferenciável, exceto pelos pontos . Qual é a inclinação do objetivo em algum ponto ? Bem, a inclinação é a soma das inclinações dos mapeamentose este é (para ) ou (para ). Portanto, a inclinação indica quantos são menores que . Você vê que a inclinação é zero se houver igualmente muitos menores e maiores que (para e número par de ). Se houver um número ímpar de m ≠ x i m ↦ | m - x j | + 1 m > x j - 1 m < x j x i m x i m x i x i - 1 + 1então a inclinação fica esquerda da mais "média" e direita, portanto a mais baixa é o mínimo.
Uma generalização desse problema para múltiplas dimensões é chamada de problema da mediana geométrica . Como David aponta, a mediana é a solução para o caso 1-D; lá, você pode usar algoritmos de seleção de busca mediana , que são mais eficientes do que a classificação. As classificações são enquanto os algoritmos de seleção são ; as classificações são apenas mais eficientes se forem necessárias várias seleções; nesse caso, você pode classificar (cara) uma vez e depois selecionar repetidamente na lista classificada.O ( n )
O link para o problema da mediana geométrica menciona soluções para casos multidimensionais.
A solução explícita em termos de mediana está correta, mas em resposta a um comentário de mayenew, aqui está outra abordagem.
É sabido que problemas de minimização em geral, e o problema postado em particular, podem ser resolvidos por programação linear.
A seguinte formulação de LP fará para o exercício especificado com incógnitas :
Claramente deve ser igual ano mínimo, portanto, isso exige que a soma dos valores absolutos dos erros seja minimizada.
A maneira de análise convexa sobrecarregada de mostrar isso é apenas usar subgradientes. De fato, isso é equivalente ao raciocínio usado em algumas das outras respostas que envolvem inclinações.
O problema de otimização é convexo (porque o objetivo é convexo e não há restrições.) Além disso, o subgradiente de é
-1 se
[-1,1] se
+1 se .