Intuição matemática da equação de viés e variância

Recentemente, fiz uma pergunta buscando uma interpretação / intuição matemática por trás da equação elementar relacionando média e variância amostral: , geométrica ou não. $E[X^2] = Var(X) +(E[X])^2$

Mas agora estou curioso sobre a equação de compensação de viés e variância superficialmente semelhante.

\begin{array}{rcl} MSE (\hat{θ}) = E [(\hat{θ} - θ)^{2}] & = & E [(\hat{θ} - E [\hat{θ}])^{2}] + (E [\hat{θ}] - θ)^{2} \\ = & Var (\hat{θ}) + Bias (\hat{θ}, θ)^{2} \end{array}

$\begin{eqnarray} \text{MSE}(\hat{\theta}) = E [(\hat{\theta}-\theta)^2 ] &=& E[(\hat{\theta} - E[\hat\theta])^2] + (E[\hat\theta] - \theta)^2\\ &=& \text{Var}(\hat\theta) + \text{Bias}(\hat\theta,\theta)^2 \\ \end{eqnarray}$ (fórmulas da Wikipedia )

Para mim, há uma similaridade superficial com a equação de troca de viés e variância para regressão: três termos com quadrados e dois somando ao outro. Olhando muito pitagórico. Existe uma relação de vetor semelhante, incluindo ortogonalidade para todos esses itens? Ou existe alguma outra interpretação matemática relacionada que se aplique?

Estou buscando uma analogia matemática com outros objetos matemáticos que possam lançar luz. Não estou procurando a analogia de exatidão e precisão, que é bem abordada aqui. Mas, se houver analogias não técnicas que as pessoas possam dar entre a troca de desvio e a variação muito mais básica, isso também seria ótimo.

variance bias

— Mitch
fonte

A semelhança é mais do que superficial.

A "troca de viés e variância" pode ser interpretada como o Teorema de Pitágoras aplicado a dois vetores euclidianos perpendiculares: o comprimento de um é o desvio padrão e o comprimento do outro é o viés. O comprimento da hipotenusa é o erro médio quadrático da raiz.

Uma relação fundamental

Como ponto de partida, considere este cálculo revelador, válido para qualquer variável aleatória com um segundo momento finito e qualquer número real . Como o segundo momento é finito, tem uma média finita para a qual , de onde $X$ $a$ $X$ $\mu=\mathbb{E}(X)$ $\mathbb{E}(X-\mu)=0$

\begin{matrix} (1) & \begin{aligned} E ((X - a)^{2}) & = E ((X - μ + μ - a)^{2}) \\ = E ((X - μ)^{2}) + 2 E (X - μ) (μ - a) + (μ - a)^{2} \\ = Var (X) + (μ - a)^{2} . \end{aligned} \end{matrix}

$\eqalign{ \mathbb{E}((X-a)^2) &= \mathbb{E}((X-\mu\,+\,\mu-a)^2) \\ &= \mathbb{E}((X-\mu)^2) + 2 \mathbb{E}(X-\mu)(\mu-a) + (\mu-a)^2 \\ &= \operatorname{Var}(X) + (\mu-a)^2.\tag{1} }$

Isto mostra como o desvio quadrático médio entre e qualquer valor de "linha de base" varia com : é uma função quadrática de com um mínimo no , onde o desvio quadrático médio é a variância de . $X$ $a$ $a$ $a$ $\mu$ $X$

A conexão com estimadores e preconceitos

Qualquer estimador é uma variável aleatória porque (por definição) é uma função (mensurável) de variáveis aleatórias. Deixando que ele desempenhe o papel de no precedente, e de deixar a estimativa (a coisa se supõe que a estimativa é estimada) seja , temos $\hat \theta$ $X$ $\hat\theta$ $\theta$

MSE (\hat{θ}) = E ((\hat{θ} - θ)^{2}) = Var (\hat{θ}) + (E (\hat{θ}) - θ)^{2} .

$\operatorname{MSE}(\hat\theta) = \mathbb{E}((\hat\theta-\theta)^2) = \operatorname{Var}(\hat\theta) + (\mathbb{E}(\hat\theta)-\theta)^2.$

Voltemos a agora que vimos como a afirmação sobre viés + variância para um estimador é literalmente um caso de . A questão busca "analogias matemáticas com objetos matemáticos". Podemos fazer mais do que isso, mostrando que variáveis aleatórias quadráticas integráveis podem naturalmente ser transformadas em um espaço euclidiano. $(1)$ $(1)$

Formação matemática

Em um sentido muito geral, uma variável aleatória é uma função de valor real (mensurável) em um espaço de probabilidade . O conjunto de funções que são quadradas integráveis, que geralmente é escrito (com a estrutura de probabilidade fornecida), quase é um espaço de Hilbert. Para transformá-lo em um, precisamos confundir quaisquer duas variáveis aleatórias e que realmente não diferem em termos de integração: ou seja, dizemos que e são equivalentes sempre que $(\Omega, \mathfrak{S}, \mathbb{P})$ $\mathcal{L}^2(\Omega)$ $X$ $Y$ $X$ $Y$

E (| X - Y |^{2}) = \int_{Ω} | X (ω) - Y (ω) |^{2} d P (ω) = 0.

$\mathbb{E}(|X-Y|^2) = \int_\Omega |X(\omega)-Y(\omega)|^2 d\mathbb{P}(\omega) = 0.$

É fácil verificar que esta é uma verdadeira relação de equivalência: o mais importante, quando é equivalente a e é equivalente a , então, necessariamente, será equivalente a . Podemos, portanto, dividir todas as variáveis aleatórias integráveis em quadrados em classes de equivalência. Essas classes formam o conjunto . Além disso, herda a estrutura de espaço vetorial de definida pela adição de valores por pontos e multiplicação escalar por pontos. Nesse espaço vetorial, a função $X$ $Y$ $Y$ $Z$ $X$ $Z$ $L^2(\Omega)$ $L^2$ $\mathcal{L}^2$

X \to {(\int_{Ω} | X (ω) |^{2} d P (ω))}^{1 / 2} = \sqrt{E (| X |^{2})}

$X \to \left(\int_\Omega |X(\omega)|^2 d\mathbb{P}(\omega)\right)^{1/2}=\sqrt{\mathbb{E}(|X|^2)}$

é uma norma , geralmente escrita . Essa norma transforma em um espaço de Hilbert. Pense em um espaço de Hilbert como um "espaço euclidiano de dimensão infinita". Qualquer subespaço de dimensão finita herda a norma de e , com essa norma, é um espaço euclidiano: podemos fazer nele geometria euclidiana. $||X||_2$ $L^2(\Omega)$ $\mathcal{H}$ $V\subset \mathcal{H}$ $\mathcal{H}$ $V$

Finalmente, precisamos de um fato que seja especial para os espaços de probabilidade (em vez dos espaços de medida geral): porque é uma probabilidade, é limitado (por ), de onde as funções constantes (para qualquer número real fixo ) são variáveis aleatórias integráveis ao quadrado com normas finitas. $\mathbb{P}$ $1$ $\omega\to a$ $a$

Uma interpretação geométrica

Considere qualquer variável aleatória integrável ao quadrado , considerada um representante de sua classe de equivalência em . Ele tem um significativo que (como se pode verificar) depende apenas da classe de equivalência de . Seja a classe da variável aleatória constante. $X$ $L^2(\Omega)$ $\mu=\mathbb{E}(X)$ $X$ $\mathbf{1}:\omega\to 1$

$X$ e geram um subespaço euclidiano cuja dimensão é no máximo . Nesse subespaço, é o comprimento ao quadrado de e é o comprimento ao quadrado da variável aleatória constante . É fundamental que seja perpendicular a . (Uma definição de é que é o número único para o qual esse é o caso.) A relação pode ser escrita $\mathbf{1}$ $V\subset L^2(\Omega)$ $2$ $||X||_2^2 = \mathbb{E}(X^2)$ $X$ $||a\,\mathbf{1}||_2^2 = a^2$ $\omega\to a$ $X-\mu\mathbf{1}$ $\mathbf{1}$ $\mu$ $(1)$

| | X - a 1 | |_{2}^{2} = | | X - μ 1 | |_{2}^{2} + | | (a - μ) 1 | |_{2}^{2} .

$||X - a\mathbf{1}||_2^2 = ||X - \mu\mathbf{1}||_2^2 + ||(a-\mu)\mathbf{1}||_2^2.$

Na verdade, é precisamente o Teorema de Pitágoras, essencialmente da mesma forma conhecida há 2500 anos. O objeto é a hipotenusa de um triângulo retângulo com pernas e .

X - a 1 = (X - μ 1) - (a - μ) 1

$X-a\mathbf{1} = (X-\mu\mathbf{1})-(a-\mu)\mathbf{1}$

X - μ 1

$X-\mu\mathbf{1}$

(a - μ) 1

$(a-\mu)\mathbf{1}$

Se você quiser analogias matemáticas, poderá usar qualquer coisa que possa ser expressa em termos da hipotenusa de um triângulo retângulo em um espaço euclidiano. A hipotenusa representará o "erro" e as pernas representarão o viés e os desvios da média.

— whuber
fonte

Excelente. Portanto, o raciocínio é quase idêntico ao da minha pergunta anterior re . Então, há uma analogia entre eles, certo? Parece intuitivamente que viés é análogo a significar. E a generalização é que a média é o primeiro momento em relação a 0, mas o viés é em relação ao valor real de um parâmetro. Isso soa certo?

V a r = E X^{2} - (E X)^{2}

$Var = EX^2 - (EX)^2$

— Mitch

Sim - com a ressalva (que é uma percepção adicionada pela interpretação geométrica) de que o caminho certo para medir essas coisas é em termos de quadrados.

— whuber

Então, whuber, eu tenho uma pergunta relacionada. Para qualquer aprendizado de máquina, eu tenho esses dois conceitos "se aumentarmos o tamanho da amostra, a variação de um estimador assintoticamente imparcial será zero" e "se aumentarmos a complexidade do modelo, teremos um viés baixo e uma alta variação" . Portanto, posso dizer que mais poder computacional permite mais complexidade, o que reduzirá o viés, mas aumentará a variação. Sob assintótico, no entanto, esse aumento na variação será compensado.

— ARAT

@Mustafa Você faz algumas suposições fortes. A primeira é que uma amostra é aleatória e (pelo menos aproximadamente) independente - geralmente não é o caso em aplicações de ML. As conclusões sobre o aumento da complexidade do modelo geralmente não são verdadeiras, em parte porque "aumentar a complexidade" implica que você está alterando o modelo e isso põe em questão o significado do que seu estimador está estimando, bem como como esse estimador pode estar relacionado à sua estimativa. . Isso não significa necessariamente que o aumento da complexidade do modelo tenha qualquer efeito geralmente previsível sobre o viés ou a variação.

— whuber

Essa é uma maneira de pensar visualmente sobre a precisão e o desvio da variação. Suponha que você esteja olhando para um alvo e faça muitos disparos que estão todos espalhados perto do centro do alvo, de forma que não haja viés. Então a precisão é determinada unicamente pela variação e quando a variação é pequena, o atirador é preciso.

Agora vamos considerar um caso em que há grande precisão, mas grande viés. Nesse caso, os disparos estão espalhados em torno de um ponto distante do centro. Algo está atrapalhando o ponto de mira, mas em torno desse ponto de mira todo tiro está próximo desse novo ponto de mira. O atirador é preciso, mas muito impreciso por causa do preconceito.

Existem outras situações em que as fotos são precisas devido a pequenos desvios e alta precisão. O que queremos é que não haja viés e pequena variação ou pequena variação com pequeno viés. Em alguns problemas estatísticos, você não pode ter os dois. Portanto, o MSE se torna a medida de precisão que você deseja usar que diminui o desvio do desvio de variância e a minimização do MSE deve ser o objetivo.

— Michael R. Chernick
fonte

Excelente descrição intuitiva da analogia da variação e da exatidão e precisão. Também estou procurando uma interpretação matemática como o Teorema de Pitágoras.

— Mitch #

Não me concentrei nisso porque foi abordado em outro post que discutia a interpretação geométrica. Vou encontrar o link para você.

— Michael R. Chernick 14/01

@Mitch A pesquisa de "tradeoff de variação de polarização" rendeu 134 hits no site do CV. Ainda não encontrei o teorema de Pitágoras, mas este é realmente bom e tem uma imagem dos alvos que discuti neste post. "Explicação intuitiva da troca de viés e variância".

— Michael R. Chernick

Encontrei aquele que estava procurando a partir de 5 de janeiro de 2017 "intuição (geométrica ou outra) de Var (X) = E [ ] - ( ).

X^{2}

$X^2$

E [X])^{2}

$E[X])^2$

— Michael R. Chernick

@ Mitch Não sabia que você postou a pergunta que eu estava procurando.

— Michael R. Chernick