Confuso com a derivação da função de regressão

Acabei de receber uma cópia dos Elementos do aprendizado estatístico de Hastie, Tibshirani e Friedman. No capítulo 2 (Visão geral do aprendizado supervisionado), seção 4 (Teoria estatística da decisão), ele fornece uma derivação da função de regressão.

Deixe denotar um vetor de entrada aleatória com valor real e uma variável de saída aleatória com valor real, com distribuição conjunta . Nós procuramos uma função para prever valores dados de entrada . Essa teoria requer uma função de perda para penalizar erros na previsão, e de longe o mais comum e conveniente é a perda de erro ao quadrado: . Isso nos leva a um critério para escolher , $X \in \mathbb{R}^p$ $Y\in\mathbb{R}$ $Pr(X,Y)$ $f(X)$ $Y$ $X$ $L(Y,f(X))$ $L(Y,f(X))=(Y −f(X))^2$ $f$

$\begin{aligned} E P E (f) & = E (Y - f (X))^{2} \\ = \int [y - f (x)]^{2} P r (d x, d y) \end{aligned}$ $\begin{align*} EPE(f) &= E(Y-f(X))^2 \\ &= \int [y - f(x)]^2Pr(dx, dy)\end{align*}$ o esperado erro de previsão (ao quadrado).

Eu entendo completamente a configuração e a motivação. Minha primeira confusão é: ele quer dizer ou ? Segundo, nunca vi a notação . Alguém que pode me explicar seu significado? É apenas que ? Infelizmente, minha confusão não termina aí, $E[(Y - f(x))]^2$ $E[(Y - f(x))^2]$ $Pr(dx,dy)$ $Pr(dx) = Pr(x)dx$

Ao condicionar em , podemos escrever como $X$ $EPE$
$\begin{aligned} E P E (f) = E_{X} E_{Y | X} ([Y - f (X)]^{2} | X) \end{aligned}$ $\begin{align*}EPE(f) = E_XE_{Y|X}([Y-f(X)]^2|X)\end{align*}$

Sinto falta da conexão entre essas duas etapas e não estou familiarizado com a definição técnica de "condicionamento". Deixe-me saber se eu posso esclarecer alguma coisa! Penso que a maior parte da minha confusão surgiu de notações desconhecidas; Estou confiante de que, se alguém puder dividir essa derivação em inglês simples, eu entendi. Obrigado stats.SE!

regression statistical-learning

— Orangutango
fonte

Para sua primeira confusão, deve ser Expectativa de erro ao quadrado, então é $E[(Y-f(x))^2].$

Para a notação de , é igual a , onde é o pdf conjunto de x e y. E , isso pode ser interpretado como a probabilidade de x estar dentro de um pequeno intervalo de é igual ao valor de pdf no ponto , ou seja, vezes o comprimento do intervalo . $Pr(dx,dy)$ $g(x,y)\,dx\,dy$ $g(x,y)$ $Pr(dx)=f(x)\,dx$ $[x,x+dx]$ $x$ $f(x)$ $dx$

A equação sobre o EPE deriva do teorema para quaisquer duas variáveis aleatórias e . Você pode provar isso usando a distribuição condicional. A expectativa condicional é a expectativa calculada usando a distribuição condicional. A distribuição condicional significa a probabilidade de depois que você sabe algo sobre . $E(E(Y|X))=E(Y)$ $X$ $Y$ $Y|X$ $Y$ $X$

No nosso caso, suponha que denotemos o erro ao quadrado como uma função , o EPE está calculando $L(x,y)=(y-f(x))^2$

\begin{aligned} E (L (x, y)) & = \int \int L (x, y) g (x, y) d x d y \\ = \int [\int L (x, y) g (y | x) g (x) d y] d x \\ = \int [\int L (x, y) g (y | x) d y] g (x) d x \\ = \int [E_{Y | X} (L (x, y)] g (x) d x \\ = E_{X} (E_{Y | X} (L (x, y))) \end{aligned}

$\begin{equation}\begin{split}E(L(x,y))&=\int\int L(x,y)g(x,y)dx\,dy \\ &=\int\bigg[\int L(x,y)g(y|x)g(x)dy\bigg]dx \\ &=\int\bigg[\int L(x,y)g(y|x)dy\bigg]g(x)dx \\ &=\int\bigg[E_{Y|X} (L(x,y)\bigg]g(x)dx \\ &=E_X(E_{Y|X} (L(x,y)))\end{split}\end{equation}$

O resultado acima corresponde ao resultado que você listou. Espero que isso possa ajudá-lo um pouco.

— Jerry
fonte

Para o resultado final após o condicionamento, o livro também possui o | X, enquanto o resultado final desta resposta está ausente. É importante?

— precisa saber é o seguinte