Função de custo na regressão linear OLS

32

Estou um pouco confuso com uma palestra sobre regressão linear dada por Andrew Ng no Coursera sobre aprendizado de máquina. Lá, ele deu uma função de custo que minimiza a soma dos quadrados como:

\frac{1}{2 m} \sum_{i = 1}^{m} {(h_{θ} (X^{(i)}) - Y^{(i)})}^{2}

$\frac{1}{2m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2$

Eu entendo de onde vem o . Eu acho que ele fez isso para que, quando ele executasse derivada no termo quadrado, os 2 no termo quadrado fossem cancelados com a metade. Mas não entendo de onde vêm os . $\frac{1}{2}$ $\frac{1}{m}$

Por que precisamos fazer ? Na regressão linear padrão, não temos, simplesmente minimizamos os resíduos. Por que precisamos aqui? $\frac{1}{m}$

regression machine-learning loss-functions

— SmallChess
fonte

1 / 2m ajuda a encontrar o erro médio por ponto de dados e m representa o total de observações ou o número de observações.

— Krishnan Achary

33

Como você percebe, certamente não precisamos do fator para obter regressão linear. É claro que os minimizadores serão exatamente os mesmos, com ou sem ele. Um motivo típico para normalizar por é para que possamos visualizar a função de custo como uma aproximação ao "erro de generalização", que é a perda quadrada esperada em um novo exemplo escolhido aleatoriamente (não no conjunto de treinamento): $1/m$ $m$

Suponha que sejam amostrados iid de alguns distribuição. Então, para grande , esperamos que $(X,Y),(X^{(1)},Y^{(1)}),\ldots,(X^{(m)},Y^{(m)})$ $m$

\frac{1}{m} \sum_{i = 1}^{m} {(h_{θ} (X^{(i)}) - Y^{(i)})}^{2} \approx E {(h_{θ} (X) - Y)}^{2} .

$\frac{1}{m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 \approx \mathbb{E}\left(h_\theta(X)-Y\right)^2.$

Mais precisamente, pela Lei Forte dos Grandes Números, temos com probabilidade 1.

lim_{m \to \infty} \frac{1}{m} \sum_{i = 1}^{m} {(h_{θ} (X^{(i)}) - Y^{(i)})}^{2} = E {(h_{θ} (X) - Y)}^{2}

$\lim_{m\to\infty} \frac{1}{m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 = \mathbb{E}\left(h_\theta(X)-Y\right)^2$

Nota: Cada uma das instruções acima refere-se a qualquer , escolhido sem observar o conjunto de treinamento. Para aprendizado de máquina, queremos que essas instruções sejam válidas para alguns escolhidos com base em seu bom desempenho no conjunto de treinamento. Essas alegações ainda podem ser mantidas nesse caso, embora seja necessário fazer algumas suposições sobre o conjunto de funções , e precisaremos de algo mais forte do que a Lei de grandes números. $\theta$ $\hat{\theta}$ $\{h_\theta \,|\, \theta \in \Theta\}$

— DavidR
fonte

1

@StudentT Este é provavelmente o melhor motivo para usar o erro médio sobre o total. Minha explicação é realmente apenas uma conseqüência superficial da razão mais profunda de DavidR.

— Matthew Drury

29

Você não precisa . A função de perda tem o mesmo mínimo, independentemente de você incluir o ou suprimi-lo. Se você incluí-lo, obtém a boa interpretação de minimizar (metade) o erro médio por ponto de dados. Em outras palavras, você está minimizando a taxa de erro em vez do erro total. $\frac{1}{m}$

Considere comparar o desempenho em dois conjuntos de dados de tamanhos diferentes. A soma bruta de erros ao quadrado não é diretamente comparável, pois conjuntos de dados maiores tendem a ter mais erro total devido ao seu tamanho. Por outro lado, o erro médio por ponto de dados é .

Você pode elaborar um pouco?

Certo. Seu conjunto de dados é uma coleção de pontos de dados . Depois de ter um modelo , o erro de mínimos quadrados de em um único ponto de dados é $\{ x_i, y_i \}$ $h$ $h$

(h (x_{i}) - y_{i})^{2}

$(h(x_i) - y_i)^2$

é claro que isso é diferente para cada ponto de dados. Agora, se simplesmente resumirmos os erros (e multiplicarmos pela metade pela razão que você descreve), obteremos o erro total

\frac{1}{2} \sum_{i} (h (x_{i}) - y_{i})^{2}

$\frac{1}{2} \sum_i (h(x_i) - y_i)^2$

mas se dividirmos pelo número de somas, obtemos o erro médio por ponto de dados

\frac{1}{2 m} \sum_{i} (h (x_{i}) - y_{i})^{2}

$\frac{1}{2m} \sum_i (h(x_i) - y_i)^2$

O benefício do erro médio é que, se tivermos dois conjuntos de dados e de tamanhos diferentes , poderemos comparar os erros médios, mas não os erros totais. Pois se o segundo conjunto de dados for, digamos, dez vezes o tamanho do primeiro, esperaríamos que o erro total fosse cerca de dez vezes maior para o mesmo modelo. Por outro lado, o erro médio divide o efeito do tamanho do conjunto de dados e, portanto, esperamos que modelos de desempenho semelhante tenham erros médios semelhantes em diferentes conjuntos de dados. $\{ x_i, y_i \}$ $\{ x'_i, y'_i \}$

— Matthew Drury
fonte

1

Eu posso te seguir, você pode elaborar um pouco? Desculpe, eu sou novo no aprendizado de máquina!

— SmallChess

@StudentT Tentei esclarecer minha resposta.

— Matthew Drury

1

O mesmo se aplica se você experimentar o tamanho de minilote ao fazer descida de gradiente estocástico, que é o tipo mais comum de descida de gradiente linear ao trabalhar com grandes conjuntos de dados: você pode comparar mais facilmente o erro.

— jasonszhao