Este é um exemplo de ajuste excessivo no curso Coursera no ML por Andrew Ng no caso de um modelo de classificação com dois recursos , no qual os valores reais são simbolizados por × e ∘ , e o limite de decisão é precisamente adaptado ao conjunto de treinamento através do uso de termos polinomiais de alta ordem.(x1,x2)×∘,
O problema que ele tenta ilustrar refere-se ao fato de que, embora a linha de decisão do limite (linha curvilínea em azul) não classifique erroneamente nenhum exemplo, sua capacidade de generalizar fora do conjunto de treinamento ficará comprometida. Andrew Ng continua explicando que a regularização pode atenuar esse efeito e desenha a curva magenta como um limite de decisão menos restrito ao conjunto de treinamento e com maior probabilidade de generalização.
Com relação à sua pergunta específica:
Minha intuição é que a curva azul / rosa não é realmente plotada neste gráfico, mas sim uma representação (círculos e X) que é mapeada para valores na próxima dimensão (3ª) do gráfico.
Não há altura (terceira dimensão): há duas categorias, e ∘ ) , e os shows de linha de decisão como o modelo é separando-os. No modelo mais simples(×∘),
hθ(x)=g(θ0+θ1x1+θ2x2)
o limite de decisão será linear.
Talvez você tenha em mente algo assim, por exemplo:
5+2x−1.3x2−1.2x2y+1x2y2+3x2y3
No entanto, observe que existe uma função na hipótese - a ativação logística em sua pergunta inicial. Portanto, para cada valor de x 1 e x 2, a função polinomial sofre e "ativação" (geralmente não linear, como na função sigmoide como no OP, embora não necessariamente (por exemplo, RELU)). Como saída limitada, a ativação sigmoide se presta a uma interpretação probabilística: a idéia em um modelo de classificação é que, em um determinado limite, a saída seja rotulada como × ( ou ∘ ) . Efetivamente, uma saída contínua será compactada em um binário ( 1 ,g(⋅)x1x2× (∘). saída.(1,0)
Dependendo dos pesos (ou parâmetros) e da função de ativação, cada ponto no plano de feição será mapeado para a categoria × ou ∘ . Essa rotulagem pode ou não estar correta: elas estarão corretas quando os pontos na amostra desenhada por × e ∘ no plano da figura no OP corresponderem aos rótulos previstos. Os limites entre as regiões do plano rotuladas × e as regiões adjacentes rotuladas ∘ . Eles podem ser uma linha ou várias linhas que isolam "ilhas" (veja você mesmo brincando com este aplicativo por Tony Fischetti, parte de(x1,x2)×∘×∘×∘esta entrada de blog em R-bloggers ).
Observe a entrada na Wikipedia sobre o limite de decisão :
Em um problema de classificação estatística com duas classes, um limite ou superfície de decisão é uma hipersuperfície que divide o espaço vetorial subjacente em dois conjuntos, um para cada classe. O classificador classificará todos os pontos de um lado do limite de decisão como pertencentes a uma classe e todos os do outro lado como pertencentes à outra classe. Um limite de decisão é a região de um espaço problemático no qual o rótulo de saída de um classificador é ambíguo.
Não há necessidade de um componente de altura para representar graficamente o limite real. Se, por outro lado, você estiver plotando o valor de ativação sigmóide (contínuo com intervalo precisará de um terceiro componente ("altura") para visualizar o gráfico:∈[0,1]),
Se você quiser introduzir um visualização D para a superfície de decisão, verifique este slide em um curso online sobre NN do por Hugo Larochelle , representando a ativação de um neurônio:3
y1=hθ(x)W(Θ)Θ
Juntando vários neurônios, esses hiperplanos de separação podem ser adicionados e subtraídos para acabar com formas caprichosas:
Isso está relacionado ao teorema da aproximação universal .