Como um perceptron multiclasse pode funcionar?

13

Não tenho formação em matemática, mas entendo como o Perceptron simples funciona e acho que entendo o conceito de um hiperplano (imagino-o geometricamente como um plano no espaço 3D que separa duas nuvens de pontos, assim como uma linha separa nuvens de dois pontos no espaço 2D).

Mas não entendo como um plano ou uma linha poderia separar três nuvens de pontos diferentes no espaço 3D ou no espaço 2D, respectivamente - isso não é possível geometricamente, é?

Tentei entender a seção correspondente no artigo da Wikipedia , mas já falhei miseravelmente na frase "Aqui, a entrada xe a saída y são extraídas de conjuntos arbitrários". Alguém poderia me explicar o perceptron multiclasse e como ele se relaciona com a idéia do hiperplano, ou talvez me indique uma explicação não tão matemática?

— wnstnsmth
fonte

8

Suponha que temos dados que são vetores de entrada e são as classificações. $(x_1, y_1), \dots, (x_k,y_k)$ $x_i \in \mathbb{R}^n$ $y_i \in \{\text{red, blue, green} \}$

Sabemos como criar um classificador para resultados binários, e fazemos isso três vezes: agrupe os resultados , e . $\{\text{red, blue or green} \}$ $\{\text{blue, red or green} \}$ $\{\text{green, blue or red} \}$

Cada modelo assume a forma de uma função , chame-os de respectivamente. Isso leva um vetor de entrada para a distância sinalizada do hiperplano associado a cada modelo, onde a distância positiva corresponde a uma previsão de azul se , vermelho se e verde se $f: \mathbb{R}^n \to \mathbb{R}$ $f_R, f_B, f_G$ $f_B$ $f_R$ $f_G$ . Basicamente, quanto mais positivo é, mais o modelo pensa que $f_G(x)$ $x$ é verde e vice-versa. Não precisamos que o resultado seja uma probabilidade, apenas precisamos medir a confiança do modelo.

Dada uma entrada , nós a classificamos de acordo com , portanto, se é o maior entre $x$ $\text{argmax}_{c} \ f_c(x)$ $f_G(x)$ que faria prever verde para . $\{f_G(x), f_B(x), f_R(x) \}$ $x$

Essa estratégia é chamada "one vs all", e você pode ler sobre isso aqui .

— Harri
fonte

3

Não consigo entender esse artigo da Wiki. Aqui está uma facada alternativa para explicá-lo.

Um perceptron com um nó de saída logístico é uma rede de classificação para 2 classes. Ele gera , a probabilidade de estar em uma das classes, com a probabilidade de estar na outra simplesmente $p$ . $1 - p$

Um perceptron com dois nós de saída é uma rede de classificação para 3 classes. Os dois nós produzem a probabilidade de estar em uma classe , e a probabilidade de estar na terceira classe é $p_i$ . $1 - \sum_{i=(1,2)} p_i$

E assim por diante; um perceptron com nós de saída é um classificador para classes. De fato, se não houver camada oculta, esse perceptron é basicamente o mesmo que um modelo de regressão logística multinomial , assim como um perceptron simples é o mesmo que uma regressão logística. $m$ $m + 1$

— Hong Ooi
fonte

Tem certeza de que a saída é uma probabilidade real? De qualquer forma, não sei como funciona a regressão logística multinomial, então terei que investigar isso. Mas não existe uma maneira (algorítmica) de explicar como um perceptron com dois ou mais nós de saída é construído? Eles estão acorrentados de alguma forma?

— wnstnsmth