Talvez um caso mais simples torne as coisas mais claras. Digamos que escolhemos uma amostra de 1x2 de pixels em vez de 100x100.
Pixels de exemplo da imagem
+----+----+
| x1 | x2 |
+----+----+
Imagine ao plotar nosso conjunto de treinamento, percebemos que ele não pode ser separado facilmente com um modelo linear; portanto, optamos por adicionar termos polinomiais para melhor ajustar os dados.
Digamos que decidimos construir nossos polinômios incluindo todas as intensidades de pixel e todos os múltiplos possíveis que podem ser formados a partir deles.
Como nossa matriz é pequena, vamos enumerá-las:
x1, x 2, x 21, x 22, x 1× x2, x 2× x1
A interpretação da sequência de recursos acima pode ver que existe um padrão. Os dois primeiros termos, grupo 1, são recursos que consistem apenas na intensidade de pixels. Os dois termos a seguir, grupo 2, são características que consistem no quadrado de sua intensidade. Os dois últimos termos, grupo 3, são o produto de todas as combinações de intensidades em pares (dois) de pixels.
grupo 1:x1, x 2
grupo 2:x21, x 22
grupo 3:x1× x2, x 2× x1
Mas espere, há um problema. Se você observar os termos do grupo 3 na sequência ( e ), notará que eles são iguais. Lembre-se do nosso exemplo de moradia. Imagine ter dois recursos x1 = metragem quadrada e x2 = metragem quadrada, para a mesma casa ... Isso não faz nenhum sentido! Ok, então precisamos nos livrar do recurso duplicado, digamos arbitrariamente . Agora podemos reescrever a lista de recursos do grupo três como:x 2 ×x1× x2x 2 × x 1x2× x1x2× x1
grupo 3:x1× x2
Contamos os recursos nos três grupos e obtemos 5.
Mas este é um exemplo de brinquedo. Vamos derivar uma fórmula genérica para calcular o número de recursos. Vamos usar nossos grupos originais de recursos como ponto de partida.
s i ze gr o u p 1 + s i ze gr o u p 2 + s i ze gr o u p 3 = m x n + m x n + m × n = 3 × m × n
Ah! Mas tivemos que nos livrar do produto duplicado no grupo 3.
Portanto, para contar adequadamente os recursos do grupo 3, precisaremos de uma maneira de contar todos os produtos exclusivos em pares na matriz. O que pode ser feito com o coeficiente binomial, que é um método para contar todos os possíveis subgrupos exclusivos de tamanho k de um grupo igual ou maior de tamanho n. Portanto, para contar adequadamente os recursos do grupo 3, calcule .C( m × n , 2 )
Portanto, nossa fórmula genérica seria:
m × n + m × n + C( m × n , 2 ) = 2 m × n + C( m × n , 2 )
Vamos usá-lo para calcular o número de recursos em nosso exemplo de brinquedo:
2 × 1 × 2 + C( 1 × 2 , 2 ) = 4 + 1 = 5
É isso aí!