Se esse é apenas um caso único, você pode simplesmente treinar novamente a rede neural. Se você frequentemente precisa adicionar novas classes, é uma má idéia. O que você deseja fazer nesses casos é chamado de recuperação de imagem baseada em conteúdo (CBIR), ou simplesmente recuperação de imagem ou pesquisa visual. Vou explicar os dois casos na minha resposta abaixo.
Caso único
Se isso acontecer apenas uma vez - você esqueceu a 11ª classe ou seu cliente mudou de idéia - mas isso não acontecerá novamente , então você pode simplesmente um 11º nó de saída para a última camada. Inicialize os pesos neste nó aleatoriamente, mas use os pesos que você já possui para as outras saídas. Depois, apenas treine-o como de costume. Pode ser útil consertar alguns pesos, ou seja, não treiná-los.
Um caso extremo seria treinar apenas os novos pesos e deixar todos os outros fixos. Mas não tenho certeza se isso funcionará tão bem - pode valer a pena tentar.
Recuperação de imagem baseada em conteúdo
Considere o seguinte exemplo: você está trabalhando para uma loja de CDs, que deseja que seus clientes possam tirar uma foto de uma capa de álbum, e o aplicativo mostra o CD que eles digitalizaram em sua loja online. Nesse caso, você teria que treinar novamente a rede para cada CD novo que eles tiverem na loja. Podem ser 5 novos CDs por dia, portanto, treinar a rede dessa maneira não é adequado.
A solução é treinar uma rede, que mapeia a imagem em um espaço de recurso. Cada imagem será representada por um descritor, que é, por exemplo, um vetor de 256 dimensões. Você pode "classificar" uma imagem calculando esse descritor e comparando-o ao seu banco de dados de descritores (ou seja, os descritores de todos os CDs que você possui em sua loja). O descritor mais próximo no banco de dados vence.
Como você treina uma rede neural para aprender esse vetor descritor? Esse é um campo ativo de pesquisa. Você pode encontrar trabalhos recentes pesquisando palavras-chave como "recuperação de imagem" ou "aprendizado de métricas".
No momento, as pessoas geralmente usam uma rede pré-treinada, por exemplo, o VGG-16, cortam as camadas do FC e usam o convolucional final como seu vetor descritor. Você pode treinar ainda mais essa rede, por exemplo, usando uma rede siamesa com perda de trigêmeos.