RFC 3066 fornece os detalhes dos valores permitidos (ênfase e links adicionados):
Todas as subetiquetas de 2 letras são interpretadas como códigos de país ISO 3166 alfa-2 de [ISO 3166] , ou posteriormente atribuídas pela agência de manutenção ISO 3166 ou órgãos de padronização governantes, denotando a área à qual essa variante de idioma se refere.
Eu interpreto isso como significando que qualquer código de 2 letras válido (de acordo com a ISO 3166) é válido como uma subetiqueta. O RFC prossegue afirmando:
As marcas com segundas subetiquetas de 3 a 8 letras podem ser registradas na IANA, de acordo com as regras do capítulo 5 deste documento.
A propósito, isso parece um erro de digitação, já que o capítulo 3 parece estar relacionado ao processo de registro, não o capítulo 5.
Uma busca rápida pelo registro da IANA revela uma lista muito longa de todas as subetiquetas de idioma disponíveis. Aqui está um exemplo da lista (que seria usado como en-scouse
):
Tipo: variante
Subtag: scouse
Descrição: Scouse
Adicionado: 18/09/2006
Prefixo: en
Comentários: dialeto inglês de Liverpudlian conhecido como 'Scouse'
Existem todos os tipos de subtags disponíveis; um rápido pergaminho já revelou fr-1694acad
(francês do século 17).
A utilidade de algumas dessas tags (eu diria que a grande maioria delas), quando se trata de documentos projetados para exibição no navegador, é limitada. A especificação de internacionalização do W3C simplesmente afirma:
Navegadores e outros aplicativos podem usar informações sobre o idioma do conteúdo para fornecer aos usuários as informações mais adequadas ou para apresentar as informações aos usuários da maneira mais apropriada. Quanto mais conteúdo for marcado e marcado corretamente, mais úteis e difundidos esses aplicativos se tornarão.
Estou lutando para encontrar informações detalhadas sobre como os navegadores se comportam ao encontrar tags de idiomas diferentes, mas eles provavelmente vão oferecer algum benefício aos usuários que usam um leitor de tela, que pode usar a tag para determinar o idioma / dialeto / sotaque no qual apresentar o conteúdo.