Eu tenho muitos conteúdos de vídeo de palestras para os quais gostaria de ter legendas. O YouTube gera automaticamente legendas para vídeos sob certas condições (essas condições ainda são um mistério para mim).
Eu gostaria de poder usar essa tecnologia de reconhecimento de fala fora do YouTube. Não quero fazer upload de todos os vídeos apenas para obter a transcrição (que consome muito tempo). Além disso, não acho que o YouTube faça isso para vídeos com mais de 30 minutos de duração (a maioria deles). não pense que será o caso de vídeos não públicos listados (o que é um problema, porque é um conteúdo premium que deve ser vendido).
Cenário perfeito: existe um programa que posso executar na minha área de trabalho para extrair a transcrição desses vídeos e é de qualidade igual ou melhor que a do YouTube e possui códigos de tempo semelhantes a um SRT ou XML que o YouTube gera [ Como obter legendas do YouTube ].
Cenário aceitável: existem alguns truques que posso fazer para forçar o YouTube a transcrever os vídeos, seja ele privado ou público, e apesar da duração.
Cenário factível: existe uma biblioteca ou algo que eu possa usar para codificar meu próprio programa. Eu sou bom com C # e tudo bem com C ++ (mas eu realmente prefiro C #).