Os artigos que você encontrou me parecem boas referências, eu os li brevemente e certamente desejarei estudá-los completamente, +1 por isso. Mas sua pergunta não parece fazer muito sentido, ou pelo menos não tem uma resposta viável.
O procedimento é extremamente complexo (como você leu os jornais) e é construído em várias camadas de cálculo básico, transformadas de Fourier, engenharia de áudio, processamento de sinais etc. Você não pode entender o procedimento sem entender o teoria.
Também não é humanamente possível, em termos práticos, codificar manualmente um arquivo de áudio manualmente. Você precisa fazer literalmente milhares (provavelmente centenas de milhares, para uma implementação completa em MP3) de operações aritméticas complexas apenas para codificar um único quadro de áudio de, por exemplo, 512 amostras. São apenas 0,01 segundos de música a uma taxa de amostragem de 44,1 KHz.
Talvez você deva direcionar seus esforços de aprendizado para coisas menos avançadas, para começar?