Suas perguntas são válidas e o caminho para uma compreensão adequada do que a teoria significa ;-).
Para a questão de quanto mais largura de banda significa uma taxa de bits mais alta, a explicação pode parecer simples, mas ruim ao mesmo tempo.
Aqui está uma explicação "ruim" que parece ok. É um começo para entender por que uma largura de banda maior contém mais dados. Suponha que eu tenha o primeiro número do canal WiFi 1 rodando a 1Mb / s, dadas as condições de energia e codificação. Depois, pego outro canal WiFi número 2, com as mesmas condições de largura de banda, energia e codificação. Também está rodando a 1Mb / s. Quando somamos os dois, dupliquei a largura de banda (dois canais diferentes) e dobre a taxa de transferência de dados (2x1Mb / s).
Se você acha que isso parece uma explicação perfeita, esquece que também dobramos o poder. O mesmo ocorre com o dobro da taxa de transferência de dados devido à energia duplicada ou à largura de banda duplicada. Na verdade, é um pouco dos dois.
Se eu mantiver a energia total igual ao dobrar a largura de banda, preciso comparar um primeiro canal WiFi rodando a 1Mb / s com a soma de dois outros canais WiFi rodando cada um com metade da energia recebida. Não vou verificar as folhas de dados dos modems WiFi, mas seria um exercício interessante para comparar com a seguinte abordagem teórica. Shannon nos ajuda a prever o que acontecerá mais ou menos se a codificação se adaptar aos níveis de energia (que é o caso do WiFi). Se a codificação não se adaptar, a taxa de dados permanecerá constante até que o nível de recepção esteja muito baixo e, em seguida, caia para 0.
Então Shannon diz: C = B ∗ log2 (1 + S / N). Ao manter a potência total, mas duplicar a largura de banda, C2 = 2 * B * log2 (1+ (S / 2) / N) em que C2 é a taxa de dados potencial. Preenchendo números reais, podemos supor que S = 2xN, para que log2 (1 + 2) = 1,58 e log2 (1 + 1) = 1. Então C = B * 1,58 e C2 = B * 2. Em outras palavras, quando meu nível de sinal na maior largura de banda é igual ao nível de ruído, a taxa de dados potencial é cerca de 26% maior que a mesma potência total emitida na metade da largura de banda. Então, teoricamente, a banda ultra estreita não pode ser mais eficiente do que a banda ultra larga com base no teorema de Shannon. E dobrar a largura de banda com o mesmo nível de energia total não dobra a largura de banda, como sugeriu nosso exemplo de WiFi. Mas a largura de banda é maior. Se pudermos negligenciar o termo "1" no log2 da expressão Shannon,
No entanto, como mencionei, a codificação deve se adaptar, deve ser otimizada para a potência e a largura de banda reais disponíveis. Se a codificação permanecer a mesma, eu simplesmente passo de operacional para disfuncional.
Mudando para sua segunda pergunta, se eu tiver um sinal FSK mudando a 30Hz com duas frequências, só posso emitir a 30bps porque estou emitindo 30 símbolos por segundo, cada um correspondendo a um bit de 1 ou 0. Se eu introduzir 4 estados ( = 4 frequências) introduzindo duas frequências entre as anteriores, porque meu nível de ruído permite, então emito a 4x30bps = 120bps. Com o FSK, não acho que a largura de banda permaneça constante ao aumentar o número de estados dessa maneira, mas certamente é possível encontrar uma maneira de mantê-la mais ou menos constante (considerando os limites de 3dB porque o espectro de frequência teórico é ilimitado).
Por que usar uma onda quadrada para o sinal "modulador"? Esta é uma opção nessa codificação que facilita a decodificação, pois no lado do receptor você simplesmente precisa ter um filtro passa-banda para cada frequência. Você ainda está emitindo "ondas senoidais" - se você estiver emitindo apenas valores "1", você terá apenas uma frequência. No entanto, as mudanças de frequência implicam a presença de "harmônicos" que permitem / acompanham essas mudanças de frequência. Outras codificações têm outras vantagens e desvantagens. Por exemplo, o Direct Sequence Spread Spectrum permite ter um sinal abaixo do nível de ruído (e, portanto, possui requisitos de energia da antena mais baixos para uma taxa de bits semelhante em muitas outras codificações), mas é mais difícil decodificar (e, portanto, requer mais energia (computação) e complexidade no circuito de decodificação).
Qualquer que seja a codificação escolhida, ela deve respeitar o teorema de Shannon, que fixa o limite superior. Você não pode apenas aplicar Shannon a uma codificação como FSK se não ajustar o nível de potência, o número de estados e outros parâmetros do sinal FSK, à medida que o nível de ruído ou o nível do sinal (distância) mudam. Shannon permite verificar a potência mínima absoluta para uma determinada largura de banda e taxa de dados. O método de codificação aumentará o limite mínimo de energia. E quando os níveis de energia excederem esse limite, a taxa de bits simplesmente permanecerá constante. A aplicação de Shannon simplesmente está incorreta se você quiser explicar que mais largura de banda significa uma taxa de bits mais alta. O exemplo de WiFi pode muito bem aplicar-se na prática a uma explicação lá, mas não é a resposta geral baseada no teorema de Shannon.
Edit: relendo sua pergunta, "No segundo caso, a taxa de bits será no máximo 660bps". Na verdade, eu não entendo completamente como você chega a 660bps, pois sua frequência muda apenas 30 vezes por segundo e você codifica em duas frequências, que é de 1 bit. Daí meus 30bps acima. Essa codificação permite um período completo a 30Hz e 22 períodos completos a 660Hz para cada símbolo. Mas 22 períodos não muda o fato de que há apenas um símbolo. Parece que algo está faltando ou que o raciocínio está errado.
Edit2: Eu entendi - você está comparando com o limite de nyquist. Esse limite de nyquist indica o limite superior da taxa de dados, dada uma largura de banda e o número de estados por símbolo. Aqui, a codificação FSK selecionada não é ótima. Você está usando 30Hz e 660Hz. O limite de Nyquist diz que 30bps = 2 * B * log2 (2), portanto, a largura de banda deve ser pelo menos B = 15Hz. Sem verificar em detalhes, diz mais ou menos que definir as frequências do FSK para 645Hz e 660Hz seria uma boa otimização da largura de banda (se o FSK for uma codificação ideal e sem verificar a largura de banda exata devido a harmônicos - os 15Hz podem ser muito altos) baixo para FSK).
Editar 3 - Explicação a seguir após uma análise mais aprofundada para explicar melhor a fonte de confusão com outra resposta e pergunta original.
- A fórmula de Nyquist é baseada no teorema da amostragem, indicando que um sinal com largura de banda B é perfeitamente reconstruído a partir de precisamente 2B amostras por segundo.
- Portanto, cada amostra 2B pode representar um símbolo (a intensidade pode determinar qual símbolo).
- Um sinal com largura de banda de 300Hz pode ser reconstruído com 600 símbolos - nem mais nem menos.
- É por isso que existe "aliasing" - a limitação da largura de banda pode fazer com que dois sinais diferentes pareçam os mesmos após a amostragem.
- Se cada símbolo representar apenas 2 estados, apenas 600 bps serão possíveis.
- O FSK de 30Hz a 330Hz pode representar mais de 600 bps, mas é necessário considerar mais de 2 estados por símbolo. Mas não é mais uma desmodulação do FSK, porque não se pode apenas considerar a frequência.