O conceito principal que você está perdendo é que você não está apenas minimizando a diferença entre os sinais de entrada e saída. O erro geralmente é calculado a partir de uma segunda entrada. Veja o exemplo da Wikipedia relacionado ao ECG .
Os coeficientes de filtro neste exemplo são recalculados para alterar a frequência de entalhe de um filtro de entalhe de acordo com a frequência extraída do sinal de rede. Pode-se usar um filtro de entalhe estático, mas você teria que rejeitar uma faixa mais ampla de frequências para acomodar a variabilidade na frequência da rede elétrica. O filtro adaptativo segue a frequência da rede elétrica e, portanto, a banda de parada pode ser muito mais estreita, mantendo assim mais informações úteis sobre o ECG.
EDITAR:
Analisei isso novamente e acho que entendi sua pergunta um pouco melhor. O algoritmo LMS precisa de um termo de erro para atualizar os coeficientes do filtro. No exemplo de ECG que parafraseio acima, dou o termo de erro como uma segunda entrada de uma tensão de rede. Agora, suponho que você esteja pensando: "Por que não apenas subtrair o ruído do sinal mais ruído para deixar o sinal?" Isso funcionaria bem em um linear simplessistema. Pior ainda, a maioria dos exemplos fornecidos on-line informa (corretamente, mas de maneira confusa) que o termo do erro é calculado a partir da diferença entre o sinal desejado e a saída do filtro adaptativo. Isso deixa qualquer pessoa razoável pensando "Se você já tem o sinal desejado, por que se preocupar em fazer isso?". Isso pode deixar o leitor sem motivação para ler e compreender as descrições matemáticas dos filtros adaptativos. No entanto, a chave está na seção 18.4 do Digital Signal Processing Handbook , ed. Vijay K. Madisetti e Douglas B. William.
Onde:
- x = sinal de entrada,
- y = saída do filtro,
- W = os coeficientes do filtro,
- d = saída desejada,
- e = erro
Na prática, a quantidade de interesse nem sempre é d. Nosso desejo pode ser representar em ya certo componente de d que está contido em x, ou pode ser isolar um componente de d dentro do erro e que não está contido em x. Como alternativa, podemos estar interessados apenas nos valores dos parâmetros em W e não ter nenhuma preocupação com x, y ou d. Exemplos práticos de cada um desses cenários são fornecidos mais adiante neste capítulo.
Há situações em que d não está disponível o tempo todo. Nessas situações, a adaptação geralmente ocorre apenas quando d está disponível. Quando d está indisponível, normalmente usamos nossas estimativas de parâmetros mais recentes para calcular y em uma tentativa de estimar o sinal de resposta desejado d.
Existem situações do mundo real nas quais d nunca está disponível. Nesses casos, pode-se usar informações adicionais sobre as características de um d "hipotético", como seu comportamento estatístico previsto ou características de amplitude, para formar estimativas adequadas de d a partir dos sinais disponíveis para o filtro adaptativo. Tais métodos são chamados coletivamente de algoritmos de adaptação cega. O fato de tais esquemas funcionarem é uma homenagem tanto à engenhosidade dos desenvolvedores dos algoritmos quanto à maturidade tecnológica do campo de filtragem adaptável.
Continuarei construindo essa resposta quando tiver tempo, na tentativa de melhorar o exemplo do ECG.
Também achei este conjunto de notas de aula particularmente boas: Estimativa adaptativa do processamento avançado de sinais e filtros adaptativos - Danilo Mandic