A satisfação é enorme e eu me deparo muito. Enorme referente à importância / dificuldade / complexidade.
O ponto principal é que, para serviços muito grandes (mecanismos de busca, facebook, linkedin, etc ...), seus usuários são simplesmente uma coleção de linhas de log. Você tem pouca capacidade de solicitar feedback deles (não é necessariamente uma regra rígida e rápida). Então você deve inferir o feedback positivo ou negativo deles na maioria das vezes.
Isso significa encontrar maneiras, mesmo fora da modelagem preditiva, de realmente dizer, a partir de uma coleção de linhas de log, se alguém realmente gostou ou não de algo que experimentou. Esse simples ato é ainda mais fundamental (na minha opinião tendenciosa) do que o teste a / b, já que você está falando sobre métricas que eventualmente acompanhará em um scorecard de teste.
Depois de controlar as boas métricas de SAT, você poderá começar a criar modelos preditivos e experimentar. Mas mesmo decidir que parte da instrumentação de registro pode lhe dizer sobre o SAT não é trivial (e geralmente muda).