Eu acho que a confusão vem da maneira como a palavra "observação" é usada algumas vezes. Diga que você queria saber como a expressão de 20.000 genes estava relacionada a alguma variável biológica contínua, como a pressão arterial. Você tem dados sobre a expressão de 20.000 genes e sobre a pressão arterial de 10.000 indivíduos. Você pode pensar que isso envolve 10.000 * 20.001 = 200.010.000 observações. Certamente existem muitos pontos de dados individuais. Mas quando as pessoas dizem que há "mais preditores do que observações" neste caso, eles apenas contam cada pessoa como uma "observação"; uma "observação" é então um vetor de todos os pontos de dados coletados em um único indivíduo. Pode ser menos confuso dizer "casos" do que "observações", mas o uso na prática geralmente tem suposições ocultas como essa.
O problema com mais preditores do que casos (geralmente indicado como "p > n") é que não há solução única para um problema de regressão linear padrão. Se as linhas da matriz de pontos de dados representam casos e as colunas representam preditores, há necessariamente dependências lineares entre as colunas da matriz. Então, uma vez que você encontrou coeficientes para n dos preditores, os coeficientes para os outros ( p - n ) preditores podem ser expressos como combinações lineares arbitrárias dos primeiros npreditores. Outras abordagens, como o LASSO ou a regressão de crista, ou uma variedade de outras abordagens de aprendizado de máquina, fornecem maneiras de proceder nesses casos.