Se você possui o básico (identificação de valores extremos, valores ausentes, ponderação, codificação), dependendo do tópico, há muito mais na literatura acadêmica simples a ser encontrada. Por exemplo, em pesquisas de pesquisa (que é um tópico em que muitas coisas podem dar errado e propensas a muitas fontes de viés), há muitos bons artigos a serem encontrados.
Ao se preparar para a regressão cruzada regular, as coisas podem ser menos complexas. Problema aí pode, por exemplo, remover muitos 'outliers' e, assim, ajustar artificialmente seu modelo.
Portanto, eu também recomendo que você, além de aprender boas técnicas, também tenha em mente o bom senso. Certifique-se de aplicar as técnicas de maneira correta e não cega. Quanto à discussão do software nas outras respostas. Acho que o SPSS não é ruim para a preparação de dados (eu também ouvi coisas boas sobre o SAS), dependendo do tamanho do seu conjunto de dados. Os menus suspensos são muito intuitivos.
Mas, como resposta direta à sua pergunta, a literatura acadêmica pode ou não ser uma fonte muito boa para a preparação dos dados, dependendo do tópico e da análise.