Nas estatísticas, como na mineração de dados, você começa com dados e uma meta. Nas estatísticas, há muito foco na inferência, ou seja, responder a perguntas do nível da população usando uma amostra. Na mineração de dados, o foco geralmente é a previsão: você cria um modelo a partir de sua amostra (dados de treinamento) para prever dados de teste.
O processo em estatística é então:
Explore os dados usando resumos e gráficos - dependendo de como o estatístico orientado por dados, alguns terão mais mente aberta, observando os dados de todos os ângulos, enquanto outros (especialmente cientistas sociais) analisarão os dados através das lentes do questão de interesse (por exemplo, plote especialmente as variáveis de interesse e não outras)
Escolha uma família de modelos estatísticos apropriada (por exemplo, regressão linear para um Y contínuo, regressão logística para um Y binário ou Poisson para dados de contagem) e execute a seleção do modelo
Estimar o modelo final
Suposições do modelo de teste para garantir que elas sejam atendidas razoavelmente (diferente do teste de precisão preditiva na mineração de dados)
Use o modelo para inferência - esta é a etapa principal que difere da mineração de dados. A palavra "valor-p" chega aqui ...
Dê uma olhada em qualquer livro de estatísticas básicas e você encontrará um capítulo sobre Análise Exploratória de Dados, seguido por algumas distribuições (que ajudarão a escolher modelos razoáveis de aproximação), depois inferência (intervalos de confiança e testes de hipóteses) e modelos de regressão.
Eu descrevi para você o processo estatístico clássico. No entanto, tenho muitos problemas com isso. O foco na inferência dominou completamente os campos, enquanto a previsão (que é extremamente importante e útil) foi quase negligenciada. Além disso, se você observar como os cientistas sociais usam a estatística como inferência, descobrirá que eles a usam de maneira bem diferente! Você pode conferir mais sobre isso aqui