Dicas e truques para começar a modelagem estatística?


10

Eu trabalho no campo de mineração de dados e tive muito pouca escolaridade formal em estatística. Ultimamente, tenho lido muito trabalho focado nos paradigmas bayesianos de aprendizado e mineração, o que acho muito interessante.

Minha pergunta é (em várias partes), dado um problema, existe uma estrutura geral pela qual é possível construir um modelo estatístico? Quais são as primeiras coisas que você faz quando recebe um conjunto de dados do qual deseja modelar o processo subjacente? Existem bons livros / tutoriais por aí que explicam esse processo ou é uma questão de experiência? Há inferência na sua mente ao construir seu modelo ou você pretende primeiro descrever os dados antes de se preocupar em como usá-los para calcular?

Qualquer visão seria muito apreciada! Obrigado.


4
Oi Nick - bem-vindo ao CV. Sua pergunta é muito ampla; você pode ter melhor sorte em obter boas respostas se dividir em perguntas menores (e, ao fazê-lo, poderá descobrir que algumas delas já foram respondidas aqui). No mínimo, você deve marcar sua pergunta como "wiki da comunidade". Isso significa basicamente que, em vez do formato usual de respostas concorrentes, todas as respostas como um todo serão consideradas A resposta.
Matt Parker

11
@ Mat A caixa de seleção CW não aparece mais para uma pergunta. Um mod precisará marcar uma pergunta como CW, conforme necessário.

@ Nick..Eu sou novo também. Eu acho que uma coisa geral e a principal coisa que é preciso manter em mente é como você deseja descrever sua variável de saída ... é contínua, é binária? Porque no final do dia você deseja observar / modelar uma variável de saída. A próxima coisa que eu pensaria é quais são as maneiras possíveis de modelar a variável requerida. As coisas que viriam então é que, se a variável for dicotômica, o procedimento será o modelo de logit. várias questões que encontramos ... espero que isso faça sentido.
ayush Biyani

Respostas:


6

Nas estatísticas, como na mineração de dados, você começa com dados e uma meta. Nas estatísticas, há muito foco na inferência, ou seja, responder a perguntas do nível da população usando uma amostra. Na mineração de dados, o foco geralmente é a previsão: você cria um modelo a partir de sua amostra (dados de treinamento) para prever dados de teste.

O processo em estatística é então:

  1. Explore os dados usando resumos e gráficos - dependendo de como o estatístico orientado por dados, alguns terão mais mente aberta, observando os dados de todos os ângulos, enquanto outros (especialmente cientistas sociais) analisarão os dados através das lentes do questão de interesse (por exemplo, plote especialmente as variáveis ​​de interesse e não outras)

    1. Escolha uma família de modelos estatísticos apropriada (por exemplo, regressão linear para um Y contínuo, regressão logística para um Y binário ou Poisson para dados de contagem) e execute a seleção do modelo

    2. Estimar o modelo final

    3. Suposições do modelo de teste para garantir que elas sejam atendidas razoavelmente (diferente do teste de precisão preditiva na mineração de dados)

    4. Use o modelo para inferência - esta é a etapa principal que difere da mineração de dados. A palavra "valor-p" chega aqui ...

Dê uma olhada em qualquer livro de estatísticas básicas e você encontrará um capítulo sobre Análise Exploratória de Dados, seguido por algumas distribuições (que ajudarão a escolher modelos razoáveis ​​de aproximação), depois inferência (intervalos de confiança e testes de hipóteses) e modelos de regressão.

Eu descrevi para você o processo estatístico clássico. No entanto, tenho muitos problemas com isso. O foco na inferência dominou completamente os campos, enquanto a previsão (que é extremamente importante e útil) foi quase negligenciada. Além disso, se você observar como os cientistas sociais usam a estatística como inferência, descobrirá que eles a usam de maneira bem diferente! Você pode conferir mais sobre isso aqui


2

No que diz respeito aos livros, "The Elements of Statistical Learning" de Hastie, Tibshirani e Friedman é muito bom.

O livro completo está disponível no site dos autores ; você pode dar uma olhada para ver se é adequado às suas necessidades.



Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.