(Muito) conto
Para encurtar a história, em certo sentido, as estatísticas são como qualquer outro campo técnico: não há caminho rápido .
Longa história
Os programas de bacharelado em estatística são relativamente raros nos EUA. Uma razão pela qual acredito que isso é verdade é que é muito difícil incluir tudo o que é necessário para aprender estatística em um currículo de graduação. Isso é particularmente verdadeiro em universidades que possuem requisitos significativos de educação geral.
Desenvolver as habilidades necessárias (matemáticas, computacionais e intuitivas) exige muito esforço e tempo. As estatísticas podem começar a ser entendidas em um nível "operacional" bastante decente, uma vez que o aluno domina o cálculo e uma quantidade decente de álgebra linear e matricial. No entanto, qualquer estatístico aplicado sabe que é muito fácil encontrar-se em território que não está de acordo com uma abordagem estatística de receitas ou com base em receitas ou bolachas. Para realmente entender o que está acontecendo abaixo da superfície, é necessário como pré - requisitomaturidade matemática e, no mundo de hoje, maturidade computacional que só são realmente atingíveis nos anos posteriores da graduação. Esta é uma das razões pelas quais o verdadeiro treinamento estatístico começa principalmente no nível do MS nos EUA (a Índia, com seu ISI dedicado, é uma história um pouco diferente. Um argumento semelhante pode ser feito para alguma educação baseada no Canadá. Não estou familiarizado o suficiente com Ensino de estatística de graduação na Europa ou na Rússia para ter uma opinião informada.)
Quase qualquer trabalho (interessante) exigiria uma educação de nível de MS e os trabalhos realmente interessantes (na minha opinião) exigiriam essencialmente uma educação de nível de doutorado.
Visto que você tem um doutorado em matemática, apesar de não sabermos em que área, aqui estão minhas sugestões para algo mais próximo de uma educação em nível de MS. Incluo algumas observações entre parênteses para explicar as escolhas.
- D. Huff, Como mentir com as estatísticas . (Leitura muito rápida e fácil. Mostra muitas das idéias e armadilhas conceituais, em particular, na apresentação de estatísticas ao leigo.)
- Mood, Graybill e Boes, Introdução à Teoria da Estatística , 3ª ed., 1974. (Introdução ao nível do MS às estatísticas teóricas. Você aprenderá sobre distribuições de amostras, estimativa de pontos e teste de hipóteses em uma estrutura clássica e freqüentadora. a opinião é de que isso geralmente é melhor e um pouco mais avançado do que as contrapartes modernas, como Casella & Berger ou Rice.)
- Seber & Lee, Linear Regression Analysis , 2a ed. (Estabelece a teoria por trás da estimação de pontos e teste de hipóteses para modelos lineares, que provavelmente é o tópico mais importante a ser entendido em estatística aplicada. Como você provavelmente tem um bom histórico de álgebra linear, deve entender imediatamente o que está acontecendo geometricamente , que fornece muita intuição. Também possui boas informações relacionadas a problemas de avaliação na seleção de modelos, desvios de premissas, previsões e versões robustas de modelos lineares.)
- Hastie, Tibshirani e Friedman, Elements of Statistical Learning , 2ª ed., 2009. (Este livro tem um sentimento muito mais aplicado do que o anterior e abrange amplamente muitos tópicos modernos de aprendizado de máquina. A principal contribuição aqui é fornecer interpretações estatísticas de muitas idéias de aprendizado de máquina, que compensa particularmente em quantificar a incerteza em tais modelos. Isso é algo que tende a não ser abordado em livros típicos de aprendizado de máquina. Legalmente disponível aqui gratuitamente .)
- A. Agresti, Categorical Data Analysis , 2a ed. (Boa apresentação de como lidar com dados discretos em uma estrutura estatística. Boa teoria e bons exemplos práticos. Talvez do lado tradicional em alguns aspectos.)
- Boyd & Vandenberghe, Otimização Convexa . (Muitos dos mais populares problemas modernos de estimativa estatística e teste de hipóteses podem ser formulados como problemas de otimização convexos. Isso também vale para inúmeras técnicas de aprendizado de máquina, por exemplo, SVMs. Ter um entendimento mais amplo e a capacidade de reconhecer problemas como programas convexos é bastante valioso, eu acho. Legalmente disponível gratuitamente aqui .)
- Efron & Tibshirani, Uma Introdução ao Bootstrap . (Você deve pelo menos estar familiarizado com a inicialização e as técnicas relacionadas. Para um livro, é uma leitura rápida e fácil.)
- J. Liu, Estratégias de Monte Carlo em Computação Científica ou P. Glasserman, Métodos de Monte Carlo em Engenharia Financeira . (O último parece muito direcionado a uma área de aplicação específica, mas acho que dará uma boa visão geral e exemplos práticos de todas as técnicas mais importantes. As aplicações de engenharia financeira impulsionaram uma boa quantidade de pesquisas em Monte Carlo na última década. .)
- E. Tufte, a exibição visual de informações quantitativas . (A boa visualização e apresentação dos dados é [altamente] subestimada, mesmo pelos estatísticos.)
- J. Tukey, Análise Exploratória de Dados . (Padrão. Oldie, mas goodie. Alguns podem dizer desatualizado, mas ainda vale a pena dar uma olhada.)
Complementos
Aqui estão alguns outros livros, principalmente de natureza um pouco mais avançada, teórica e / ou auxiliar, que são úteis.
- FA Graybill, Teoria e Aplicação do Modelo Linear . (À moda antiga, péssima tipografia, mas abrange todo o mesmo terreno de Seber & Lee e mais. Digo antiquado, porque tratamentos mais modernos provavelmente tenderiam a usar o SVD para unificar e simplificar muitas técnicas e provas.)
- FA Graybill, matrizes com aplicações em estatística . (Texto complementar para o acima. Uma grande quantidade de bons resultados de álgebra matricial é útil para estatísticas aqui. Ótima referência de mesa.)
- Devroye, Gyorfi e Lugosi, uma teoria probabilística do reconhecimento de padrões . (Texto rigoroso e teórico sobre quantificação de desempenho em problemas de classificação.)
- Brockwell & Davis, Série Temporal: Teoria e Métodos . (Análise clássica de séries temporais. Tratamento teórico. Para os mais aplicados, os textos de Box, Jenkins & Reinsel ou Ruey Tsay são decentes.)
- Motwani e Raghavan, algoritmos aleatórios . (Métodos probabilísticos e análise de algoritmos computacionais.)
- D. Williams, Probabilidade e Martingales e / ou R. Durrett, Probabilidade: Teoria e Exemplos . (Caso você tenha visto a teoria da medida, digamos, no nível de DL Cohn, mas talvez não a teoria da probabilidade. Ambos são bons para acelerar rapidamente se você já conhece a teoria da medida.)
- F. Harrell, Estratégias de Modelagem de Regressão . (Não é tão bom quanto o Elements of Statistical Learning [ESL], mas tem uma abordagem diferente e interessante. Abrange mais tópicos de estatística aplicada "tradicionais" do que a ESL e, portanto, vale a pena conhecer, com certeza.)
Textos mais avançados (nível de doutorado)
Lehmann e Casella, Teoria da Estimativa de Pontos . (Tratamento de estimativa de pontos no nível de doutorado. Parte do desafio deste livro é lê-lo e descobrir o que é um erro de digitação e o que não é. Quando você se vê reconhecendo-os rapidamente, saberá que entende. Há muita prática desse tipo, especialmente se você se aprofundar nos problemas.)
Lehmann e Romano, testando hipóteses estatísticas . (Tratamento em nível de doutorado de teste de hipóteses. Não há tantos erros de digitação quanto o TPE acima.)
A. van der Vaart, Estatística Assintótica . (Um belo livro sobre a teoria assintótica da estatística com boas dicas sobre áreas de aplicação. Embora não seja um livro aplicado. Minha única dúvida é que alguma notação bastante bizarra é usada e, às vezes, os detalhes são escovados sob o tapete.)