O livro de referência para estatísticas com R - existe e o que deve conter?


25

fundo

Há muita discussão em torno disso, então pensei em encontrar minha resposta de etapas anteriores no StackExchange e pesquisando furiosamente no Google. Depois de usar meio dia tentando encontrar apenas um livro de referência para (bio) estatísticas com R, fiquei completamente confuso e tive que desistir. Talvez o material gratuito combinado seja realmente melhor do que qualquer um dos livros que você pode comprar no momento. Vamos descobrir.

A internet está cheia de boa literatura gratuita para a linguagem R , então não faz sentido pagar por um livro medíocre, que acaba sendo usado como decoração de escritório na maioria das vezes. O site inicial do R lista os livros relacionados ao R e existem muitos. Para ser mais exato: 115. Apenas um deles é anunciado com as palavras " livro de referência de estatísticas independente ". Agora tem 8 anos e pode estar desatualizado. A quarta edição do Modern Applied Statistics with S é ainda mais antiga. O R Book é frequentemente considerado muito básico e não é recomendado por falta de referências, código mal formatado e acabamento superficial.

No entanto, estou procurando um livro , que possa ser usado como referência independente de estatística prática (em primeiro lugar) com R (secundário). O livro deve estar na minha mesa de escritório coletando anotações, manchas de café e impressões digitais oleosas em vez de poeira na estante de livros. Ele deve substituir a coleção de pdf grátis que eu tenho usado até agora, sem esquecer que o R vem com uma excelente biblioteca de referência. “ Qual é a abordagem correta? ”,“ Por quê? "e" tecnicamente, como isso funciona? "são muitas vezes perguntas mais graves do que" como fazer isso com o R? "

Como sou ecologista, estou interessado principalmente em aplicações em bioestatística. No entanto, como essas coisas geralmente estão conectadas, uma referência geral interdisciplinar seria a mais valiosa para mim.

A tarefa

Se esse livro existir (duvido), forneça o nome do livro (apenas um por resposta) e uma breve resenha do livro explicando por que deve ser nomeado como livro de referência para o tópico. Como esta pergunta não é muito diferente das existentes, use este passo para sua resposta. Você também pode listar as falhas do livro para que possamos listá-las como os recursos do livro de referência ideal.

Minha pergunta é o que deve conter o livro de referência para estatísticas (dos tipos mais usados) com R?

Alguns pensamentos iniciais estão seguindo os recursos gerais (por favor, atualize):

  • Grosso como um tijolo
  • Conciso, mas compreensível
  • Preenchido com figuras (com o código R fornecido)
  • Tabelas e diagramas fáceis de entender que descrevem os detalhes mais importantes do texto
  • Texto descritivo e fácil de entender sobre as estatísticas / métodos que contêm as equações mais importantes.
  • Bons exemplos para cada abordagem (com código R)
  • Lista ampla e atualizada de referências
  • Número mínimo de erros de digitação

Índice

Como não sou estatístico e preciso desse livro (não existente?) Para responder à pergunta, é difícil escrever sobre o conteúdo. Como o R Book claramente pretende ser o livro de referência para estatísticas com R, mas muitas vezes é criticado, copiei o índice do livro como ponto de partida para o índice do livro de referência independente de estatísticas R. Tarefa adicional: forneça adições, sugestões, exclusões, etc. para o índice.

  1. Começando
  2. Fundamentos da linguagem R
  3. Entrada de dados
  4. Dataframes
  5. Gráficos
  6. Tabelas
  7. Matemática
  8. Testes Clássicos
  9. Modelagem Estatística
  10. Regressão
  11. Análise de variação
  12. Análise de Covariância
  13. Modelos lineares generalizados
  14. Contar dados
  15. Contar dados em tabelas
  16. Dados de proporção
  17. Variáveis ​​de resposta binária
  18. Modelos Aditivos Generalizados
  19. Modelos de efeitos mistos
  20. Regressão não linear
  21. Modelos em Árvore
  22. Análise de Séries Temporais
  23. Estatísticas multivariadas
  24. Estatísticas Espaciais
  25. Análise de Sobrevivência
  26. Modelos de simulação
  27. Alterando a aparência dos gráficos
  28. Referências e leituras adicionais
  29. Índice

O que foi dito anteriormente?

O StackExhange contém vários passos solicitando estatísticas e sugestões de livros R. Os livros para aprender a língua R perguntam sobre um livro de referência que aprende a linguagem R sem aspecto estatístico. A Art of R Programming é classificada como a melhor sugestão individual. Livro para aprender estatística usando R pede um livro introdutório ideal para estatísticas, o que não é realmente a mesma coisa que um livro de referência. Os livros de estatística de código aberto classificam as estatísticas multivariadas com R como a melhor alternativa. Que livro você recomendaria para cientistas não estatísticos? pergunta sobre o melhor livro de referência estatística sem especificar o programa de sua escolha.Referência ou livro sobre simulação de dados de projetos experimentais nas pontuações R talvez mais próximos da minha pergunta. Introdução à programação científica e simulação Usando R é o livro mais recomendado aqui e pode estar próximo do que estou procurando. No entanto, este livro não será suficiente como um único livro de referência para estatísticas com R.

Algumas sugestões para o livro de referência e suas falhas

O R in Action recebeu críticas melhores que o The R Book, mas é aparentemente bastante introdutório .

Projeto e análise bioestatística usando R: um guia prático talvez esteja próximo do que estou procurando. Ele recebeu uma boa crítica , mas aparentemente também contém muitos erros de digitação. Além disso, este livro não se concentra em explicar estatísticas, mas fornece análises estatísticas como receitas prontas para uso dos pesquisadores.

Modelos ecológicos e dados em R pula o nível introdutório. Esse é um recurso muito útil, visto que a palavra "introdução" tem 43 ocorrências na lista de livros do R , mas talvez não seja totalmente satisfatória, se estivermos atrás do livro de referência para estatísticas ...?

Introdução à Programação Científica e Simulação O uso de R recebeu uma revisão muito positiva , mas está limitada à simulação de dados.

Richiemorrisroe sugere que a Estatística Moderna Aplicada com S é suficiente para um livro de referência independente com R. Este livro recebeu excelentes críticas ( 1 , 2 ) e é provavelmente o melhor candidato ao título no momento? A versão mais recente foi lançada há 10 anos, o que leva bastante tempo considerando o desenvolvimento do programa.

Dimitriy V. Masterov sugere Análise de Dados Utilizando Modelos de Regressão e Multinível / Hierárquico . Ainda não consultou este livro.


Depois de ler muitas resenhas, parece aparente que o livro perfeito solicitado aqui ainda não existe. No entanto, talvez seja possível escolher um que esteja bem próximo. Este passo pretende ser um wiki da comunidade para usuários de estatística encontrarem o melhor livro de referência existente e uma motivação para os escritores de livros novos e antigos melhorarem seu trabalho.


3
(+1) pela boa revisão! No entanto, parece que você respondeu a sua própria pergunta dentro de sua própria pergunta ...
Ocram

11
Se você gastou tanto tempo tentando descobrir isso, elaborando uma lista longa e até mesmo um esboço de um livro desse tipo, pode ser que você deva escrever um. Essa é uma recomendação que costumo dar nas listas de estatística e econometria quando alguém pede um bom artigo de revisão sobre [BLAH] e discute o que eles não gostam nos cinco ou dez artigos de revisão existentes - escreva seu próprio artigo.
StasK

Respostas:


12

Pessoalmente, pensei que as Estatísticas Aplicadas Modernas com S-Plus marcam todas as caixas que você descreveu. Todo exemplo tem código R, eles dão boas referências a outras fontes, e Venables e Ripley têm um estilo de escrita maravilhosamente conciso e explicativo, que eu realmente apreciei. Costumo reler o livro de vez em quando e cada vez mais aproveito isso. Claro, sua milhagem pode variar.


2
Concordo. Eu tenho muitos livros de estatística baseados em R, e o MASS4 é provavelmente o mais próximo do que você está procurando, mas em alguns lugares "conciso" torna-se inacreditavelmente conciso e requer mais conhecimento estatístico do que eu. Dito isto, eu tenho o livro há quase 10 anos e continuo voltando a ele e aprendendo coisas novas. Eu não deixaria sua idade adiar você. Oh, e agora estou fazendo um phd estatísticas :-)
Sean

Também volto e volto ao MASS, que soa como preferência revelada por ele como um livro de referência.
Peter Ellis

A versão de 1998 do MASS é muito diferente da de 2003? Pensando se a diferença de conteúdo é suficiente para gastar cerca de £ 50 a mais por isso.
conjectura

6

Obrigado por uma pergunta tão boa e especialmente compilando todas essas informações. Infelizmente, o livro que você está descrevendo não existe e, para ser sincero, não poderia existir. Se o que você deseja principalmente é um livro de referência para estatísticas, eu começaria com um livro realmente bom sobre modelos lineares. Minha recomendação é Kutner e cols., ele atende aos critérios de ser maior que um tijolo, tanto em volume quanto em massa, é muito abrangente, claro e com muitos exemplos. De fato, se você eliminar o requisito de R, ele marca quase toda a sua lista. Refiro-me a ele com frequência. No entanto, em ~ 1500 páginas, ele abrange apenas modelos lineares - regressão e ANOVA -, existem alguns capítulos breves sobre alguns outros tópicos, mas você realmente deseja outros livros para isso. Em seguida, obteria um livro de referência estatística de alto nível, no nível apropriado para você, para quaisquer outras técnicas com as quais você precise trabalhar (por exemplo, análise de sobrevivência, análise espacial, etc.). Se esses livros não usam R como exemplo, convém obter um livro específico de R, como um dos use-R! livros, mas entre a documentação, as vinhetas, as listas de discussão R-help, StackOverflow e CV, talvez você não precise. Se você deseja aprender a programar da maneira correta, também deve adquirir um desses livros. Neste ponto, você tem pelo menos 4 livros. Sinto muito, mas é assim que é. Ninguém que trabalha extensivamente com estatística tem apenas um livro que cobre tudo.


5

Não acho que exista um livro como esse. O livro que eu acho que mais se aproxima é Análise de Dados de Gelman e Hill Usando Regressão e Modelos Hierárquicos e Multiníveis .

Contras:

  • Tem ~ 5 anos e é destinado a cientistas sociais.

  • Ele não possui tudo em sua lista de sumário (nada espacial, basicamente nada em séries temporais etc.)

Prós:

  • Bem escrito

  • Tem uma lista de erratas e um sumário no link

  • Ele abrange itens importantes, como dados ausentes, que não estão na sua lista numerada.

  • Ele atinge a maioria dos itens da sua lista de marcadores.

  • Muitos gráficos e código R (alguns códigos de bugs para o nível múltiplo).

  • Todos os dados / códigos estão disponíveis para download.


4

Estou trabalhando no Elements for Statistical Learning . Este livro abrange uma incrível variedade de técnicas (o mesmo acontece com mais de 700 páginas), mas cada abordagem é explicada claramente de uma maneira muito prática, e não altamente teórica. Ele não contém explicitamente nada sobre o R, no entanto, os gráficos e as plotagens são claramente feitos com o R e existem pacotes no CRAN para todos os tópicos discutidos. Todos os autores estiveram envolvidos com o desenvolvimento de R (bem como uma boa parte das técnicas modernas de aprendizado de máquina).


2
Há ainda um pacote de R para esse livro: ElemStatLearn :-)
chl

3

Concordei com a resposta atualmente mais votada de que o MASS4 se encaixava muito bem na solicitação e tem a mesma experiência que outro respondente com dificuldade em atender ao requisito de um nível razoavelmente alto de sofisticação estatística. O MASS3 foi de fato meu primeiro "Rbook" e me serviu bastante bem nessa capacidade. Comprei "The R Book", de Crawley, e achei insatisfatório tanto para uma descrição imprecisa da linguagem R quanto para ser pouco mais do que um conjunto de exemplos trabalhados que pareciam não ter profundidade da teoria estatística.

No entanto, com o passar do tempo, achei as "Estratégias de Modelagem de Regressão" (RMS) de Harrell mais adequadas para o foco "bioestatístico" dessa questão, além de ter boa profundidade. Não é um texto introdutório sobre R. Para isso, é preciso procurar em outro lugar e para isso eu recomendo um dos artigos sobre Introdução à Programação Científica e Simulação Usando R [ http://www.crcpress.com/product/isbn/9781420068726] ou (apesar de seu nome) "R for Dummies", escrito por alguns colaboradores de longa data para as tags de postagem R do StackOverflow. Eu só tenho o RMS em sua primeira edição, quando ele estava mais focado em S, mas, desde então, Harrell passou para o R e suporta totalmente orms/HmiscR pacote duo. Acredito que satisfaça a sugestão de @ gung para cobertura de especialidade em vários dos domínios listados, embora não seja para análise espacial ou modelos mistos.


11
Eu recomendo o RMS e o MASS. Não sou bioestatístico, mas a maioria dos conselhos de Harrell é útil de maneira muito mais geral. Costumo pedir aos estudantes de pesquisa em potencial que leiam Harrell, ou pelo menos o capítulo 4, e depois recomendo MASS como um bom livro geral para garantir que eles tenham familiaridade.
Glen_b -Reinstala Monica

Para o auto-estudo geral, nomeio "Estatística Teórica" ​​de Cox e Hinkleys e o volume 2 de Feller "Introdução à Teoria da Probabilidade". Mas isso obviamente não está abordando a parte R desta questão.
DWin

[Os alunos que eu supervisiono estão em áreas fora das estatísticas, mesmo que o trabalho deles envolva muito disso ... MASS e RMS são mais úteis para eles do que Cox e Hinkley e Feller Vol 2, embora ambos - junto com Kendall e Stuart - foram muito valiosos para meu próprio histórico]
Glen_b -Reinstate Monica 16/02/15

2

Se você deseja traduzir ... (este é um livro complementar de um livro teórico de 4.900 páginas):

Big R Book

Este livro (do qual sou coautor) é uma compilação de 15 anos de experiência em consultoria e ensino nos níveis de graduação e pós-graduação e mostra apenas exemplos de material R para os quais os detalhes de matemática (provas) são dados em minhas 4.900 páginas livros complementares em que os cálculos também são feitos manualmente com valores numéricos (+500 páginas que estarão disponíveis na próxima edição). Este livro também oferece a possibilidade de verificar se o software fornece os valores corretos e é muito mais divertido do que fazer cálculos manualmente ou no MS Excel sobre assuntos que normalmente são ministrados em cursos de pós-graduação em escolas europeias. O objetivo deste livro também é mostrar que você pode usar 1 software em vez de muitos para os mesmos resultados sem custo (em vez de usar JMP + Minitab + SPSS + SAS + MATLAB juntos). Este livro também mostra os pontos fracos do R (manutenção de pacotes não garantida). É também um compêndio de perguntas altamente valiosas em vários fóruns e blogs de R. É grátis e colorido!


11
Você também poderia fornecer a "breve revisão" solicitada? Por que você está recomendando este livro? Quais são as coisas boas (e ruins) sobre isso?
whuber

Eu sou um dos co-auhtor ... não muito neutro para uma breve revisão ...
Vincent ISOZ

11
Tudo bem - ficaríamos gratos em ouvir de você quais são os pontos fortes do seu livro ou uma caracterização de quem se beneficiaria dele. Ao divulgar sua conexão com o livro (que é essencial ), você permite que os leitores levem isso em conta ao avaliar o que você diz. Suspeito que muitos leitores entendam que você está intimamente familiarizado com este livro e apreciariam o que você diz. Sem fornecer algum tipo de revisão, sua resposta teria que ser relegada a um mero comentário que receberia relativamente pouca atenção.
whuber
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.