Esta é uma situação simples; vamos continuar assim. A chave é se concentrar no que importa:
Obtendo uma descrição útil dos dados.
Avaliando desvios individuais dessa descrição.
Avaliando o possível papel e influência do acaso na interpretação.
Manutenção da integridade e transparência intelectual.
Ainda existem muitas opções e muitas formas de análise serão válidas e eficazes. Vamos ilustrar uma abordagem aqui que pode ser recomendada por sua aderência a esses princípios fundamentais.
Para manter a integridade, vamos dividir os dados em duas partes: as observações de 1972 a 1990 e as de 1991 a 2009 (19 anos em cada). Ajustaremos os modelos ao primeiro semestre e, em seguida, veremos como os ajustes funcionam na projeção do segundo semestre. Isso tem a vantagem adicional de detectar alterações significativas que podem ter ocorrido durante o segundo semestre.
Para obter uma descrição útil, precisamos (a) encontrar uma maneira de medir as mudanças e (b) ajustar o modelo mais simples possível apropriado para essas mudanças, avaliá-lo e ajustar iterativamente os mais complexos para acomodar desvios dos modelos simples.
(a) Você tem muitas opções: pode ver os dados brutos; você pode ver as diferenças anuais deles; você pode fazer o mesmo com os logaritmos (para avaliar alterações relativas); você pode avaliar anos de vida perdidos ou expectativa de vida relativa (RLE); ou muitas outras coisas. Após algumas considerações, decidi considerar o RLE, definido como a razão da expectativa de vida na Coorte B em relação à coorte A. (de referência). Felizmente, como mostram os gráficos, a expectativa de vida na Coorte A está aumentando regularmente em um estado estável. moda ao longo do tempo, de modo que a maior parte da variação aleatória no RLE se deva a alterações na Coorte B.
(b) O modelo mais simples possível para começar é uma tendência linear. Vamos ver como isso funciona.
Os pontos azuis escuros neste gráfico são os dados retidos para ajuste; os pontos dourados claros são os dados subsequentes, não utilizados para o ajuste. A linha preta é a mais adequada, com uma inclinação de 0,009 / ano. As linhas tracejadas são intervalos de previsão para valores futuros individuais.
No geral, o ajuste parece bom: o exame de resíduos (veja abaixo) não mostra mudanças importantes em seus tamanhos ao longo do tempo (durante o período de dados de 1972-1990). (Há alguma indicação de que eles tendiam a ser maiores no início, quando as expectativas de vida eram baixas. Poderíamos lidar com essa complicação sacrificando alguma simplicidade, mas é improvável que os benefícios para estimar a tendência sejam ótimos.) Há apenas a menor sugestão de correlação serial (exibida por algumas séries de resíduos positivos e séries de resíduos negativos), mas claramente isso não é importante. Não há discrepantes, o que seria indicado por pontos além das faixas de previsão.
A única surpresa é que, em 2001, os valores caíram repentinamente na faixa de previsão mais baixa e permaneceram lá: algo repentino e grande aconteceu e persistiu.
Aqui estão os resíduos, que são os desvios da descrição mencionada anteriormente.
Como queremos comparar os resíduos com 0, as linhas verticais são desenhadas no nível zero como um auxílio visual. Novamente, os pontos azuis mostram os dados usados para o ajuste. Os de ouro claro são os resíduos dos dados que caem perto do limite de previsão mais baixo, após 2000.
A partir desta figura, podemos estimar que o efeito da mudança 2000-2001 foi de cerca de -0,07 . Isso reflete uma queda repentina de 0,07 (7%) de uma vida útil completa na Coorte B. Após essa queda, o padrão horizontal de resíduos mostra que a tendência anterior continuou, mas no novo nível mais baixo. Essa parte da análise deve ser considerada exploratória : não foi planejada especificamente, mas ocorreu devido a uma comparação surpreendente entre os dados retidos (1991-2009) e a adequação ao restante dos dados.
Outra coisa - mesmo usando apenas os 19 anos iniciais de dados, o erro padrão da inclinação é pequeno: é apenas 0,0009, apenas um décimo do valor estimado de 0,009. A estatística t correspondente de 10, com 17 graus de liberdade, é extremamente significativa (o valor de p é menor que ); isto é, podemos ter certeza de que a tendência não se deve ao acaso. Essa é uma parte de nossa avaliação do papel do acaso na análise. As outras partes são os exames dos resíduos.10- 7
Parece não haver razão para ajustar um modelo mais complicado a esses dados, pelo menos não com o objetivo de estimar se há uma tendência genuína no RLE ao longo do tempo: existe um. Poderíamos ir além e dividir os dados em valores anteriores a 2001 e posteriores a 2000, a fim de refinar nossas estimativasdas tendências, mas não seria completamente honesto conduzir testes de hipóteses. Os valores de p seriam artificialmente baixos, porque os testes de divisão não foram planejados com antecedência. Mas como um exercício exploratório, essa estimativa é boa. Aprenda tudo o que puder com seus dados! Apenas tome cuidado para não se enganar com o ajuste excessivo (o que é quase certo de acontecer se você usar mais de meia dúzia de parâmetros ou usar técnicas automatizadas de ajuste) ou bisbilhotagem de dados: fique atento à diferença entre confirmação formal e informal (mas valiosa) exploração de dados.
Vamos resumir:
Selecionando uma medida apropriada da expectativa de vida (RLE), mantendo metade dos dados, ajustando um modelo simples e testando esse modelo com relação aos dados restantes, estabelecemos com alta confiança que : houve uma tendência consistente; esteve próximo de linear durante um longo período de tempo; e houve uma queda súbita e persistente no RLE em 2001.
Nosso modelo é surpreendentemente parcimonioso : requer apenas dois números (uma inclinação e uma interceptação) para descrever os dados antigos com precisão. Precisa de um terço (a data do intervalo, 2001) para descrever uma saída óbvia, mas inesperada, dessa descrição. Não há discrepantes em relação a esta descrição de três parâmetros. O modelo não será substancialmente aprimorado, caracterizando a correlação serial (o foco das técnicas de séries temporais em geral), tentando descrever os pequenos desvios individuais (resíduos) exibidos ou introduzindo ajustes mais complicados (como adicionar um componente de tempo quadrático) ou modelar alterações nos tamanhos dos resíduos ao longo do tempo).
A tendência foi de 0,009 RLE por ano . Isso significa que a cada ano que passa, a expectativa de vida na Coorte B recebe 0,009 (quase 1%) de uma vida útil normal esperada completa. Ao longo do estudo (37 anos), isso equivaleria a 37 * 0,009 = 0,34 = um terço de uma melhoria completa da vida. O revés em 2001 reduziu esse ganho para cerca de 0,28 de uma vida útil completa, de 1972 a 2009 (embora, durante esse período, a expectativa de vida total tenha aumentado 10%).
Embora esse modelo possa ser melhorado, provavelmente precisará de mais parâmetros e é improvável que a melhoria seja ótima (como atesta o comportamento quase aleatório dos resíduos). No geral, devemos nos contentar em chegar a uma descrição tão compacta, útil e simples dos dados para tão pouco trabalho analítico.