Eu pensei que tinha encontrado um site e referência que lida exatamente com esta pergunta:
http://www.graphpad.com/faq/viewfaq.cfm?faq=1226
Comece em "Os dois métodos comparados".
O site faz referência ao artigo de Berstein que está vinculado (acima):
http://www.jstor.org/stable/2530564?seq=1
O site resume muito bem os resultados de Berstein e cols.
Os dois geralmente dão resultados idênticos (ou quase idênticos). Mas os resultados podem diferir quando vários indivíduos morrem ao mesmo tempo ou quando a taxa de risco está longe de 1,0.
Bernsetin e colegas analisaram dados simulados com os dois métodos (1). Em todas as suas simulações, a suposição de riscos proporcionais era verdadeira. Os dois métodos deram valores muito semelhantes. O método logrank (ao qual eles se referem como o método O / E) relata valores mais próximos de 1,0 do que a verdadeira taxa de risco, especialmente quando a taxa de risco é grande ou o tamanho da amostra é grande.
Quando existem laços, ambos os métodos são menos precisos. Os métodos de logrank tendem a relatar índices de risco ainda mais próximos de 1,0 (portanto, o índice de risco relatado é muito pequeno quando o índice de risco é maior que 1,0 e muito grande quando o índice de risco é menor que 1,0). O método Mantel-Haenszel, por outro lado, relata índices de risco que estão além de 1,0 (portanto, o índice de risco relatado é muito grande quando a taxa de risco é maior que 1,0 e muito pequeno quando a taxa de risco é menor que 1,0).
Eles não testaram os dois métodos com dados simulados, onde a suposição de riscos proporcionais não é verdadeira. Vi um conjunto de dados em que as duas estimativas de FC eram muito diferentes (por um fator de três), e a suposição de riscos proporcionais era duvidosa para esses dados. Parece que o método de Mantel-Haenszel dá mais peso às diferenças no risco em momentos tardios, enquanto o método de logrank dá peso igual em todos os lugares (mas eu não o explorei em detalhes). Se você observar valores de FC muito diferentes com os dois métodos, pense se a suposição de riscos proporcionais é razoável. Se essa suposição não for razoável, é claro que todo o conceito de uma única taxa de risco que descreve toda a curva não é significativo
O site também se refere ao conjunto de dados no qual "as duas estimativas de FC eram muito diferentes (por um fator de três)" e sugere que a suposição de PH é uma consideração importante.
Então pensei: "Quem foi o autor do site?" Depois de um pouco de pesquisa, descobri que era Harvey Motulsky. Então Harvey, eu consegui fazer referência a você para responder sua própria pergunta. Você se tornou a autoridade!
O "conjunto de dados do problema" é um conjunto de dados disponível ao público?