A resposta simples é a ponderação. Ou seja, você pode usar pesos para padronizar grupos no grupo "aceito" para a população de interesse. O problema que surge do uso de tais pesos em uma análise combinada usando as fases do primeiro e do segundo ano de 2 anos é que os pesos estimados da população e os parâmetros agora são dependentes. A abordagem de pseudo-probabilidade é normalmente usada (nesse caso, seria algum tipo de probabilidade pseudo-parcial) em que você ignora a dependência entre pesos de amostra e estimativas de parâmetros. No entanto, em muitas circunstâncias práticas (e essa não é diferente), é necessário contabilizar essa dependência. A questão da criação de um estimador eficiente das taxas de risco é difícil, e até onde eu sei aberta.
Estimativa melhorada de Horvitz-Thompson dos parâmetros do modelo de amostras estratificadas em duas fases: aplicações em epidemiologia .
O artigo discute os métodos de pesquisa, geralmente aplicados na regressão logística, mas você também pode ponderar os dados de sobrevivência. Algumas considerações importantes que você deixou de mencionar são se está interessado em criar uma previsão que se aplique a toda a população ou à população "qualificada" com base nas estimativas de dois anos ou à população "qualificada" com base nas modelo. Você também não mencionou exatamente como esse modelo de "previsão" é criado a partir de um modelo de Cox, pois os valores ajustados de um modelo de Cox não podem ser interpretados como riscos. Presumo que você calcule as taxas de risco e obtenha uma estimativa simplificada da função de risco da linha de base.