Influência da instabilidade nas previsões de diferentes modelos substitutos
No entanto, uma das suposições por trás da análise binomial é a mesma probabilidade de sucesso para cada tentativa, e não tenho certeza se o método por trás da classificação de 'certo' ou 'errado' na validação cruzada pode ser considerado a mesma probabilidade de sucesso.
Bem, geralmente essa equvalência é uma suposição também necessária para permitir que você agrupe os resultados dos diferentes modelos substitutos.
Na prática, sua intuição de que essa suposição pode ser violada costuma ser verdadeira. Mas você pode avaliar se esse é o caso. É aqui que acho útil a validação cruzada iterada: A estabilidade das previsões para o mesmo caso por diferentes modelos substitutos permite que você julgue se os modelos são equivalentes (previsões estáveis) ou não.
k
i ⋅ k
Você também pode calcular o desempenho para cada iteração (bloco de 3 linhas no desenho). Qualquer variação entre eles significa que a suposição de que modelos substitutos são equivalentes (entre si e além do "grande modelo" construído em todos os casos) não é atendida. Mas isso também mostra quanta instabilidade você tem. Para a proporção binomial, acho que desde que o desempenho real seja o mesmo (ou seja, independente se sempre os mesmos casos são previstos incorretamente ou se o mesmo número, mas casos diferentes são previstos incorretamente). Não sei se seria sensato assumir uma distribuição específica para o desempenho dos modelos substitutos. Mas acho que, de qualquer forma, é uma vantagem sobre o relatório atualmente comum de erros de classificação, se você relatar essa instabilidade.kk
≪
nkEu
O desenho é uma versão mais recente da fig. 5 neste artigo: Beleites, C. & Salzer, R .: Avaliando e melhorando a estabilidade de modelos quimiométricos em situações de pequeno tamanho de amostra, Anal Bioanal Chem, 390, 1261-1271 (2008). DOI: 10.1007 / s00216-007-1818-6
Observe que, quando escrevemos o artigo, eu ainda não havia percebido completamente as diferentes fontes de variação que expliquei aqui - lembre-se disso. Penso, portanto, que a argumentaçãopara uma estimativa efetiva do tamanho da amostra, dado que não é correta, embora a conclusão da aplicação de que tipos diferentes de tecido em cada paciente contribuam com tanta informação geral quanto um novo paciente com um determinado tipo de tecido provavelmente ainda seja válido (eu tenho um tipo totalmente diferente de evidências que também apontam esse caminho). No entanto, ainda não estou completamente certo disso (nem como fazê-lo melhor e, portanto, poder verificar), e esse problema não está relacionado à sua pergunta.
Qual desempenho usar para o intervalo de confiança binomial?
Até agora, tenho usado o desempenho médio observado. Você também pode usar o pior desempenho observado: quanto mais próximo o desempenho observado estiver de 0,5, maior a variação e, portanto, o intervalo de confiança. Assim, os intervalos de confiança do desempenho observado mais próximo de 0,5 fornecem uma "margem de segurança" conservadora.
Observe que alguns métodos para calcular intervalos de confiança binomial funcionam também se o número observado de sucessos não for um número inteiro. Utilizo a "integração da probabilidade posterior bayesiana", como descrito em
Ross, TD: Intervalos de confiança precisos para proporção binomial e estimativa da taxa de Poisson, Comput Biol Med, 33, 509-531 (2003). DOI: 10.1016 / S0010-4825 (03) 00019-2
(Eu não conheço o Matlab, mas no R você pode usar binom::binom.bayes
com os dois parâmetros de forma definidos como 1).
n
Veja também: Bengio, Y. e Grandvalet, Y .: Nenhum estimador imparcial da variância da validação cruzada K-Fold, Journal of Machine Learning Research, 2004, 5, 1089-1105 .
(Pensar mais sobre essas coisas está na minha lista de tarefas ..., mas como eu venho da ciência experimental, gosto de complementar as conclusões teóricas e de simulação com dados experimentais - o que é difícil aqui, pois preciso de uma grande conjunto de casos independentes para testes de referência)
Atualização: justifica-se assumir uma distribuição biomial?
k
n
npn