Preâmbulo

Este é um longo post. Se você estiver relendo isso, observe que revi a parte da pergunta, embora o material de segundo plano permaneça o mesmo. Além disso, acredito que desenvolvi uma solução para o problema. Essa solução aparece na parte inferior da postagem. Agradeço ao CliffAB por apontar que minha solução original (editada fora deste post; consulte o histórico de edições dessa solução) necessariamente produziu estimativas tendenciosas.

Problema

Em problemas de classificação de aprendizado de máquina, uma maneira de avaliar o desempenho do modelo é comparando curvas ROC ou área sob a curva ROC (AUC). No entanto, sou minha observação de que há muito pouca discussão sobre a variabilidade das curvas ROC ou estimativas da AUC; isto é, são estatísticas estimadas a partir de dados e, portanto, possuem algum erro associado a elas. Caracterizar o erro nessas estimativas ajudará a caracterizar, por exemplo, se um classificador é, de fato, superior a outro.

Eu desenvolvi a seguinte abordagem, que chamo de análise bayesiana de curvas ROC, para resolver esse problema. Há duas observações importantes no meu pensamento sobre o problema:

As curvas ROC são compostas de quantidades estimadas a partir dos dados e são passíveis de análise bayesiana.

A curva ROC é composta pela plotagem da taxa positiva verdadeira contra a taxa positiva falsa , cada uma das quais é, ela própria, estimada a partir dos dados. Considero as funções e de , o limiar de decisão usado para classificar a classe A de B (votos em árvore em uma floresta aleatória, distância de um hiperplano no SVM, probabilidades previstas em uma regressão logística etc.). A variação do valor do limiar de decisão retornará estimativas diferentes de $TPR(\theta)$ $FPR(\theta)$ $TPR$ $FPR$ $\theta$ $\theta$ $TPR$ e . Além disso, podemos considerar como uma estimativa da probabilidade de sucesso em uma sequência de ensaios de Bernoulli. De fato, TPR é definido como $FPR$ $TPR(\theta)$ que é também a MLE da probabilidade binomial sucesso numa experiência comsucessos eensaios totais. $\frac{TP}{TP+FN},$ $TP$ $TP+FN>0$

Portanto, considerando a saída de e como variáveis aleatórias, enfrentamos um problema de estimar a probabilidade de sucesso de um experimento binomial no qual o número de sucessos e falhas é conhecido exatamente (dado por , , $TPR(\theta)$ $FPR(\theta)$ $TP$ $FP$ e , que eu assumo que estão todos fixos). Convencionalmente, simplesmente se usa o MLE e assume que TPR e FPR são fixos para valores específicos de $FN$ $TN$ $\theta$ . Mas, na minha análise bayesiana das curvas ROC, eu desenho simulações posteriores das curvas ROC, que são obtidas através do desenho de amostras da distribuição posterior sobre as curvas ROC. Um modelo Bayesan padrão para esse problema é uma probabilidade binomial com um beta anterior à probabilidade de sucesso; a distribuição posterior na probabilidade de sucesso também é beta; portanto, para cada , temos uma distribuição posterior dos valores de TPR e FPR. Isso nos leva à minha segunda observação. $\theta$
As curvas ROC não diminuem. Então, uma vez que se tenha amostrado algum valor de e $TPR(\theta)$ , existe uma probabilidade nula de amostrar um ponto no espaço ROC "sudeste" do ponto amostrado. Mas a amostragem com forma restrita é um problema difícil. $FPR(\theta)$

A abordagem bayesiana pode ser usada para simular um grande número de AUCs a partir de um único conjunto de estimativas. Por exemplo, 20 simulações são assim comparadas aos dados originais.

Este método tem várias vantagens. Por exemplo, a probabilidade de que a AUC de um modelo seja maior que o outro pode ser estimada diretamente comparando a AUC de suas simulações posteriores. As estimativas de variância podem ser obtidas por simulação, mais barata que os métodos de reamostragem, e essas estimativas não incorrem no problema de amostras correlacionadas que surgem dos métodos de reamostragem.

Solução

Desenvolvi uma solução para esse problema fazendo uma terceira e quarta observação sobre a natureza do problema, além das duas acima.

e $TPR(\theta)$ têm densidades marginais que são passíveis de simulação. $FPR(\theta)$

Se (vice ) é uma variável aleatória distribuída beta com os parâmetros e (vice e distribuição sobre as amostras resultantes de são uma densidade da verdadeira taxa positiva que é incondicional no próprio , porque estamos assumindo um modelo beta para $TPR(\theta)$ $FPR(\theta)$ $TP$ $FN$ $FP$ $TN$ ), também podemos considerar qual é a média da densidade de TPR sobre os vários valores diferentes que correspondem à nossa análise. Ou seja, podemos considerar um processo hierárquico em que uma amostra de um valor $\theta$ $\tilde{\theta}$ da coleção de $\theta$ valores obtidos por nossas previsões de modelo fora da amostra e, em seguida, obtém um valor de , a distribuição resultante é uma mistura de distribuições beta, com um número de componentes igual ao tamanho de nossa coleção de e coeficientes de mistura $TPR(\tilde{\theta})$ $TPR(\tilde{\theta})$ $\theta$ $TPR(\theta)$ $c$ $\theta$ . $1/c$

Neste exemplo, obtive o seguinte CDF no TPR. Notavelmente, devido à degeneração das distribuições beta, onde um dos parâmetros é zero, alguns dos componentes da mistura são a função delta do Dirac em 0 ou 1. É isso que causa os repentinos picos em 0 e 1. Esses "picos" implicam que essas densidades não são contínuas nem discretas. Uma escolha de prior que é positiva em ambos os parâmetros teria o efeito de "suavizar" esses picos repentinos (não mostrados), mas as curvas ROC resultantes serão puxadas em direção ao prior. O mesmo pode ser feito para o FPR (não mostrado). Retirar amostras das densidades marginais é uma aplicação simples de amostragem por transformação inversa.

Para resolver o requisito de restrição de forma, basta classificar o TPR e o FPR independentemente.

O requisito não decrescente é o mesmo que o requisito de que as amostras marginais do TPR e FPR sejam classificadas independentemente - ou seja, o formato da curva ROC é completamente determinado pelo requisito de que o menor valor de TPR seja emparelhado com o menor FPR value e assim por diante, o que significa que a construção de uma amostra aleatória com restrição de forma é trivial aqui. Para o impróprio $\text{Beta}(0,0)$

Comparação com o Bootstrap

$n=20$ observações no conjunto de validação e comparar os resultados com o método bayesiano. Os resultados são comparados abaixo (a implementação do bootstrap aqui é o bootstrap simples - amostragem aleatória com substituição do tamanho da amostra original. A leitura superficial dos bootstraps expõe lacunas significativas no meu conhecimento sobre os métodos de re-amostragem, portanto, talvez não seja um abordagem apropriada.)

Esta demonstração mostra que a média do bootstrap é enviesada abaixo da média da amostra original e que o KDE do bootstrap produz "humps" bem definidos. A gênese desses corpos é dificilmente misteriosa - a curva ROC será sensível à inclusão de cada ponto, e o efeito de uma pequena amostra (aqui, n = 20) é que a estatística subjacente é mais sensível à inclusão de cada ponto. ponto. (Enfaticamente, esse padrão não é um artefato da largura de banda do kernel - observe a plotagem do tapete. Cada faixa é composta por várias réplicas de bootstrap que têm o mesmo valor. O bootstrap tem 2000 réplicas, mas o número de valores distintos é claramente muito menor. Pode-se concluir que as corcundas são uma característica intrínseca do procedimento de inicialização.) Por outro lado, as estimativas médias da AUC Bayesiana tendem a estar muito próximas da estimativa original,

Questão

Minha pergunta revisada é se minha solução revisada está incorreta. Uma boa resposta provará (ou refutará) que as amostras resultantes das curvas ROC são tendenciosas ou também provam ou desaprovam outras qualidades dessa abordagem.

— Sycorax diz restabelecer Monica
fonte

Eu acho que você está acreditando demais nas curvas ROC. Não vi um único caso em que eles levassem a insights. Eu já vi muitos casos em que eles levam ao limiar, o que é realmente uma péssima idéia.

— Frank Harrell

@FrankHarrell Obrigado pela nota, Dr. Harrell. Mas para meus clientes, sou incumbido de desenvolver classificadores que tomarão decisões autonomamente em conjuntos de dados muito grandes. Compreendo que, no contexto médico, isso seja altamente improdutivo, mas a análise de utilidade / custo por especialistas para cada observação é simplesmente impraticável quando precisamos tomar decisões sobre milhares de pontos de dados. Precisamos fazer escolhas sobre qual modelo implementar para realizar essa tarefa, e o ROC / AUC ajuda nessa decisão.

— Sycorax diz Restabelecer Monica

Como você previu probabilidades, você não está usando um classificador de qualquer maneira, pelo menos no início do seu processo. Os utilitários tomariam decisões melhores, mas se você não conseguir obtê-los, ainda poderá pensar nisso de forma diferente das curvas ROC, usando curvas de elevação e limites de risco de decisão. Este não é realmente um problema médico.

— Frank Harrell

Para demonstrar, suponha que temos

e sabemos que marginalmente,

X_{1} + X_{2} < 1

$X_1 + X_2 < 1$

X_{1}, X_{2} \sim

$X_1, X_2 \sim$

X_{1}

$X_1$

X_{2}

$X_2$ (ou seja, o que começamos com seria, em média, maior que o outro).

— Cliff AB

Comece com as notas do meu curso - consulte biostat.mc.vanderbilt.edu/CourseBios330 . Observe também a Bioestatística para Pesquisa Biomédica, disponível em biostat.mc.vanderbilt.edu/ClinStat , especialmente o capítulo Perda de Informação e o início do Capítulo 10.

— Frank Harrell

Primeiro, não há uma maneira aceita de "analisar" uma curva ROC: é apenas um gráfico que retrata a capacidade preditiva de um modelo de classificação. Você certamente pode resumir uma curva ROC usando uma estatística c ou a AUC, mas calculando intervalos de confiança e realizando inferência usando $c$ estatística são bem compreendidos devido à sua relação com a estatística U de Wilcoxon.

Geralmente, é bem aceito que você possa estimar a variabilidade nas curvas ROC usando o bootstrap de Pepe Etzione Feng . Essa é uma boa abordagem, porque a curva ROC é uma estimativa empírica e o bootstrap não é paramétrico. Parametrizar algo dessa maneira introduz suposições e complicações como "um plano anterior é realmente não informativo?" Não estou convencido de que seja esse o caso aqui.

Por fim, há a questão da pseudo-probabilidade. Você pode induzir variabilidade nas curvas ROC colocando um $\theta$ $\theta$ é independente . Eles não são. De fato, eles são completamente dependentes. Você está calculando um posterior bayesiano para o seu próprio peso em quilogramas e libras e dizendo que eles não dependem um do outro.

Tome, como exemplo, um modelo com perfeita discriminação. Usando seu método, você descobrirá que as faixas de confiança são o quadrado da unidade. Eles não são! Não há variabilidade em um modelo com discriminação perfeita. Um bootstrap mostrará isso.

Se alguém abordasse a questão da "análise" do ROC de uma perspectiva bayesiana, talvez fosse mais útil abordar o problema da seleção de modelos colocando um prior no espaço dos modelos usados para análise. Isso seria um problema muito interessante.

— AdamO
fonte

Não tenho certeza de que esta resposta responda ao conteúdo da postagem. Por exemplo, acabei de simular curvas ROC para um modelo com discriminação perfeita. Essas curvas estão todas concentradas no canto noroeste do espaço ROC, e um intervalo central em torno das simulações da AUC é alguns números muito próximos de 1. Isso está em contradição direta com a afirmação na resposta, que afirma que as simulações devem estar em todo o quadrado da unidade.

— Sycorax diz Restabelecer Monica

θ

$\theta$

θ

$\theta$

T P R (θ)

$TPR(\theta)$

F P R (θ)

$FPR(\theta)$

θ

$\theta$

θ

$\theta$

θ

$\theta$

@ user777 o que exatamente tem um prior nele?

— AdamO

Acabei de inventar um método bayesiano para análise de curvas ROC?

Preâmbulo

Problema

Solução

Comparação com o Bootstrap

Questão