Wojtek J. Krzanowski e David J. Hand ROC de curvas para dados contínuos (2009) é uma ótima referência para tudo relacionado a curvas ROC. Ele reúne vários resultados em uma base de literatura frustrantemente ampla, que geralmente usa terminologia diferente para discutir o mesmo tópico.
Além disso, este livro oferece comentários e comparações de métodos alternativos que foram derivados para estimar as mesmas quantidades e destaca que alguns métodos fazem suposições que podem ser insustentáveis em contextos específicos. Este é um desses contextos; outras respostas relatam o método Hanley & McNeil, que assume o modelo binormal para distribuição de pontuações, o que pode ser inapropriado nos casos em que a distribuição das pontuações das turmas não é (quase) normal. A suposição de pontuações normalmente distribuídas parece especialmente inapropriada nos tempos modernos. contextos de aprendizado de máquina , modelos comuns típicos como xgboost tendem a produzir pontuações com uma distribuição "banheira" para tarefas de classificação (ou seja, distribuições com altas densidades nos extremos próximos a 0 e 1 )
Pergunta 1 - CUA
A Seção 6.3 discute comparações da AUC ROC para duas curvas ROC (pp 113-114). Em particular, meu entendimento é que esses dois modelos estão correlacionados, portanto as informações sobre como calcular são criticamente importantes aqui; caso contrário, sua estatística de teste será enviesada porque não leva em consideração a contribuição da correlação.r
Para o caso de curvas ROC não correlacionadas que não se baseiam em nenhuma premissa de distribuição paramétrica, as estatísticas de tets e intervalos de confiança comparando as AUCs podem ser diretamente baseadas nas estimativas e ^ AUC 2 dos valores da AUC e nas estimativas de seus desvios padrão S 1 e S 2 , conforme indicado na seção 3.5.1:AUCˆ1AUCˆ2S1S2
Z=AUCˆ1−AUCˆ2S21+S22−−−−−−−√
Para estender esses testes ao caso em que os mesmos dados são usados para ambos os classificadores, precisamos levar em consideração a correlação entre as estimativas da AUC:
z=AUCˆ1−AUCˆ2S21+S22−rS1S2−−−−−−−−−−−−−√
onde é a estimativa dessa correlação. Hanley e McNeil (1983) fizeram essa extensão, baseando sua análise no caso binormal, mas apenas forneceram uma tabela mostrando como calcular o coeficiente de correlação estimado r a partir da correlação r P dos dois classificadores da classe P e a correlação de r nrrrPrn dos dois classificadores da classe N, dizendo que a derivação matemática estava disponível mediante solicitação. Vários outros autores (por exemplo, Zou, 2001) desenvolveram testes baseados no modelo binormal, assumindo que uma transformação apropriada possa ser encontrada, que transformará simultaneamente as distribuições de pontuação das classes P e N em normais.
DeLong et al (1988) aproveitaram a identidade entre a AUC e a estatística do teste de Mann-Whitney, juntamente com os resultados da teoria da estatística generalizada devido a Sen (1960), para derivar uma estimativa da correlação entre as AUCs que não se baseia na suposição binormal. De fato, DeLong et al (1988) apresentaram os seguintes resultados para comparações entre k ≥ 2 classificadores.Uk≥2
Na Seção 3.5.1, mostramos que a área sob a curva ROC empírica era igual à estatística Mann-Whitney e era dada porU
em quesPi,i=1,...,nPé a pontuação para a classePobjectos esNj,j=1,...,nNsão as pontuações para osobjetosda classeNna amostra. Suponha que temoskclassificadores, produzindo pontuaçõess r N j ,
AUCˆ=1nNnP∑i=1nN∑j=1nP[I(sPj>sNi)+12I(sPj=sNi)]
sPi,i=1,…,nPPsNj,j=1,…,nNNk. Definir e s r P i , j = 1 , … , n P [Corrigi um erro de indexação nesta parte - Sycorax] e ^ A U C r , r = 1 , … , ksrNj,j=1…nNsrPi,j=1,…,nPAUCˆr,r=1,…,k
e
V r 01 =1
Vr10= 1nN∑j = 1nN[ Eu( srPEu> srNj) + 12Eu( srPEu= srNj)],i=1,…,nP
Vr01=1nP∑i=1nP[I(srPi>srNj)+12I(srPi=srNj)],j=1,…,nN
Em seguida, definir o matriz W 10 com ( r , s ) ésimo elemento
w r , s 10 = 1k×kW10(r,s)
e okxkmatrizW01com(r,s)th elemento
w r
wr,s10=1nP−1∑i=1nP[Vr10(sPi)−AUCˆr][Vs10(sPi)−AUCˆs]
k×kW01(r,s)
Em seguida, a matriz de covariância estimada para o vetor( ^ A U C 1,…, ^ A U C kwr,s01=1nN−1∑i=1nN[Vr01(sNi)−AUCˆr][Vs01(sNi)−AUCˆs]
das áreas estimadas sob as curvas é
W = 1(AUCˆ1,…,AUCˆk)com elementosde wr,s. Esta é uma generalização do resultado para a variação estimada de uma única AUC estimada, também fornecida na seção 3.5.1. No caso de dois classificadores, a correlaçãoestimadarentre as AUC estimadas é dada porw1,2W=1nPW10+1nNW01
wr,sr que pode ser usado emzacima.w1,2w1,1w2,2√z
Como outras respostas fornecem as expressões de Hanley e McNeil para estimadores da variação da AUC, reproduzirei aqui o estimador DeLong da p. 68:
A abordagem alternativa devida a DeLong et al (1988) e exemplificada por Pepe (2003) fornece talvez uma estimativa mais simples e uma que introduz o conceito extra útil de um valor de posicionamento. O valor de colocação de uma pontuação com referência a uma população especificada é a função sobrevivente da população em s . Esse valor de colocação para s na população N é 1 - F ( s ) e para s na população P é 1 - G ( s ) . Estimativas empíricas dos valores de posicionamento são dadas pelas proporções óbvias. Assim, o valor de colocação da observação s Nsss1−F(s)s1−G(s)sNi na população P denota , é a proporção dos valores da amostra de P que excede s N i , e var ( s N P i ) é a variação dos valores de colocação de cada observação de N em relação à população P. ..sPNisNivar(sNPi)
A estimativa de DeLong et al (1988) da variação de é dada em termos dessas variações:
s 2 ( ^ A U C ) = 1AUCˆ
s2(AUCˆ)=1nPvar(sNPi)+1nNvar(sPNi)
Observe que é a função de distribuição cumulativa das pontuações na população N e G é a função de distribuição cumulativa das pontuações na população P. Uma maneira padrão de estimar F e G é usar o ecdfFGFG . O livro também fornece alguns métodos alternativos para as estimativas de ecdf, como estimativa de densidade do kernel, mas que estão fora do escopo desta resposta.
As estatísticas e z podem ser consideradas desvios normais padrão e os testes estatísticos da hipótese nula prosseguem da maneira usual. (Veja também:Zz teste de hipóteses )
Este é um esboço simplificado e de alto nível de como o teste de hipóteses funciona:
Testar, em suas palavras, "se um classificador é significativamente melhor que o outro" pode ser reformulado como testando a hipótese nula de que os dois modelos têm AUCs estatisticamente iguais em comparação com a hipótese alternativa de que as estatísticas são desiguais.
Este é um teste bicaudal.
Rejeitamos a hipótese nula se a estatística do teste estiver na região crítica da distribuição de referência, que é uma distribuição normal padrão neste caso.
O tamanho da região crítica depende do nível do teste. Para um nível de significância de 95%, a estatística do teste cai na região crítica se z > 1,96 ou z < - 1,96 . (Esses são os quantis α / 2 e 1 - α / 2 da distribuição normal padrão.) Caso contrário, você falha em rejeitar a hipótese nula e os dois modelos estão estatisticamente vinculados.αz>1.96z<−1.96α/21−α/2
Pergunta 1 - Sensibilidade e especificidade
A estratégia geral para comparar sensibilidade e especificidade é observar que essas duas estatísticas equivalem a realizar inferência estatística em proporções, e esse é um problema padrão e bem estudado. Especificamente, sensibilidade é a proporção da população P que tem uma pontuação maior que algum limiar , e também para a especificidade da população N:
sensibilidade = t pt
sensitivity=tp1−specificity=fp=P(sP>t)=P(sN>t)
O principal ponto de discórdia é o desenvolvimento do teste apropriado, pois as duas proporções da amostra serão correlacionadas (como você aplicou dois modelos aos mesmos dados de teste). Isso é tratado na p. 111
tpfp is a proportion, as is the misclassification rate for fixed threshold t. We can thus compare curves, using these measures, by means of standard tests to compare proportions. For example, in the unpaired case, we can use the test statistic (tp1−tp2)/s12, where tpi is the true positive rate for curve i as the point in question, and s212 is the sum of the variances of tp1 and tp2...
For the paired case, however, one can derive an adjustment that allows for the covariance between tp1 and tp2, but an alternative is to use McNemar's test for correlated proportions (Marascuilo and McSweeney, 1977).
The mcnemar-test is appropriate when you have N subjects, and each subject is tested twice, once for each of two dichotomous outcomes. Given the definitions of sensitivity and specificity, it should be obvious that this is exactly the test that we seek, since you've applied two models to the same test data and computed sensitivity and specificity at some threshold.
The McNemar test uses a different statistic, but a similar null and alternative hypothesis. For example, considering sensitivity, the null hypothesis is that the proportion tp1=tp2, and the alternative is tp1≠tp2. Re-arranging the proportions to instead be raw counts, we can write a contingency table
Model 2 Positive at tModel 2 Negative at tModel 1 Positive at tacModel 1 Negative at tbd
where cell
counts are given by counting the true positives and false negatives according to each model
abcd=∑i=1nPI(s1Pi>t)⋅I(s2Pi>t)=∑i=1nPI(s1Pi≤t)⋅I(s2Pi>t)=∑i=1nPI(s1Pi>t)⋅I(s2Pi≤t)=∑i=1nPI(s1Pi≤t)⋅I(s2Pi≤t)
and we have the test statistic
M=(b−c)2b+c
which is distributed as
χ21 a chi-squared distribution with 1 degree of freedom. With a level
α=95%, the null hypothesis is rejected for
M>3.841459.
For the specificity, you can use the same procedure, except that you replace the srPi with the srNj.
Question 2
It seems that it is sufficient to merge the results by averaging the prediction values for each respondent, so that for each model you have 1 vector of 100 averaged predicted values. Then compute the ROC AUC, sensitivty and specificity statistics as usual, as if the original models didn't exist. This reflects a modeling strategy that treats each of the 5 respondents' models as one of a "committee" of models, sort of like an ensemble.