Estou estudando um curso de aprendizado de máquina e os slides das palestras contêm informações que considero contraditórias com o livro recomendado.
O problema é o seguinte: existem três classificadores:
- classificador A, que oferece melhor desempenho na faixa mais baixa dos limites,
- classificador B, proporcionando melhor desempenho na faixa mais alta dos limites,
- classificador C o que obtemos ao lançar uma moeda p e selecionar entre os dois classificadores.
Qual será o desempenho do classificador C, como visto em uma curva ROC?
Os slides das palestras afirmam que, apenas ao lançar esta moeda, obteremos o " casco convexo " mágico da curva ROC dos classificadores A e B.
Eu não entendo esse ponto. Simplesmente ao jogar uma moeda, como podemos obter informações?
O slide de palestra
O que o livro diz
Por outro lado, o livro recomendado ( Data Mining ... de Ian H. Witten, Eibe Frank e Mark A. Hall ):
Para ver isso, escolha um ponto de corte de probabilidade específico para o método A que dê taxas positivas verdadeiras e falsas de tA e fA, respectivamente, e outro ponto de corte para o método B que dê tB e fB. Se você usar esses dois esquemas aleatoriamente com probabilidades p e q, onde p + q = 1, obterá taxas de p positivas verdadeiras e falsas. tA + q. tB e p. fA + q. fB. Isso representa um ponto na linha reta que une os pontos (tA, fA) e (tB, fB), e variando peq você pode traçar toda a linha entre esses dois pontos.
No meu entender, o que o livro diz é que, para obter informações e atingir o casco convexo, precisamos fazer algo mais avançado do que simplesmente jogar uma moeda-p.
AFAIK, a maneira correta (conforme sugerido pelo livro) é a seguinte:
- devemos encontrar um limite ideal Oa para o classificador A
- devemos encontrar um limite ótimo Ob para o classificador B
defina C da seguinte maneira:
- Se t <Oa, use o classificador A com t
- Se t> Ob, use o classificador B com t
- Se Oa <t <Ob, escolha entre o classificador A com Oa e B com Ob pela probabilidade como uma combinação linear de onde estamos entre Oa e Ob.
Isso está correto? Se sim, existem algumas diferenças importantes em comparação com o que os slides sugerem.
- Não é um simples lançamento de moeda, mas um algoritmo mais avançado que precisa de pontos e escolhas definidos manualmente com base em que região caímos.
- Ele nunca usa os classificadores A e B com valores limite entre Oa e Ob.
Você pode me explicar esse problema e qual é a maneira correta de entendê-lo , se meu entendimento não estiver correto?
O que aconteceria se simplesmente jogássemos uma moeda p como sugerem os slides? Eu pensaria que teríamos uma curva ROC que está entre A e B, mas nunca "melhor" do que a melhor em um determinado ponto.
Tanto quanto eu posso ver, eu realmente não entendo como os slides podem estar corretos. O cálculo probabilístico no lado esquerdo não faz sentido para mim.
Atualização: Foi encontrado o artigo escrito pelo autor original que inventou o método convexo do casco: http://www.bmva.org/bmvc/1998/pdf/p082.pdf