Digamos que tenhamos um classificador SVM, como geramos a curva ROC? (Como teoricamente) (porque geramos TPR e FPR com cada um dos limites). E como determinamos o limite ideal para esse classificador SVM?
Digamos que tenhamos um classificador SVM, como geramos a curva ROC? (Como teoricamente) (porque geramos TPR e FPR com cada um dos limites). E como determinamos o limite ideal para esse classificador SVM?
Respostas:
Use o classificador SVM para classificar um conjunto de exemplos anotados e "um ponto" no espaço ROC com base em uma previsão dos exemplos pode ser identificado. Suponha que o número de exemplos seja 200, primeiro conte o número de exemplos dos quatro casos.
Em seguida, calcule o TPR (True Positive Rate) e o FPR (False Positive Rate). e No espaço ROC, o eixo x é FPR e o eixo y é TPR. Portanto, o ponto é obtido.
Para desenhar uma curva ROC, apenas
(1) ajuste algum valor limite que controla o número de exemplos rotulados como verdadeiro ou falso
Por exemplo, se a concentração de determinada proteína acima de α% significa uma doença, diferentes valores de α produzem diferentes valores finais de TPR e FPR. Os valores limite podem ser simplesmente determinados de maneira semelhante à pesquisa na grade; exemplos de treinamento de etiqueta com diferentes valores-limite, treine classificadores com diferentes conjuntos de exemplos rotulados, execute o classificador nos dados de teste, calcule valores de FPR e selecione os valores-limite que abrangem FPR baixo (próximo a 0) e alto (próximo a 1) valores, ou seja, próximos de 0, 0,05, 0,1, ..., 0,95, 1
(2) Gere muitos conjuntos de exemplos anotados
(3) Execute o classificador nos conjuntos de exemplos
(4) Calcular um ponto (FPR, TPR) para cada um deles
(5) Desenhe a curva ROC final
Alguns detalhes podem ser verificados em http://en.wikipedia.org/wiki/Receiver_operating_characteristic .
Além disso, esses dois links são úteis sobre como determinar um limite ideal. Um método simples é pegar aquele com soma máxima de taxas positivas verdadeiras e falsas negativas. Outros critérios mais refinados podem incluir outras variáveis que envolvem diferentes limites, como custos financeiros, etc.
http://www.medicalbiostatistics.com/roccurve.pdf
http://www.kovcomp.co.uk/support/XL-Tut/life-ROC -curves-receiver-operating-feature.html
Uma maneira realmente fácil de escolher um limite é usar os valores medianos previstos dos casos positivos para um conjunto de testes. Este se torna o seu limite.
O limite chega relativamente perto do mesmo limite que você obteria usando a curva roc, na qual a taxa positiva verdadeira (tpr) e 1 - taxa positiva falsa (fpr) se sobrepõem. Essa cruz tpr (cruzada) 1-fpr maximiza o verdadeiro positivo enquanto minimiza os falsos negativos.
Escolha o ponto mais próximo ao canto superior esquerdo do seu espaço ROC. Agora, o limite usado para gerar esse ponto deve ser o ideal.