Voorbeeld van een ROC-curve.
Voorbeeld van een ROC-curve

In de signaaldetectietheorie is een ROC-curve (Engels: receiver operating characteristic (ROC)) een grafiek van de gevoeligheid (sensitiviteit) als functie van de aspecificiteit (1 - specificiteit) voor een binaire classifier als zijn discriminatiedrempel wordt gevarieerd. De ROC kan ook worden weergegeven door de fractie van true positives (TPR = true positive rate) uit te zetten tegen de fractie van fout-positieven (FPR = false positive rate). De ROC-curve staat ook bekend als de relative operating characteristic curve, omdat twee operating characteristics (TPR en FPR)met elkaar worden vergeleken terwijl het criterium (de drempel) verandert.[1][2]

ROC-analyse kan gebruikt worden voor kosten-batenanalyse bij diagnostische besliskunde. Met ROC-analyse kunnen optimale modellen worden uitgekozen en minder goede verworpen. De ROC-curve werd oorspronkelijk ontwikkeld door elektrotechnici en radartechnici in de Tweede Wereldoorlog om vijandelijke objecten te onderscheiden. Het vakgebied heet ook wel signaaldetectietheorie. Tegenwoordig wordt ROC-analyse al tientallen jaren toegepast in de geneeskunde, radiologie, psychologie en andere gebieden. Sinds kort wordt het ook gebruikt bij machinaal leren en datamining.

Terminologie en afleidingenBewerken

In een voorspellingsprobleem met twee klassen (binaire klassificatie) zijn de uitslagen positief (p) of negatief (n). Een binaire classifier geeft vier resultaten. Als de uitslag p en de echte waarde is ook p, hebben we een echt-positief (true positive, TP). Maar als de echte waarde n is hebben we een fout-positief (false positive, FP). Omgekeerd is een echt-negatief (true negative, TN) als zowel de uitslag als de echte waarde n zijn en een fout-negatief (false negative, FN) als de uitslag n maar de echte waarde p is.

Naam Verklaring Formule
Echt-positief (true positive, TP) treffer  
Echt-negatief (true negative, TN) terechte verwerping  
Fout-positief (false positive, FP) vals alarm, type I-fout  
Fout-negatief (false negative, FN) gemist geval, type II-fout  
Totaal positieve uitslagen P som van echt-positieve en fout-negatieve uitslagen  
Totaal negatieve uitslagen N som van echt-negatieve en fout-positieve uitslagen  
True positive rate (TPR) trefkans, recall, sensitiviteit  
False positive rate (FPR) gelijk aan kans op vals alarm, fall-out  
Nauwkeurigheid (ACC) aandeel juiste uitslagen  
Specificiteit (SPC) of True Negative Rate  
Positive predictive value (PPV) gelijk aan precisie  
Negative predictive value (NPV) kans op echt-negatieve uitslag  
False discovery rate (FDR) kans op vals alarm  
Matthews correlatie coefficient (MCC)[3]  

VoorbeeldBewerken

Als voorbeeld nemen we een medische test om te bepalen of iemand een bepaalde ziekte heeft. Een fout-positief is als de test positief uitvalt (dus patiënt heeft de ziekte volgens de test), maar de persoon in het echt niet ziek is. Een fout-negatief doet zich voor als iemand een negatieve uitslag krijgt, terwijl de ziekte toch aanwezig is.

We bekijken een proef met P positieve en N negatieve gevallen. De vier uitkomsten kunnen in een 2×2 contingency table of confusion matrix, weergegeven worden:

  echte waarde
  p n totaal
Voorspelling
resultaat
p' True
Positive
False
Positive
P'
n' False
Negative
True
Negative
N'
total P N

Zie ookBewerken