Sensitiviteit en specificiteit

statistische waardering van de prestatie van een binaire classificatie test

Sensitiviteit is de gevoeligheid van een test in de diagnostiek, dat wil zeggen hoe goed de test erin slaagt het verschijnsel aan te tonen waarop getest wordt. Specificiteit bepaalt hoe specifiek de test is, dat wil zeggen hoe goed de test erin slaagt de afwezigheid van het verschijnsel aan te tonen. De sensitiviteit en de specificiteit worden beide uitgedrukt als fractie, of in procenten, bijvoorbeeld 0,9 of 90%.

Sensitiviteit en specificiteit in de geneeskunde

bewerken

Sensitiviteit

bewerken

De sensitiviteit van een geneeskundige test is het percentage terecht positieve uitslagen onder de zieke personen. Het is de verhouding tussen het aantal personen die positief scoren waarbij de door de test onderzochte ziekte daadwerkelijk aanwezig is en het totaal van alle onderzochte personen met de ziekte, inclusief het aantal personen die negatief scoren en bij wie de ziekte toch aanwezig is. Het is dus een maat voor de gevoeligheid van de test voor de onderzochte ziekte. Hoe hoger de sensitiviteit van een test, hoe groter de kans dat iemand die de ziekte daadwerkelijk heeft een positieve testuitslag krijgt, dus weinig foutnegatieve uitslagen (weinig C). Een testuitslag is positief als de a-posteriori-kans (nakans, achteraf-kans) die erbij hoort groter is dan de nakans die bij het andere negatieve testresultaat hoort.

Specificiteit

bewerken

De specificiteit van een geneeskundige test is het percentage terecht negatieve testuitslagen onder de niet-zieke personen, oftewel de verhouding tussen het aantal terecht negatieve uitslagen (niet ziek, negatieve uitslag) en het totaal van alle gevallen waarbij de ziekte afwezig is. Het totaal van alle gevallen waarbij de ziekte afwezig is bestaat uit een som van de gevallen waarbij een foutpositieve uitslag (loos alarm) is verkregen en de gevallen die een terechte negatieve uitslag kregen. Zie de formules hieronder. Dus hoe hoger de specificiteit van een test, hoe groter de kans dat iemand die de ziekte niet heeft, een negatief testresultaat krijgt. Een hoge specificiteit betekent weinig foutpositieve uitslagen (weinig B).

Ideale test vanuit het standpunt van sensitiviteit en specificiteit

bewerken
 

Een test kan een hoge sensitiviteit (gevoeligheid) hebben, maar vaak vals alarm slaan. De test moet ook specifiek zijn, dat wil zeggen zo veel mogelijk positieve uitslag geven bij de door de test onderzochte ziekte, en zo weinig mogelijk bij afwezigheid van de geteste ziekte. Een ideale test zou een sensitiviteit van 100% moeten hebben (bij alle ziektegevallen is de test positief) en ook een specificiteit van 100% (als de ziekte afwezig is, is de test negatief). Deze 100% accurate test is de gouden standaard.[1] In werkelijkheid is dit nooit het geval, of is zo'n test niet praktisch of te duur.

Definitie

bewerken

De aantallen A, B, C en D zijn gedefinieerd zoals in de onderstaande kruistabel.

Test
Conditie
aanwezig afwezig
positief A (echt positieven, terecht alarm) B (foutpositief, loos alarm)
negatief C (foutnegatief, gemiste gevallen) D (echt negatieven, terecht verworpen)

Sensitiviteit en specificiteit (in fracties) kunnen nu rekenkundig als volgt beschreven worden:

formule omschrijving
Sensitiviteit:   A/A + C =   het aantal echt positieven/het aantal echt positieven + het aantal foutnegatieven
 
Specificiteit:   D/D + B =   het aantal echt negatieven/het aantal echt negatieven + het aantal foutpositieven

Door de resultaten van de bewerkingen te vermenigvuldigen met 100 krijgt men een uitdrukking van deze maten in procenten.

Op grond van bovenstaande definities wordt in het ideale geval voor zowel de specificiteit als de sensitiviteit van een test 100% gevonden. In werkelijkheid komt dit niet voor.

Meestal daalt het ene als het andere stijgt: een test waarbij de testuitslagen niet binair zijn (een test met meer dan twee uitslagen) heeft altijd een twijfelgebied (grijs gebied), en een hoge specificiteit wordt bereikt door in dit twijfelgebied negatief te kiezen, terwijl een hoge sensitiviteit juist wordt bereikt door dit twijfelgebied positief te kiezen. Men kiest afhankelijk van de situatie voor een zo hoog mogelijke specificiteit of een zo hoog mogelijke sensitiviteit.

Soms wordt de relatie tussen sensitiviteit en 1 – specificiteit in functie van de afkappunten grafisch voorgesteld door een ROC-curve. Met behulp van deze ROC-curve kan de optimale keuze van afkappunt worden gekozen waarbij de sensitiviteit en specificiteit maximaal zijn.

Voorbeelden

bewerken

Hiv-test

bewerken

Een opsporingstest voor hiv bij bloeddonoren moet een zo hoog mogelijke sensitiviteit hebben: men wil dus vermijden dat er fout-negatieve uitslagen zijn. Een fout-negatieve uitslag wil zeggen dat iemand die hiv-besmet is, de uitslag krijgt dat hij gezond is. In dat geval zal onterecht het bloed als gezond worden beschouwd en zal het bij toediening de acceptor besmetten.

De sensitiviteit van de test kan worden ingesteld door te schuiven met de drempelwaarde: de waarde waarbij de test als positief wordt beschouwd. Indien bv. 5 en meer als een positieve testuitslag beschouwd wordt en minder dan 5 als een negatieve testuitslag dan is 5 de drempelwaarde (afkappunt, Engels: cut-off point). Naarmate het afkappunt hoger ligt, zal het aantal dat positief scoort dalen, dus ook de sensitiviteit. Voor specificiteit geldt het omgekeerde. Een test met hoge sensitiviteit (lage drempel) zal dus een lagere specificiteit hebben, waardoor sommige mensen onterecht als hiv-positief worden beschouwd. Hun bloed zal onterecht geweigerd worden, maar dit is veel minder erg dan het omgekeerde. Test men echter iemand die bezorgd is voor zijn eigen gezondheid dan geldt het omgekeerde, en zal men een positieve test (die een gerede kans heeft onterecht positief (fout-positief), te zijn) door een nader onderzoek altijd willen bevestigen.

In de praktijk zal men meestal eerst een test gebruiken met een hoge sensitiviteit, zoals ELISA waarmee hiv-antistoffen in het bloed aangetoond kunnen worden. Indien het resultaat negatief is kan men de patiënt geruststellen en zeggen dat hij niet besmet is met hiv. Als de ELISA positief is zal men de patiënt hier echter nog niet over inlichten. Gezien de lagere specificiteit van de ELISA is er immers een substantieel aantal foutpositieve testuitslagen en loopt men het risico de patiënt onterecht slecht nieuws te brengen. In plaats daarvan zal men op hetzelfde bloedstaal een test uitvoeren met hoge specificiteit: een immunoblot. Als ook deze test positief is kunnen we met grote zekerheid stellen dat de patiënt seropositief is voor hiv.

Schuld van een verdachte

bewerken

Een voorbeeld van een situatie waarin juist een hoge specificiteit gewenst is, is de gerechtelijke toetsing van de strafbaarheid van een verdachte. Deze moet liefst een zo hoog mogelijke specificiteit hebben. Foutpositief betekent in dit geval namelijk dat een onschuldige toch schuldig wordt bevonden. Fout-negatief betekent dat een schuldige onschuldig wordt bevonden. In het rechtssysteem gaat men ervan uit dat het erger is een onschuldige op te sluiten dan een schuldige vrijuit te laten gaan.

Men wenst bij de veroordeling dus zo weinig mogelijk foutpositieven. Dus krijgt de verdachte altijd het voordeel van de twijfel, ondanks dat hierdoor de sensitiviteit lager wordt en dus meer schuldigen vrijuit zullen gaan.

Haalbaarheid

bewerken

Bij medische tests is een hoge sensitiviteit en specificiteit vaak niet haalbaar. Als beide 90% bedragen, wordt dat in de geneeskunde meestal al als een heel goede test beschouwd. Een zwangerschapstest is een van de beste, met een sensitiviteit en een specificiteit van circa 99%. Bij de reumatest zijn beide ongeveer 80%. De in 2021 actuele SARS-COV-2-antigeensneltest heeft een sensitiviteit van 96,2% en een specificiteit van 99,2%[2]

Effect van prevalentie

bewerken

Om de uitslagen van onderzoeken zinvol te kunnen beoordelen is het van groot belang om de prevalentie te kennen. Een positief testresultaat bij een onderzoek naar een zeldzame aandoening heeft namelijk vaak niets te betekenen, omdat de kans op een foutpositieve uitslag dan veel groter is dan een terecht positieve uitslag. Zo doet zich het merkwaardige verschijnsel voor dat eenzelfde test in het ene land (of bevolkingsgroep) een hogere sensiviteit zal hebben dan in het andere land, als in dat tweede land (of in de tweede bevolkingsgroep) de prevalentie van de aandoening hoger is.

Een theoretisch voorbeeld: een hiv-test geeft bij 1 op de 1000 bloedmonsters een positief resultaat, terwijl hiv afwezig is (specificiteit = 99,9%). Verder is bij alle bloedmonsters waarin hiv aanwezig is, de uitslag positief (sensitiviteit = 100%). Dit kan op het eerste gezicht betrouwbaar lijken, maar is sterk afhankelijk van de mate van voorkomen van hiv in de onderzochte bevolkingsgroep. Als de prevalentie in deze groep 1 op 10.000 bedraagt, dan resulteert dat bij 10.000 mensen in:

hiv aanwezig hiv afwezig
Test positief 1 echt positief 10 foutpositieven
Test negatief 0 foutnegatief 9989 echt negatieven

In dit voorbeeld is de kans dat iemand die positief op hiv getest wordt het ook werkelijk heeft dus 1 op 11, waarmee de test in werkelijkheid een stuk minder betrouwbaar is.[3]

Stel nu dat de prevalentie van de ziekte niet 1 op 10.000 bedraagt maar 1 op 1000, dan resulteert een onderzoek met diezelfde hiv-test in:

hiv aanwezig hiv afwezig
Test positief 10 echt positief 10 foutpositieven
Test negatief 0 foutnegatief 9980 echt negatieven

In dit tweede voorbeeld is de kans dat iemand die positief op hiv getest wordt het ook werkelijk heeft, dus 1 op 2, waarmee de test ineens veel betrouwbaarder is dan in het eerste voorbeeld.

Sensitiviteit, specificiteit en de ROC-curve

bewerken

Bij een continue variabele is het vanzelfsprekend dat, bij positieve samenhang, de sensitiviteit zal stijgen naarmate het afkappunt, het punt waarop en waarboven men een testuitslag als positief aanziet, daalt. Is een tweede afkappunt lager dan het eerste dan zullen er niet alleen meer zieken zijn die positief scoren maar zullen er tevens meer niet-zieken zijn die positief scoren, met andere woorden een hogere sensitiviteit is steeds gekoppeld aan een lagere specificiteit (tenzij bij perfecte associatie). Men kan nu de sensitiviteit op de y-as weergeven van een cartesiaans stelsel in functie van 1 - specificiteit (x-as). Het resultaat van deze bewerking is een ROC-curve.

Geschiedenis van de diagnostische interpretatie

bewerken

In de twintigste eeuw werd een hoge sensitiviteit gezien als een middel om de door de test onderzochte ziekte uit te sluiten, een hoge specificiteit om de diagnose te stellen. De oorzaak hiervan was een fundamenteel wantrouwen tegen de posttest-waarschijnlijkheden (nakansen) en dus ook voorspellende (predictieve) waarden (positieve voorspellende waarde = nakans bij positief testresultaat, negatieve voorspellende waarde is het complement van nakans bij negatief testresultaat).

Sensitiviteit en specificiteit worden dan, bij gebrek aan beter, als constanten geacht. Men vergeet bij deze manier van denken dat men, door het aantal zieken te vermenigvuldigen met een factor de representativiteit van de steekproef negeert en dat dit de oorzaak ervan is dat men geen valide nakans meer kan berekenen. Men veralgemeent dan de invaliditeit van de nakansen terwijl bij een representatieve steekproef de nakansen wel degelijk valide te berekenen zijn.

Deze opvatting is in deze eeuw nog in brede kringen verspreid maar een nieuwe opvatting wint veld. De waarde van de nakans wordt voorop gesteld en er is weer vertrouwen in. Meer en meer worden naast de sensitiviteit en de specificiteit de voorspellende waarden vermeld. Bovendien construeerde men al aan het einde van de twintigste eeuw maten die een combinatie zijn van sensitiviteit en specificiteit: de likelihood ratio. Deze likelihood ratio moet dienen om de nakans te berekenen. Aan deze nakans wordt diagnostisch de hoogste waarde toegekend. Er lijkt zich dus op dit gebied een copernicaanse revolutie aan het voordoen: van de sensitiviteit en specificiteit naar de posttest-waarschijnlijkheid.

Zie ook

bewerken
bewerken
Zie de categorie Sensitivity and specificity van Wikimedia Commons voor mediabestanden over dit onderwerp.