Sensitivitet og specificitet

Sensitivitet og specificitet er mål, der bruges inden for statistik til at afgøre den statistiske styrke på en hypotesetest med to mulige udfald. Det kan eksempelvis være medicinsk eller biokemisk test (graviditetstest, test for sygdom, dopingtest, osv.) med udfald positiv eller negativ. De to mål er tæt relateret til type I og type II fejl.

Sensitivitet er et mål for, hvor følsom testen er for det, der søges efter. Sensitiviteten måler andelen af positive tests hos personer, der faktisk er gravide/syge/dopede/..., altså dem som burde være positive. Hvis en graviditetstest har en sensitivitet på 80%, så betyder det at ud af 100 som faktisk er gravide, vil 80 få en positiv test (sande positive), mens 20 fejlagtigt vil få en negativ test (falsk negative).

Specificitet er et mål for, hvor specifikt testen kun er positiv hos de rette. Sagt på en anden måde: Specificiteten udtrykker, hvor god testen er til at undgå falske positiver. Specificiteten måler andelen af negative tests hos personer, der ikke har det undersøgte. Hvis en graviditetstest har en specificitet på 99%, så betyder det, at ud af 100 som ikke er gravide, vil 99 få en negativ test (sande negative), mens 1 fejlagtigt vil få en positiv test (falsk positiv).

De to mål fokuserer på modsatte aspekter af testen. Det er derfor vanskeligt at lave en test, som på én gang har høj sensitivitet og høj specificitet. Hvad der er vigtigst, afhænger af den situation, som testen skal bruges i.

Definition

Sensitiviteten udregnes efter følgende formel:

{\rm {Sensitivitet}}={\frac {\rm {antal\ sande\ positive}}{{\rm {antal\ sande\ positive}}+{\rm {antal\ falske\ negative}}}}={\frac {\rm {antal\ sande\ positive}}{\rm {antal\ som\ har\ tilstanden}}}

Specificiteten udregnes efter følgende formel:

{\rm {Specificitet}}={\frac {\rm {antal\ sande\ negative}}{{\rm {antal\ sande\ negative}}+{\rm {antal\ falske\ positive}}}}={\frac {\rm {antal\ sande\ negative}}{\rm {antal\ som\ ikke\ har\ tilstanden}}}

Eksempel

Tabellen viser et tænkt eksempel, hvor 50 ud af undersøgte 1000 personer har en medicinsk tilstand, eksempelvis sygdom eller graviditet.

Testresultat	Tilstand + (eks. gravid)	Tilstand - (eks. ikke gravid)
Diagnostisk test + (positivt testresultat)	40	5	45
Diagnostisk test - (negativt testresultat)	10	945	955
I alt	50	950	1000

Benyttes de i tabellen angivne data fås:

{\rm {Sensitivitet}}={\frac {\rm {40}}{{\rm {40}}+{\rm {10}}}}=0,8=80\%

Benyttes de i tabellen angivne data fås:

{\rm {Specificitet}}={\frac {\rm {945}}{{\rm {945}}+{\rm {5}}}}=0,99=99\%

Sensitivitet versus specificitet

Et ønske om høj sensitivitet og et ønske om høj specificitet trækker i hver sin retning.

Hvis en test skal have så høj sensitivitet som muligt (høj følsomhed for at finde det søgte), så vil prisen i mange sammenhænge være, at der også kommer falske positiver. Ekstremt eksempel: En test som altid giver positivt resultat vil have 100% sensitivitet, men desværre også 0% specificitet.

Omvendt: Hvis det er vigtigt at undgå falske positiver (få høj specificitet), så er prisen ofte at der overses nogle af dem, som burde have været positive. Det ekstreme eksempel i denne retning er en test, som altid giver negativt resultat: specificiteten er 100% (ingen falske positiver), men sensitiviteten er 0%.

Ofte er en test fastlagt ud fra en afbalancering mellem sensitivitet og specificitet. Mange medicinske tests eller laboratorietests måler niveauet af noget i en prøve og sammenligner med en tærskelværdi. Valget tærskelværdi har stor betydning for både sensitivitet og specificitet.

Hvis der vælges en tærskelværdi tæt på de normale værdier, så skal prøverne ikke skille sig ret meget ud for at blive positive. Det giver en følsom test (høj sensitivitet). Desværre giver det også en uspecifik test (lav specificitet), fordi en del normale prøver blot tilfældigvis vil ligge ligge på den forkerte side af tærskelværdien.
Hvis der vælges en tærskelværdi langt fra de normale værdier, så skal prøverne skille sig meget ud for at blive positive. Det giver en specifik test (høj specificitet): Der er stor sikkerhed for, at de normale prøver ikke fejlagtigt bedømmes som positive. Desværre giver det også en test ikke-følsom test (lav sensitivitet): Der er stor risiko for, at de unormale prøver ikke når forbi grænseværdien og derfor ikke bliver opdaget som positive.

Ønsket om højest mulig sensitivitet trækker altså i modsat retning af ønsket om højest mulig specificitet. Valget af tærskelværdi er derfor en balance.

Der er ikke noget facit på, hvornår balancen er bedst. Det rette valg af balance kommer an på konsekvenserne af falske negativer og falske positiver. Disse konsekvenser afhænger af den sammenhæng, som testen skal bruges i.

Eksempel: Blodprøve hos lægen

En patient går til lægen fordi hun eller han føler sig syg og er bekymret for at have en alvorlig sygdom. Lægen tager en blodprøve.

Konsekvens af falsk negativ: Alvorlig sygdom overses.
Konsekvens af falsk positiv: Nødvendigt med yderligere undersøgelser.

De fleste vil i dette tilfælde regne den falske negativ som den alvorligste: Det er værre at overse alvorlig sygdom, end det er at skulle undersøges yderligere selv om der faktisk ikke var sygdom. I sådan et tilfælde vil man prioritere en høj sensitivitet (høj følsomhed for at finde sygdommen), mens det kan accepteres at specificiteten ikke er høj (resultatet er ikke så specifikt, en del raske får en positiv test og skal undersøges yderligere).

Eksempel: Dopingtest hos cykelrytter

En professionel cykelrytter afleverer en urinprøve til dopingtest.

Konsekvens af falsk negativ: Cykelrytteren var dopet, men det bliver ikke opdaget
Konsekvens af falsk positiv: Cykelrytteren var ikke dopet, men får fejlagtigt en sanktion som kan sætte karrieren på spil.

I dette tilfælde er en falsk positiv den alvorligste konsekvens. Det er derfor vigtigst med en høj specificitet.

Hvornår en sensitivitet eller specificitet er "høj" kommer igen an på sammenhængen. I tilfældet med blodprøven hos lægen, kan en specificitet på 95% være et højt tal (kun 1 ud af 20 raske går videre til nærmere undersøgelser, som så må afklare at der ikke var noget). I tilfældet med dopingtest vil en specificitet på 99% f.eks. ikke være et højt tal (hvis 200 deltagere i et stort cykelløb testes dagligt, så vil der hver dag være 2 som fejlagtigt bliver smidt ud af løbet pga. falske positiver).