Lögndetektorer sämre än slump?
Publicerat i Folkvett nr 2/2010.
Francisco Lacerdas artikel om röstbaserade lögndetektorer är här föremål för invändningar.
Francisco Lacerda skriver i sin artikel ”Lögnbaserade lögndetektorer” (Folkvett2009:3) som handlar om huruvida röstbaserade lögndetektorer fungerar eller ej: ”Att LVA-teknologin verkligen inte fungerar har nyligen bevisats genom DWP:s utvärdering av systemet i sammanlagt 2785 fall.” Han fortsätter: ”…i vilket fall som helst visar resultaten att systemet fungerar på slumpnivån”. Resultaten, bestående av en tabell, visar hur väl röstlögndetektorn fungerat på ett antal arbetsställen på en brittisk myndighet. Ur den går att utläsa hur systemet klassificerat personer (som hög eller låg risk) samt det slutgiltiga utfallet efter att fallen utretts.Författaren må vara insatt i den övergripande komplexiteten i detta ämne men i påståendet att systemet ”fungerar på slumpnivån” har han fel. Ur tabellen går ej att utläsa huruvida resultaten är på slumpnivån eller ej, denna information finns helt enkelt inte redovisad där. För att säga något om det måste vi ha information om spridningen på data.
Eftersom denna inte finns tillgänglig slumpade jag fram nya resultatdata baserade på de fördelningar som anges i tabellen (med den s.k. bootstrap-metoden, 100 000 replikat) och räknade sedan ut AUC, ett värde som i detta fall talar om hur väl detektorn diskriminerar mellan lögn och icke lögn. Felmarginalen brukar i de flesta vetenskapliga sammanhang sättas till 0,05, d.v.s. att risken att vi har fel i vårt påstående är maximalt 5 %. Om 95 % av bootstrapreplikaten har ett AUC som är mer än 0,50, d.v.s. diskriminerar bättre än ren slump, bör vi därför tro att detektorn är bättre än slumpen.
Resultaten av mina undersökningar, baserade på hela datamängden, visade att resultaten var bättre än vad vi kan förvänta oss av slumpen. 95 % av replikaten hade ett AUC på 0,56 eller mer vilket tydligt visar att systemet diskriminerar bättre än slumpen.
Om denna prestanda är tillräcklig för att systemet skall vara praktiskt användbart går dock inte att utröna, varken ur artikeln eller denna analys, men att systemets resultat ligger över slumpnivån är tydligt. Jag vänder mig bara mot påståendet att resultaten som presenteras ej är bättre än slump. Hur studien genomförts framgår dock ej vilket gör att jag inte på något sätt kan påstå att lögndetektorn fungerar, bara att artikelförfattaren är ovarsam med begreppet slump.
(Tabell kommer senare)
Replik
MITT PÅSTÅENDE om att ”systemet fungerar på slumpnivå” syftade på instabiliteten i utfallet från de sju distrikten, vid antagandet om p = 0,5 för ett positivt utfall under nollhypotesen. Syftningen framgick inte tydligt, och även med avseende på dessa sju resultat kan påståendet kritiseras ur olika tekniska perspektiv. Mitt resonemang byggde på att om man utgår från signifikansnivåerna (p < 0,05) för de sju redovisade AUC, förefaller det att endast Birmingham och Drewentside har AUC (0,734 respektive 0,723) som signifikant skiljer sig från slumpnivån (AUC = 0,5) bland de sju fallen, vilket i sin tur ger ett icke signifikant utfall om man betraktar resultaten som sju av varandra oberoende slantsinglingar (p < 0,164).
Resonemanget är dock problematiskt eftersom det förutsätter att metodologin och underlaget i de olika distrikten är lika, vilket de inte är. Vi vet inte ens hur många oberoende bedömare som bidrar till varje distrikts samlade resultat. Om däremot alla 2785 fallen betraktas i sin helhet, uppnås faktiskt ett litet, men signifikant övertag för Center AUC Signifikans Undre gräns Övre gräns positiva fall (som enligt mina fördelningsfria beräkningar blir AUC=0,579, p < 0,0005), såsom påpekas i Grankvists kommentar. I själva verket går resultaten egentligen inte att tolka vad gäller programmets relevans som ”lögndetektor”. Men även här saknas avgörande metodologisk information för att kunna tolka resultaten i tabellen. DWP:s tabell visar förmodligen bedömningar gjorda av Nemesyscos egna certifierade intervjuare i stället för direkta resultat från själva LVA-programmet. Om så är fallet avspeglar de små men signifikanta resultaten i första hand intervjuarnas bedömningar snarare än programmets tillförlitlighet som lögndetektor.
I tabellen ovan redovisas AUC samt beräkningar av deras signifikans och gränserna för AUC:s 95%-iga konfidensintervall.