Dölja indirekta personuppgifter i dokument med generativ AI innebär stor risk

Just nu försöker många i branschen rida på vågen av generativ AI. Samma teknik som används för att skriva mejl, skapa marknadstexter och sammanfatta rapporter presenteras plötsligt som lösningen på nästan allt som rör personuppgifter.

Budskapet börjar ofta offensivt. Man säger att AI hittar alla personuppgifter, även indirekta, och att det bara är att ladda upp materialet så sköter modellen resten.

När verkligheten sedan kommer ikapp och det visar sig att känsliga uppgifter har lämnats kvar, ändras tonen snabbt. Då beskrivs AI i stället som ett hjälpmedel, människan sägs alltid ha ansvaret och verktyget framställs som ett stöd snarare än en garanti.

Det är ett bekvämt sätt att först sälja in generativ AI som en automatisk lösning och sedan flytta över ansvaret till användaren. Problemet är att det suddar ut det viktigaste. Tekniken i sig är en mycket svag grund för att hitta personuppgifter, särskilt indirekta, när verkligt dataskydd står på spel.

Vad indirekta personuppgifter egentligen är

Direkta personuppgifter

Direkta personuppgifter är uppgifter som tydligt pekar ut en person.

namn på privatpersoner
personnummer och samordningsnummer
privata adresser, telefonnummer och e-postadresser
unika id-nummer, diarienummer eller registreringsnummer som är kopplade till en individ

Den här typen av uppgifter går ofta att hitta med stabil teknik som inte är generativ. Regler, mönster, kontrollsiffror och lexikon kan testas, förbättras och dokumenteras. Resultatet är mätbart och går att upprepa.

Indirekta personuppgifter

Indirekta personuppgifter är något helt annat. Här blir en person identifierbar genom kombinationer av uppgifter, utan att namnet står utskrivet.

en unik roll i en liten kommun
en ovanlig diagnos i en begränsad grupp
en kombination av arbetsplats, tidpunkt och händelse
formuleringar där man i praktiken syftar på den enda specialisten, läraren eller handläggaren

Om det går att förstå vem det handlar om i den miljö där texten delas, är det en personuppgift. Den bedömningen kräver kontext, omdöme och förståelse för verkligheten utanför PDF-filen. Det är just här generativ AI är som svagast, trots att tekniken ofta marknadsförs som lösningen.

Varför generativ AI misslyckas med personuppgifter i praktiken

Probabilistisk textgenerator, inte skyddsverktyg

Generativ AI är konstruerad för att förutsäga sannolika nästa ord. Den är duktig på att skriva flytande text, men den är inte byggd för att uppnå hög och verifierbar träffsäkerhet när det gäller att upptäcka känslig information.

Det får flera konsekvenser. Modellen har ingen inbyggd garanti för att hitta allt som borde hittas, utan bara en sannolikhet att hitta tillräckligt mycket. Två körningar på samma dokument kan ge olika resultat även utan ändringar i texten. Det går dessutom inte att härleda ett konkret regelverk utifrån modellens beslut, eftersom logiken ligger inbäddad i miljarder parametrar.

För marknadstext spelar det mindre roll om modellen missar något. För personuppgifter är det direkt riskabelt.

Integritetsfällan när din data och dina rättningar tränar modellen

När generativ AI används i verkliga ärenden loggas ofta både originaldokument och handläggarnas rättningar, alltså vad som borde ha maskerats, vad som har återställts och vilka formuleringar som egentligen borde ha bedömts som känsliga.

För leverantören blir detta värdefullt underlag för att förbättra modellen. För dig innebär det att riktiga ärenden, inklusive korrigerad och ibland extra känslig text, riskerar att användas i en löpande tränings- och utvecklingsprocess utanför din kontroll. Gränsen mellan att bara behandla uppgifter för avidentifiering här och nu och att använda dem som bränsle för en extern AI-tjänst blir otydlig, vilket gör det svårt att fullt ut överblicka hur och var personuppgifter faktiskt behandlas.

Långa dokument och begränsningar i modellens kontextfönster

När dokumenten blir långa behöver texten delas upp i segment för att få plats i modellens kontextfönster. Det skapar fler felkällor. Namn, adresser eller id-nummer kan ligga precis i gränsen mellan två segment och tappas bort. Återkommande personer kan upptäckas i ett segment men missas i ett annat. Indirekta uppgifter som kräver en helhetsbild kan bli osynliga när modellen bara ser en del i taget.

Det här är en teknisk begränsning i hur modellerna fungerar. Det är inte något som går att marknadsföra bort.

Layout, format och språkliga detaljer

Verkliga dokument är sällan ren text. De innehåller tabeller, fotnoter, skannade sidor, sidhuvuden och blandningar av språk och format. Generativ AI har svårt att konsekvent tolka tabellstrukturer och kolumner, hantera felaktiga eller kreativa skrivsätt av personnummer, telefonnummer och diarienummer samt skilja mellan personnamn, ortnamn och organisationsnamn, särskilt på svenska.

Resultatet blir ofta en blandning av missade personuppgifter och övermaskning av sådant som borde ha fått stå kvar.

Varför generativ AI är extra svag just för indirekta uppgifter

Modellen saknar din verklighet

Generativ AI vet inte hur liten en viss ort är, hur många som har en viss befattning i din organisation eller vad mottagarna av dokumentet redan känner till. Därför behandlas formuleringar som dessa ofta som ganska generella.

den enda skolpsykologen på orten
kommunens enda hjärtläkare
den person som förlorade vårdnadstvisten i X den här hösten

I praktiken kan sådana formuleringar ändå peka ut en identifierbar person i en viss miljö. Modellen har ingen koppling till den sociala och geografiska verklighet där dokumentet ska läsas.

Det går inte att mäta det som saknas

För indirekta uppgifter är det ofta omöjligt att manuellt se alla riskabla kombinationer. Om du lägger ett generativt lager över texten får du i bästa fall en lista över det modellen hittade, men inte över det modellen aldrig ens försökte bedöma.

Den osynliga felmängden är just det som gör tekniken farlig i sådana sammanhang. Verktyget visar upp sina träffar, men säger ingenting om de indirekt identifierande fall som inte har flaggats alls.

Juridiskt ansvar och varför AI inte kan vara din ursäkt

Dataskydd bygger på ansvarsskyldighet. Den personuppgiftsansvarige ska kunna visa hur risker har identifierats och hanterats, inte bara att någon AI har körts på dokumenten.

Om du använder generativ AI som huvudsaklig metod för att hitta indirekta personuppgifter uppstår problem när någon ställer frågor om bedömningarna.

Varför maskades just den här formuleringen men inte en snarlik formulering på nästa sida?
Hur kan ni visa att alla relevanta kombinationer av uppgifter faktiskt har bedömts?
Går det att reproducera samma resultat i dag som när dokumentet anonymiserades för två år sedan?

Med en generativ modell blir svaret ofta att man inte vet. Det är svårt att försvara vid en granskning där en individ faktiskt har kunnat identifieras.

När AI blir en friskrivning i stället för ett skydd

En återkommande tendens är att generativ AI används som en sorts mental friskrivning. Resonemanget blir ungefär att man har kört allt genom AI och därmed åtminstone gjort något, och att det i slutänden är handläggaren som borde ha upptäckt det som eventuellt missades.

På pappret låter det ansvarsfullt att säga att människan alltid har sista ordet. I praktiken vet alla att tidsbrist och stress gör att ett dokument som ser prydligt genomarbetat ut ofta passerar efter en relativt snabb manuell kontroll. När AI redan har skapat ett intryck av säkerhet är det lätt att missa de subtila indirekta uppgifterna.

Hur ett mer seriöst angreppssätt brukar se ut

Mer försiktiga aktörer brukar i stället arbeta på följande sätt.

de använder testbara metoder som inte är generativa för att hitta och maskera direkta personuppgifter
de arbetar med tydliga och dokumenterade regler som går att revidera och förbättra
de betraktar indirekta personuppgifter som en riskkategori där tekniken bara kan ge begränsat stöd
de bygger processer för utbildning, interna riktlinjer och manuell granskning i känsliga ärenden

Det är mindre spektakulärt än att lova att AI löser allt, men betydligt närmare den verklighet som juridik och tillsyn faktiskt förutsätter.

Frågor att ställa innan du litar på generativ AI för indirekta uppgifter

Om du överväger att använda generativ AI för att hitta indirekta personuppgifter i riktiga dokument bör du åtminstone ställa följande frågor.

Kan vi få se resultat på skarpa och svåra dokument med både direkta och indirekta uppgifter, inte bara på demomaterial?
Finns det ett facit framtaget av erfarna handläggare som visar vad som borde maskas, så att vi kan räkna både träffar och missar?
Kan ni visa hur resultatet varierar mellan upprepade körningar på samma material?
Är det tydligt dokumenterat vilka typer av indirekta uppgifter modellen inte tar ansvar för?
Vem tar ansvar när modellen missar något som i efterhand bedöms som indirekt identifierande?

Om svaren är vaga eller om fokus ligger mer på vision och potential än på verifierad kvalitet, är det ett tydligt varningstecken.

Slutsats och varför vi inte släpper en tjänst med generativ AI för indirekta personuppgifter i dag

Generativ AI är stark inom många områden, men just när det gäller att hitta indirekta personuppgifter är tekniken i dag för osäker, för svår att kontrollera och för lätt att översälja. Kombinationen av probabilistiskt beteende, tekniska begränsningar och en falsk känsla av trygghet gör den till ett dåligt val som grund för dataskydd.

Många i branschen vill gärna hävda att generativ AI både kan hitta direkta och indirekta personuppgifter. Våra tester pekar i en annan riktning.

Vi på Avidentifiera.se har testat generativ AI som motor för att hitta indirekta personuppgifter i verkliga svenska dokument. Resultaten har varit för osäkra. Det har blivit för många missar, för ojämna beslut mellan olika körningar och för svårt att på ett begripligt sätt visa varför något har maskerats eller inte. Därför har vi medvetet valt att inte släppa någon tjänst med generativ AI för indirekta personuppgifter i dag.

Det kan ändras i framtiden om tekniken mognar och går att verifiera på ett helt annat sätt. Men i dag bedömer vi att riskerna är för stora jämfört med nyttan. Vi prioriterar hellre att ge våra kunder en kvalitativ, förklarbar och stabil maskeringstjänst baserad på metoder som inte är generativa än att erbjuda något som framför allt framstår som trendigt.

När det gäller personuppgifter bör trygghet och transparens väga tyngre än nästa AI-våg.