Just nu försöker många i branschen rida på vågen av generativ AI. Samma teknik som används för att skriva mejl, skapa marknadstexter och sammanfatta rapporter presenteras plötsligt som lösningen på allt som har med personuppgifter att göra.
Budskapet brukar börja offensivt, med formuleringar som: "Vår AI hittar alla personuppgifter, även indirekta" och "Det är bara att ladda upp, resten sköter modellen".
När verkligheten kommer ikapp och det visar sig att känsliga uppgifter har lämnats kvar, ändras tonen snabbt till mer försiktiga formuleringar som: "AI är bara ett hjälpmedel, människan har alltid ansvaret" eller "Verktyget ska ses som ett stöd, inte som en garanti".
Det är ett bekvämt sätt att först sälja in generativ AI som en automatisk lösning och sedan skjuta över ansvaret på användaren. Problemet är att det suddar ut det viktigaste: tekniken i sig är en mycket dålig idé som grund för att hitta personuppgifter, särskilt indirekta, när verkligt dataskydd står på spel.
Vad är indirekta personuppgifter egentligen?
Direkta personuppgifter
Direkta personuppgifter är sådant som tydligt pekar ut en person:
namn på privatpersoner
personnummer och samordningsnummer
privata adresser, telefonnummer och e-post
unika ID-nummer, diarienummer eller registreringsnummer kopplade till en individ
Den här typen av uppgifter går ofta att hitta med stabil, icke generativ teknik. Regler, mönster, kontrollsiffror och lexikon kan testas, förbättras och dokumenteras. Resultatet är mätbart och går att upprepa.
Indirekta personuppgifter
Indirekta personuppgifter är något helt annat. Här blir en person identifierbar genom kombinationer av uppgifter, utan att namnet står utskrivet:
en unik roll i en liten kommun
en ovanlig diagnos i en begränsad grupp
en kombination av arbetsplats, tidpunkt och händelse
formuleringar där man i praktiken menar "den enda" specialisten, läraren eller handläggaren
Om det går att förstå vem det handlar om i den miljö där texten delas, är det en personuppgift. Den bedömningen kräver kontext, omdöme och förståelse för verkligheten utanför PDF:en. Här är generativ AI som sämst, trots att den ofta marknadsförs som lösningen.
Varför generativ AI misslyckas med personuppgifter i praktiken
Probabilistisk textgenerator, inte skyddsverktyg
Generativ AI är konstruerad för att förutsäga sannolika nästa ord. Den är duktig på att skriva flytande text, men den är inte byggd för att uppnå hög, verifierbar träffsäkerhet vid upptäckt av känslig information.
Det får flera konsekvenser: modellen har ingen inbyggd garanti för att hitta allt som borde hittas, bara en sannolikhet att hitta "tillräckligt mycket"; två körningar på samma dokument kan ge olika resultat, även utan ändringar i texten; och det går inte att härleda ett konkret regelverk utifrån modellens beslut, eftersom logiken ligger inbäddad i miljarder parametrar.
För marknadstext spelar det mindre roll om modellen missar något. För personuppgifter är det direkt farligt.
Integritetsfällan: din data och dina rättningar tränar modellen
När generativ AI används i verkliga ärenden loggas ofta både originaldokument och handläggarnas rättningar: vad som skulle ha maskerats, vad som återställts och vilka formuleringar som egentligen borde ha bedömts som känsliga.
För leverantören blir detta värdefullt underlag för att "förbättra" modellen. För dig innebär det att riktiga ärenden – inklusive korrigerad och ibland extra känslig text – riskerar att användas i en löpande tränings- och utvecklingsprocess utanför din kontroll. Gränsen mellan att bara behandla uppgifter för avidentifiering här och nu och att använda dem som bränsle för en extern AI-tjänst suddas ut, vilket gör det svårt att fullt ut överblicka hur och var personuppgifter faktiskt behandlas.
Långa dokument och token-begränsningar
När dokumenten blir långa behöver texten delas upp i segment för att få plats i modellens kontextfönster. Det skapar fler felkällor: namn, adresser eller ID kan ligga precis i gränsen mellan två segment och tappas bort, återkommande personer kan upptäckas i ett segment men missas i ett annat, och indirekta uppgifter som kräver helhetsbild blir osynliga när modellen bara ser en bit i taget.
Det här är en teknisk begränsning i hur modellerna fungerar, inte något man kan marknadsföra bort.
Layout, format och språkliga detaljer
Verkliga dokument är sällan ren text. De innehåller tabeller, fotnoter, scannade sidor, sidhuvuden och blandningar av språk och format. Generativ AI har svårt att konsekvent tolka tabellstrukturer och kolumner, hantera felaktiga eller kreativa skrivsätt av personnummer, telefonnummer och diarienummer samt skilja mellan personnamn, ortnamn och organisationsnamn, särskilt på svenska.
Resultatet blir typiskt en blandning av missade personuppgifter och övermaskning av sådant som borde ha fått stå kvar.
Varför generativ AI är extra svag just för indirekta uppgifter
Modellen saknar din verklighet
Generativ AI vet inte hur liten en viss ort är, hur många som har en viss befattning i din organisation eller vad mottagarna av dokumentet redan känner till. Därför behandlas formuleringar som:
"den enda skolpsykologen på orten"
"kommunens enda hjärtläkare"
"den person som förlorade vårdnadstvisten i X den här hösten"
som ganska generella, trots att de i praktiken pekar ut en identifierbar person i en given miljö. Modellen har ingen koppling till den sociala och geografiska verklighet där dokumentet ska läsas.
Det går inte att mäta vad som saknas
För indirekta uppgifter är det ofta omöjligt att se alla riskabla kombinationer manuellt. Om du lägger ett generativt lager över texten får du i bästa fall en lista med det modellen hittade – men ingen lista över det modellen inte ens försökte bedöma.
Den osynliga felmängden är just det som är farligt. Verktyget visar upp sina träffar, men säger ingenting om de indirekt identifierande fall som inte flaggats överhuvudtaget.
Juridiskt ansvar: AI kan inte vara din ursäkt
Dataskydd bygger på ansvarsskyldighet. Den personuppgiftsansvarige ska kunna visa hur risker identifierats och hanterats, inte bara att "någon AI" har körts på dokumenten.
Om du använder generativ AI som huvudsaklig metod för att hitta indirekta personuppgifter hamnar du i problem när någon frågar:
Varför maskades just den här formuleringen men inte en snarlik på nästa sida?
Hur kan ni visa att alla relevanta kombinationer av uppgifter faktiskt bedömts?
Går det att reproducera samma resultat i dag som när dokumentet anonymiserades för två år sedan?
Med en generativ modell är svaren ofta "det vet vi inte". Det är svårt att försvara vid en granskning där en individ faktiskt har kunnat identifieras.
När AI blir friskrivning i stället för skydd
En återkommande tendens är att generativ AI används som en sorts mental friskrivning. Resonemanget blir ungefär att "vi körde allt genom AI, alltså har vi 'gjort något'", och att om något ändå missas är det handläggaren som borde ha sett det.
På pappret låter det ansvarsfullt att säga att "människan alltid har sista ordet". I praktiken vet alla att tidsbrist och stress gör att ett dokument som ser prydligt genomarbetat ut ofta passerar med relativt snabb manuell kontroll. När AI redan har skapat ett intryck av säkerhet är det lätt att missa de subtila indirekta uppgifterna.
Hur ett mer seriöst angreppssätt brukar se ut
Mer försiktiga aktörer gör i stället så här:
använder icke generativa, testbara metoder för att hitta och maskera direkta personuppgifter
arbetar med tydliga, dokumenterade regler som går att revidera och förbättra
betraktar indirekta personuppgifter som en riskkategori där tekniken bara kan ge begränsat stöd
bygger processer för utbildning, interna riktlinjer och manuell granskning i känsliga ärenden
Det är mindre spektakulärt än att lova att "AI löser allt", men betydligt närmare den verklighet som juridik och tillsyn faktiskt förutsätter.
Frågor att ställa innan du litar på generativ AI för indirekta uppgifter
Om du överväger att använda generativ AI för att hitta indirekta personuppgifter i riktiga dokument, ställ åtminstone dessa frågor:
Kan vi få se resultat på skarpa, svåra dokument med både direkta och indirekta uppgifter, inte bara på demomaterial?
Finns ett facit framtaget av erfarna handläggare som visar vad som borde maskas, så vi kan räkna både träffar och missar?
Kan ni visa hur resultatet varierar mellan upprepade körningar på samma material?
Är det tydligt dokumenterat vilka typer av indirekta uppgifter modellen inte tar ansvar för?
Vem tar ansvar när modellen missar något som i efterhand bedöms som indirekt identifierande?
Om svaren är vaga eller om fokus ligger mer på vision och potential än på verifierad kvalitet, är det ett tydligt varningstecken.
Slutsats och varför vi inte släpper en AI tjänst för indirekta personuppgifter i dag
Generativ AI är stark för många uppgifter, men just att hitta indirekta personuppgifter är ett område där tekniken i dag är för osäker, för svår att kontrollera och för lätt att översälja. Kombinationen av probabilistiskt beteende, tekniska begränsningar och en falsk känsla av trygghet gör den till ett dåligt val som grund för dataskydd.
Många i branschen vill gärna hävda att generativ AI både kan hitta direkta och indirekta personuppgifter. Våra tester pekar i en annan riktning.
Vi på avidntifiera.se har testat generativ AI som motor för att hitta indirekta personuppgifter i verkliga svenska dokument. Resultaten har varit för otrygga: för många missar, för ojämna beslut mellan olika körningar och för svårt att på ett begripligt sätt visa varför något maskats eller inte. På grund av det har vi medvetet valt att inte släppa någon generativ AI tjänst för indirekta personuppgifter i dag.
Det kan ändras i framtiden om tekniken mognar och går att verifiera på ett helt annat sätt. Men i dag bedömer vi att riskerna är för stora jämfört med nyttan. Vi prioriterar hellre att ge våra kunder en kvalitativ, förklarbar och stabil avidentifieringstjänst baserad på icke generativa metoder än att erbjuda något som mest är trendigt.
När det gäller personuppgifter ska trygghet och transparens väga tyngre än nästa AI-våg.