Ta bort personuppgifter med generativ AI: varför det låter smidigt men är en dålig idé

Generativ AI marknadsförs just nu som ett verktyg som klarar nästan allt. Först fick den skriva marknadstexter och svara i chattbotar. Nu påstår många i branschen att samma teknik kan identifiera personuppgifter åt dig: modellen ska läsa dokumenten, hitta allt som är känsligt och lämna över en lista eller en markerad text som resten av systemet kan maska bort.

Löftet är att du bara ska behöva ladda upp dokumenten, låta AI "hitta alla personuppgifter" och sedan känna dig relativt klar. När det i skarpa ärenden visar sig att både direkta och indirekta personuppgifter finns kvar, eller att helt oskyldig text flaggats som känslig, ändras budskapet snabbt. Då heter det plötsligt att AI bara är ett stöd, att handläggaren alltid har sista ordet och att ansvaret helt ligger hos användaren.

Det här är inte bara ett kommunikationsproblem. Kärnfrågan är att generativ AI i sig är en svag grund för just identifieringen av personuppgifter. Tekniken är inte designad för att ge komplett täckning, konsekventa bedömningar och spårbarhet på en nivå som tål juridisk granskning.

Vad det egentligen innebär att ta bort personuppgifter

Att ta bort personuppgifter består i praktiken av två steg. Först måste uppgifterna identifieras. Sedan måste de hanteras på rätt sätt, till exempel maskas, raderas eller ersättas.

I identifieringssteget handlar det om att hitta bland annat:

Direkta personuppgifter som namn, personnummer, samordningsnummer, privatadress, privat e-post, privat telefon, diarienummer, interna ID och registreringsnummer som är kopplade till individer.

Indirekta personuppgifter där en person går att identifiera genom kombinationer av uppgifter. Det kan vara en unik roll i en liten kommun, en ovanlig diagnos i en snäv grupp eller en händelse där alla i organisationen ändå vet vem som avses, trots att namnet inte står i klartext.

När identifieringen är korrekt kan själva borttagningen göras ganska mekaniskt. Det är upptäcktsdelen som är svår, och det är just där många nu försöker lägga in generativ AI som motor.

Generativ AI är byggd för löptext, inte för säker identifiering

En generativ modell är skapad för att producera text som ser mänsklig ut. Den gissar vilket ord som sannolikt kommer härnäst. När den används för att hitta personuppgifter ber man den göra något annat än det den är designad för: att peka ut känsliga uttryck i stället för att bara fortsätta skriva.

Det innebär att samma egenskaper som gör modellen bra på att skriva snygga formuleringar också gör den osäker som filter. Modellen har ingen inbyggd garanti för att hitta alla relevanta personuppgifter. Den producerar sannolika svar, inte fullständiga listor.

I många lösningar används generativ AI ungefär så här: modellen försöker gissa vilka ord eller fraser som är personuppgifter och markerar dem. Därefter tar ett annat lager hand om maskning eller borttagning. Om det generativa steget missar något finns det inget senare steg som magiskt kan reparera det. Identifieringen är flaskhalsen.

Fyra centrala svagheter med generativ AI för att hitta personuppgifter

1. Osäkra beslut i gränsfall

I en demo kan generativ AI se träffsäkert ut. Men när du börjar köra riktiga dokument i större volymer blir mönstret tydligt. Två likadana personnummer behandlas olika. Ett namn som ibland tolkas som ortnamn klassas ena gången som personuppgift, andra gången inte. Två nästan identiska formuleringar, där bara datumet skiljer, kan få olika bedömning.

Det beror på hur generativ AI fungerar. Den följer inte ett fast regelverk utan gör sannolikhetsbedömningar utifrån kontext. Små variationer i texten eller hur dokumentet delats upp gör att modellen vacklar i kanten. För ett system som ska skydda riktiga människor är den typen av slumpmässighet ett allvarligt problem.

2. Integritetsfällan: din data och dina rättningar tränar modellen

För att kompensera för bristerna i generella modeller krävs det ofta att de anpassas till varje kunds verklighet. Leverantören vill att modellen ska förstå just era dokumenttyper, mallar och uttryck. Det sker sällan enbart med syntetiska testdata – det sker med riktiga ärenden.

När handläggaren går in och rättar efter AI blir dessa rättningar snabbt en del av systemets lärande. Ett namn som felaktigt maskerats återställs, en bortglömd personuppgift markeras och tas bort, en felbedömd textsnutt kommenteras. Ur leverantörens perspektiv är detta guld värt: det är facit på exakt var modellen hade fel och hur resultatet borde ha sett ut.

Tekniskt är steget kort från att logga dessa korrigeringar till att använda dem som träningsdata. I praktiken innebär det att era mest känsliga dokument – i både ursprunglig och rättad form – blir material för vidareträning (fine-tuning) och "förbättring" av modellen. Även om leverantören säger att data bara används för kvalitetssäkring är gränsen mellan driftloggar, felrapporter och träningsunderlag ofta suddig.

Konsekvensen är att personuppgifter inte bara behandlas för att avidentifieras här och nu, utan också riskerar att leva kvar som struktur i själva modellen. När samma modell eller komponenter återanvänds hos andra kunder finns en risk att mönster, formuleringar eller detaljer från tidigare ärenden påverkar svaret i en helt annan verksamhet.

För organisationer som lyder under GDPR, offentlighets- och sekretesslagstiftning eller säkerhetsskyddslagstiftning innebär det här en dubbel risk. Dels lämnar man ifrån sig känsliga uppgifter till en extern part, dels medverkar man till att uppgifterna används i en löpande utvecklingsprocess som man i praktiken inte har kontroll över. Att ladda upp sekretessbelagda handlingar till en generativ AI-modell som utvecklas vidare på kundernas faktiska ärenden går ofta stick i stäv med både GDPR och säkerhetsskyddslagstiftningen.

3. Verkliga dokument är röriga

De dokument som behöver avidentifieras är sällan perfekta textblock. De innehåller sidhuvuden, tabeller, inskannade sidor, fotnoter, fritextfält, interna kodningar och felstavningar. Svenska dokument innehåller dessutom specialfall som personnummer utan bindestreck, sammansatta ord där ett namn ingår, lokala ortnamn som liknar efternamn och diarienummer som skrivs på mer än ett sätt.

Generativ AI har svårt med den här blandningen. Modellen kan missa värden i tabeller, hoppa över fotnoter, läsa fel i dålig OCR och samtidigt börja flagga oskyldiga ord av misstag. Resultatet blir en blandning av missade uppgifter och överkänslig markering, snarare än en stabil, kontrollerad identifiering.

4. Kostsam drift utan tydlig trygghet

Generativ AI debiteras ofta per token, alltså hur mycket text som skickas in och hur mycket svar som kommer ut. Stora dokument med bilagor och mycket text blir snabbt dyra att köra genom en generativ modell, även om de innehåller relativt få personuppgifter.

Trots den kostnaden får du inte en verklig garanti. Modellen lämnar fortfarande kvar sådant den inte uppfattar som känsligt och markerar sådant som inte borde ha markerats. Det innebär att du kombinerar en hög driftkostnad med krav på manuella kontroller för att få någon nivå av trygghet. Den kalkylen är svår att försvara i längden.

Vad som faktiskt går fel i praktiken

På presentationsnivå låter det ofta enkelt. AI ska läsa hela dokumentet, hitta allt som liknar en personuppgift och sedan lämna över resten till ett system som maskar eller tar bort. I verkliga tester ser man en annan bild.

Direkta personuppgifter i lite ovanliga format upptäcks inte. Telefon, e-post, diarienummer och interna ID som ligger nedgrävda i fritextfält lämnas ibland kvar. Indirekta personuppgifter, där kombinationen av roll, ort och tidpunkt gör en person igenkännbar, flaggas inte alls. Samtidigt kan rubriker, generiska titlar eller organisationsnamn markeras som om de vore personuppgifter.

Det mest problematiska är att resultatet ser genomarbetat ut. Texten blir renare, vissa namn är borta, ett antal uttryck är markerade. För en handläggare under tidspress är det lätt att tolka det som att dokumentet redan är ganska säkert. Men modellen visar bara sina träffar, inte sina missar. De kvarlämnade riskerna döljs i den snygga ytan, och det är just de riskerna som är svårast att upptäcka i efterhand.

All AI är inte samma sak

Det är viktigt att skilja mellan generativ AI och andra sätt att använda AI. Det är inte så att all AI är dålig för den här uppgiften. Tvärtom kan mer specialiserade modeller vara värdefulla verktyg, så länge man är ärlig med vad de klarar och vad de inte klarar.

Det går till exempel att använda icke generativa modeller, statistik, mönsterigenkänning och regler för att upptäcka olika typer av personuppgifter. De systemen är också komplexa och svåra att helt "förstå" på insidan. Skillnaden ligger i hur brett man försöker använda dem och hur hårt man testar dem mot just den typ av data de ska skydda.

Poängen är att man inte kan behandla all AI som ett magiskt lager ovanpå text. För dataskydd krävs en snävare användning: modeller som är tränade för en tydlig uppgift, testade mot rätt typ av material och inbyggda i ett flöde där deras begränsningar är kända. Generativ AI används ofta tvärtom, som en allmän problemlösare där man hoppas att den "förstår" vad som är känsligt.

Ett mer robust sätt att använda teknik för borttagning

En mer robust strategi är att låta tekniken göra det den är bra på och sätta ramar runt resten. Identifieringen av direkta personuppgifter kan till stor del automatiseras med hjälp av mönster, specialiserade modeller och annan AI som är tränad just för dessa format. Där kan man bygga upp tester, mäta resultat över tid och vid behov byta ut eller justera komponenter.

För indirekta personuppgifter är det mer realistiskt att kombinera tekniskt stöd med processer. Verktyg kan hjälpa till att lyfta fram riskzoner, men man behöver samtidigt riktlinjer, utbildning och manuell granskning i ärenden där kombinationer av uppgifter kan bli känsliga. Det viktiga är att inte låtsas att någon modell löser allt, utan att integrera den i ett flöde där mänskligt omdöme fortfarande har en tydlig plats.

Varför vi på avidntifiera.se inte använder generativ AI för identifiering av personuppgifter

Vi på avidntifiera.se använder också AI. Vi använder däremot inte generativ AI som motor för att hitta personuppgifter i dokument. I stället använder vi en kombination av specialiserade modeller, regler och annan automatiserad analys som är inriktad på just avidentifiering.

Vi har testat generativ AI på verkliga svenska dokument med både direkta och indirekta personuppgifter, blandade format, långa ärenden och känsligt innehåll. Vår slutsats är att generativ AI i dag är för osäker för att vara kärnan i identifieringen. Modellerna varierar för mycket mellan körningar, missar för mycket i kanterna och är svåra att använda på ett sätt som går att förklara för den som bär det juridiska ansvaret.

Samtidigt är vi fullt medvetna om att även de AI-modeller vi använder har begränsningar. De är inte magiska, inte fullständigt transparenta och inte perfekta. Skillnaden är hur vi använder dem. Vi låter inte en generativ modell sitta som sista filter före utlämnande. Vi bygger i stället en kedja där varje del är så kontrollerad som möjligt, där vi testar mot svensk text, begränsar användningsområdet och accepterar att vissa saker fortfarande kräver mänskligt omdöme.

Vi har satsat på att vår tjänst ska vara så säker och förutsägbar som möjligt, med målet att våra kunder ska kunna minska behovet av manuell kvalitetsgranskning kraftigt. Med en generativ AI som identifieringsmotor tvingas handläggaren i praktiken läsa igenom mycket mer av materialet med misstänksam blick: vad har modellen missat, vad har den hittat på, vad har den överdrivet markerat. Det är inte ett rimligt arbetssätt om man vill ha stabila flöden.

Det betyder inte att generativ AI aldrig kan bli användbar i den här typen av processer. I framtiden kan modellerna bli mer kontrollerbara, bättre integrerade i system med hårda begränsningar och lättare att verifiera. Men i dag bedömer vi att riskerna är för stora jämfört med nyttan när det gäller identifiering av personuppgifter.

Vi väljer därför att hellre ge våra kunder en lösning som är så trygg, konsekvent och praktiskt användbar som möjligt än att erbjuda en trendig generativ AI-funktion som kräver omfattande manuell efterkontroll. När det gäller riktiga personuppgifter tycker vi att säkerhet och låg kvarvarande risk ska gå före nästa våg i AI-hypen.

Avidentifiera Avidentifiera
Automatisera borttagning av känsliga uppgifter. © 2025 Avidentifiera |
Avidentifiera Avidentifiera Cookies
Vi använder cookies för att säkerställa webbplatsens funktionalitet. Du kan när som helst justera inställningar för analys och marknadsföring (avstängt som standard). Läs vår Cookiepolicy.