Ta bort personuppgifter med generativ AI – styrkor, risker och vår hybridlösning
Att ta bort personuppgifter snabbt och korrekt är avgörande för både säkerhet och regelefterlevnad. Generativ AI kan hjälpa till att hitta känsliga uppgifter i stora textmängder, men som ensam metod blir resultatet ofta dyrt, ojämnt och språkligt osäkert. Här får du en praktisk genomgång av vad som fungerar, vilka fallgropar som finns och hur vår hybridlösning kombinerar AI med egna algoritmer för att ta bort personuppgifter på svenska – utan att förstöra nyttan i texten.
Vad innebär det att ta bort personuppgifter?
Med att ta bort personuppgifter menar vi att maska, radera eller ersätta direkt identifierande uppgifter som namn, personnummer, adresser, telefonnummer, e‑post, registreringsnummer, diarienummer och andra identitetsbärare. Målet är att mottagaren inte ska kunna koppla informationen till en viss individ. I vissa fall krävs att uppgifterna försvinner helt i delningskopior; i andra fall räcker det att dölja dem för de flesta användare, medan en intern funktion kan återskapa dem vid laglig skyldighet. Vi prioriterar alltid borttagning framför ommärkning när det är möjligt och relevant.
Varför generativ AI lockar – och var den brister
Fördelar: Bra på att hitta personuppgifter i fritext, kan förstå kontext, skalar över stora dokumentmängder.
Kostnader: Långa dokument och upprepade körningar driver upp tokenkostnaderna. Utan batchning, cache och rätt modellval blir varje ärende onödigt dyrt.
Inte byggd för borttagning: Generella LLM:er är inte designade för strikt redaction. De kan råka ta bort ord som inte ska bort eller lämna kvar uppgifter som borde försvinna.
Svenska problem: Sammansättningar, böjningar, ortnamn som liknar personnamn och format som personnummer utan bindestreck gör att generella modeller missar eller övermaskar.
Kvalitet över tid: Samma uppgift kan behandlas olika i olika dokument. Det ger ojämna resultat och svårigheter vid revision.
Vanliga fel när man bara använder generativ AI
Felaktigt borttagna ord: Företagsnamn eller vanliga substantiv tolkas som personnamn och tas bort i onödan.
Missade svenska format: Personnummer utan separator, samordningsnummer, telefonnummer i fritext, diarienummer och interna ID som borde tas bort men lämnas kvar.
Övermaskning av rubriker och metadata: Ämnesrader, generiska roller och titlar döljs trots att de inte identifierar en individ.
Inkonsekvens: Samma person döljs i ett dokument men inte i ett annat, eller döljs olika i olika delar av samma fil.
Vår hybridlösning för att ta bort personuppgifter på svenska
Vi kombinerar generativ AI med egna språkanpassade regler och kod. Det ger bättre precision, lägre kostnad och högre förutsägbarhet i varje körning.
Så fungerar vår pipeline
Profilering av dokument: Vi identifierar typ, domän och känslighetsnivå för att aktivera rätt regeluppsättning.
Deterministisk upptäckt först: Svenska mönster upptäcks med regler som validerar kontrollsiffror och format – personnummer, telefon, e‑post, adresser, registreringsnummer. Dessa tas bort direkt.
Generativ kontext: AI används för svår fritext där identitet uttrycks indirekt. Modellen föreslår borttagning, men måste passera våra kvalitetsregler.
Policy och undantag: Allow‑list skyddar termer som inte ska raderas – myndighetsnamn, generiska yrkesroller och platsnamn när de inte pekar ut en individ.
Hur vi minskar kostnaden per dokument
Regler tar det enkla först: Det minskar den textmängd som skickas till AI.
Rätt modell till rätt uppgift: Mindre modeller för enkla passager, större endast där kontext krävs.
Cache och batchning: Återanvändning av föranalyser och smart segmentering av text.
Exempel på policy för att ta bort personuppgifter
Alltid ta bort: Namn på privatpersoner, personnummer, privatadress, privat e‑post och mobil.
Behåll: Myndighetsnamn, organisationsnamn, funktionsbrevlådor och generiska titlar som inte identifierar en individ.
Det här får du med vår plattform
Fokuserad borttagning av personuppgifter: Maskning, radering och ersättning som utgår från svenska format och din domän.
Hybridteknik: AI där kontext behövs, egna algoritmer där exakthet krävs.
Kostnadskontroll: Tokenkontroll, smart segmentering och återanvändning av analyser.