Dölja personuppgifter när det blir fel

Dölja personuppgifter när det blir fel: teckentolkningsfel och namn i gemener

Även med modern teknik kan borttagning av personuppgifter bli fel. Två typiska orsaker är teckentolkningsfel i inskannade dokument samt att sällsynta personnamn skrivs helt i gemener. Här går vi igenom varför felen uppstår, vad följden blir och hur vi minimerar risken i praktiken.

Varför uppstår fel vid borttagning

De flesta fel bottnar i att källtexten inte är ren eller att språkmönster avviker från det modellen förväntar sig. När texten saknar tydliga signaler för vad som är ett namn, en adress eller ett id blir både missade borttagningar och felaktiga borttagningar mer sannolika.

Teckentolkningsfel i dokument

Vid OCR och konvertering från bild till text kan tecken misstolkas. Vanliga exempel:

  • Teckenförväxlingar som O och 0, l och 1, rn och m, samt a och ä eller o och ö vid felaktig kodning.

  • Kolumnsammanblandning i tabeller eller tvåspalt som gör att namn hamnar bredvid fel siffror.

  • Låg upplösning eller sned skanning som skapar fel i siffersekvenser, till exempel personnummer och diarienummer.

  • Fel teckenkodning som tar bort eller byter ut å, ä och ö, vilket gör att namn och orter inte känns igen.

Konsekvensen kan bli att personuppgifter inte tas bort alls eller att oskyldiga ord maskas. I båda fallen påverkas antingen integritetsskyddet eller läsbarheten negativt.

Sällsynta personnamn skrivna helt i gemener

Många modeller använder versaler som en viktig ledtråd för att hitta namn. När ett namn skrivs helt i gemener blir signalen svag, särskilt om namnet också råkar vara:

  • Ett ovanligt eller kort namn som liknar vanliga ord eller förkortningar.

  • Ett utländskt namn eller en translitteration utan diakritiska tecken.

  • Ett dubbelnamn utan bindestreck som ser ut som två vanliga ord i följd.

Resultatet kan bli missad borttagning i text där samma person nämns på olika sätt, till exempel en gång med stor begynnelsebokstav och en gång helt i gemener.

Vad det leder till i praktiken

  • Missad borttagning av känsliga uppgifter, vilket ökar risken för otillbörlig identifiering.

  • Felaktig borttagning av ord som inte är personuppgifter, vilket skadar innehållets nytta och kan skapa missförstånd.

  • Inkonsekvens mellan filer där samma uppgift tas bort i ett dokument men inte i ett annat.

Hur vi minimerar felen med vår hybridlösning

Vi kombinerar generativ AI med egna svenska algoritmer och kvalitetssäkring för att hantera svåra fall.

  • Förbehandling av källor med kvalitetssäkrad OCR, rätning, borttagning av bakgrundsbrus, normalisering av radbrytningar och återställning av å, ä, ö.

  • Teckenförväxlingskartor som testar O mot 0, l mot 1, rn mot m och liknande par innan regler och AI körs.

  • Case-insensitiv upptäckt som inte kräver versaler för att hitta namn. Vi känner igen namn även när de skrivs helt i gemener.

  • Svenska formatregler för personnummer, telefon, e-post, adresser, registreringsnummer och diarienummer som valideras med kontrollsiffror och legitima mönster.

  • Kontextuell AI som fångar indirekta hänvisningar och namnliknande uttryck i löptext där regler inte räcker.

  • Riskstyrning och undantag med allow-list som förhindrar borttagning av ord som inte är PII, till exempel myndighetsnamn och generiska titlar.

  • Osäkerhetsflagga som lyfter fram passager med låg säkerhet för granskning, i stället för att gissa.

Råd till dig som förser oss med material

  • Exportera hellre originaltext än skannade bilder när det går.

  • Om skanning krävs, använd minst 300 dpi, rätning och ren bakgrund.

  • Undvik foton av dokument. Skanna till textbaserad PDF om möjligt.

  • Lämna gärna exempel på sällsynta namn och etablerade stavningsvarianter i din verksamhet.

Exempel på förbättring i svåra fall

  • Gemener i namn: Vår pipeline matchar namn case-insensitivt och beaktar om ordet uppträder som subjekt, i närhet av verb som typiskt följer namn, eller nära kända kontaktfält.

  • Felformade siffersekvenser: Vi provar alternativa tolkningar vid sannolik teckenförväxling och validerar mot svenska kontrollregler innan borttagning.

Sammanfattning

När texten innehåller teckentolkningsfel eller när sällsynta namn skrivs helt i gemener ökar risken för både missad och felaktig borttagning. Genom att kombinera robust förbehandling, svenska formatregler, case-insensitiv namndetektion och kontextuell AI reducerar vi felen kraftigt. Där osäkerheten kvarstår flaggar vi i stället för att gissa. Så får du material där personuppgifter tas bort på ett säkrare och mer konsekvent sätt.

Avidentifiera Avidentifiera
Automatisera borttagning av känsliga uppgifter. © 2025 Avidentifiera |
Avidentifiera Avidentifiera Cookies
Vi använder cookies för att säkerställa webbplatsens funktionalitet. Du kan när som helst justera inställningar för analys och marknadsföring (avstängt som standard). Läs vår Cookiepolicy.