SKAT har arbejdet med data igennem mange år, og der er flere grunde til at være på forkant med udviklingen, når man er en af Danmarks største datadrevne organisationer. Dels for at kunne levere de bedste løsninger for borgerne, dels for at sikre at borgerne betaler skat og afgifter korrekt.
Når det kommer til sager om skattely og skatteunddragelse, har SKAT eksempelvis ved hjælp af big data og advanced analytics hurtigt kunnet kulegrave de omstridte Panama Papers og derved kortlægge de personer, der var involveret i sager med skattesvindel. En undersøgelse af denne karakter, ville tidligere have krævet flere års manuelt arbejde.
Søren Ilsøe Overgaard står i spidsen for SKATs arbejde med nye teknologier, og ifølge ham er det svært at finde bedre muligheder for at arbejde med data end hos SKAT, som er blandt landets mest datatunge organisationer.
Vi har mødt Søren Ilsøe Overgaard til en snak om, hvordan SKAT anvender big data til effektiv forvaltning, forståelse af borgernes behov og til at imødekomme udfordringerne for det moderne skattevæsen.
Kan du give et indtryk af, hvordan det går med at bruge big data i SKAT?
”Vi har hørt fra flere interesserede i Danmark og fra udlandet, at vi er blandt dem, som er længst fremme med at anvende big data til at understøtte vores forretning. Det skal blandt andet ses i forhold til, hvor langt det private erhvervsliv er kommet med at få brugbar værdi ud af at anvende big data. Faktisk har vores cases både medvirket til at afsløre svindel eller fået folk til at betale deres skat retmæssigt, hvilket må siges at understøtte vores mål. Jeg arbejder også løbende med at få dokumenteret, hvad vi får ud af det beløbsmæssigt. Der ligger indtil nu et muligt provenu på op mod en milliard kroner på indtil nu en investering på 20-40 millioner kroner i projekterne.”
I vil blandt andet benytte data til at levere bedre løsninger for borgerne. Hvordan vil I gøre det?
”For tre år siden lancerede vi strategien: Skatteyderen i Centrum. Kort sagt handler det om, at vi skal blive meget bedre til at forstå vores kunder, og at vi lærer dem at kende gennem data. Sidenhen er der sket meget. Da jeg blev ansat i 2014, var vi kun 40 datamedarbejdere – i dag er vi over 100. Vi har også etableret en databank, der kan hjemtage massive datamængder og levere data i realtid, hvis det er nødvendigt. Det gør det eksempelvis muligt at samkøre den fulde historik på kundeopkald med historik på vores tast-selv-portal for at finde adfærdsmønstre, og derved øge vores service på portalerne. Samkøringen af alle data tager i dag to minutter mod tidligere flere timer.”
Kan du give et eksempel på, hvad I kan bruge den slags data til?
”Det kan konkret afsløre, hvilke felter på selvangivelsen, som konsekvent får folk til at taste forkert og ringe efter hjælp. På den måde kan vi se, hvor vi skal være bedre til at formulere tekstfelter, eller hvor vores løsninger kan justeres til at give bedre information til brugeren. Vi har blandt andet udviklet en ny forecast model, som sender en reminder ud til borgerne, når deres forskudsopgørelse med stor sandsynlighed ser ud til at ændre sig inden for året – eksempelvis ved brancheskifte, skifte af arbejdssted og lignende. Det er for at forebygge, at for mange borgere får overraskelser.”
Så hvad er næste skridt for jer?
”Vi har udviklet en machine learning model, der finder frem til, hvor vi med stor sandsynlighed bør udføre kontrol. Modellen har en højere træfsikkerhed, end hvis en medarbejder ud fra egen viden skulle slå manuelt op i dokumenterne. Den er udtryk for en løbende konsolidering af alle medarbejderes erfaringer, og den udvikles hele tiden til det bedre, efterhånden som vi fodrer den med data. Opgaven er nu, at få så mange data fra vores systemer ind i databanken, at vi kan udnytte den fulde værdi. Men det er ret store datamængder, når vi taler om alle systemer med al historik og alle kilder. Hos SKAT har vi totalt set datamængder, der ikke måles i terabyte, men i petabyte.”
I arbejder også med data warehouse, og nu har I så etableret databanken. Hvad er forskellen?
”I et klassisk data warehouse-setup kan man ikke arbejde i realtid, men det kan vi nu. Forestil dig, du har en sø med data, som du ret hurtigt kan tagge med forskellige labels. Det er langt mere fleksibelt end et data warehouse, fordi data ikke først skal transformeres og lægges pænt til rette, inden de bruges. Databanken kan indeholde alle former for data i struktureret og ustruktureret form. For eksempel har vi gennemført et pilotprojekt, der handler om at øge kvaliteten i risikoscoringen på forsendelser, der kommer ind i landet, ved at tilføre endnu flere data om de logistik-kæder, som forsendelser har været igennem. Det handler ikke kun om told og afgift, det handler også om våbensmugling og terrortrusler, hvor tolderne skal operere hurtigt. I et data warehouse ville vi ikke kunne opnå det samme, som vi kan med den nye databank.
Hvilke udfordringer er der ved at benytte big data?
”Den store drøm er jo, at hælde alle data ned i et big data-system og derefter sætte et par robotter til at finde alle adfærdsmønstre på alle kunder. Men det tillader persondataloven naturligvis ikke.
Der vil være mange store drømme inden for big data, som bliver slukket eller begrænset, når den nye EU persondataforordning træder i kraft til maj. Både herhjemme, i Europa og i den private sektor. Men vi ser på mulighederne inden for de områder, vi har hjemmel til og de processer, der er underbygget af de gældende skatteregler.”
I foråret satte sagen om Panama Papers fokus på international skattesvindel. Hvad er jeres datastrategi i forhold til et internationalt samarbejde?
”Der er stigende interaktion på tværs af landegrænser og myndigheder – det er en udveksling, der er ekstrem vigtig. Når vi ser på Panama Papers var der en massiv datamængde, hvor man i gamle dage havde været nødt til at sortere og gemme data efter art og type i forskellige drev, for derefter at gennemgå datasættene, et for et, med semi-automatiske værktøjer som Excel. Med big data og nye analytics-værktøjer kan vi hurtigt og effektivt finde ud af, hvilke navne, der var involveret på tværs af data og filer. Det har sparet os flere hundrede timers arbejde.”
Hvordan betragter du SKAT som organsation?
”Vi betragter os selv i højere grad som en digital virksomhed, der arbejder med betalingsstrømme, der minder om andre virksomheder inden for finansiel teknologi. Ligesom at vi i SKAT ser på monitorering og anti-svindel, så handler det også om anti-svindel i bankerne, når teknologier benyttes til at identificere hvidvaskning. SKAT har også kigget til andre skattevæsener i eksempelvis New Zealand og Holland, som har fokuseret meget på machine learning og andre kognitive teknologier. Vi har også ladet os inspirere af det hollandske skattevæsen, der har samlet op mod 200 ansatte, der udelukkende arbejder med data.”
Hvor kommer teknologien til at spille den største rolle i fremtidens skattevæsen?
”Hvis vi skal opretholde vores skatteopgave og sikre det samme provenu, som i dag, skal vi have bevågenhed om, hvordan digitale løsninger og betalingsstrømme forandrer sig. Præcis ligesom at bankerne, og øvrige fintech-virksomheder, også skal tænke nyt. Når det gælder betalinger så får vi i dag vores data fra bankerne, men hvad gør vi med bitcoin-betalinger, der går helt uden om bankerne? Et andet problem er deleøkonomien, hvordan finder man ud af, hvem der tjener penge og betaler deres skat, som de skal? Det ville være svært at løfte den opgave i et klassisk data warehouse-setup, fordi der her er tale om flydende data.”
Afslutningsvis slår Søren Ilsøe Overgaard fast, at SKAT fremover skal ud på mange flere platforme og have fat i mange flere forskellige kilder.
”Forhåbentlig vil vores kunder kunne mærke, at de får mere målrettede og bedre løsninger i fremtiden,” siger han.