Een vrouw met een bijstandsuitkering komt regelmatig een kop koffiedrinken met haar klantmanager bij gemeente X. Ze toont een gezonde motivatie om aansluiting te behouden bij de arbeidsmarkt en de maatschappij. Bij niemand bij de gemeente komt de gedachte op dat zij de boel misschien wel voor de gek houdt. Wanneer Totta data lab de door de gemeente beschikbaar gestelde data gebruikt om te voorspellen welke burgers met een uitkering een verhoogde kans hebben op uitkeringsfraude, wijst het algoritme haar aan als iemand in de top 10 kans op fraude. De klantmanager roept de vrouw op om dat te komen bespreken, maar ze komt niet meer opdagen.
Algoritmes kunnen mogelijk toekomstig gedrag blootleggen. Met data die in lijn zijn met de Algemene Verordening Gegevensbescherming (AVG), doen de datawetenschappers voorspellingen op persoonsniveau. Gepseudonimiseerd en alleen herkenbaar voor de betreffende gemeente. De data worden gebruikt om een algoritme op te trainen. Het algoritme voorspelt vervolgens of er een hoge of lage kans op fraude is. Deze modellen leren van patronen in data en van de correcte en incorrecte voorspellingen die het algoritme doet.
‘Om een voorspelling te kunnen doen, hebben we data nodig vanuit het verleden’
Deze wetenschappelijke discipline heet machine learning: de groeiende hoeveelheid data en beschikbare rekenmodellen, maken het mogelijk om over te gaan op adaptieve modellen. Dit zijn zelflerende modellen die steeds nauwkeuriger worden in het voorspellen, omdat de uitkomsten van het model direct worden meegenomen bij het optimaliseren van het algoritme. Zodoende leert het algoritme veranderingen op te pikken in de omgevingsfactoren. Dat maakt het mogelijk om gedragspatronen individueel te identificeren.
Vergunningaanvragen, Wmo- of jeugdzorgbudgetten en bijstandsuitkeringen, lenen zich goed voor voorspellingen op basis van data. “We richten ons nu vooral op uitkeringsfraude bij 4 gemeenten of samenwerkingsverbanden”, zegt Jesse Luk, medeoprichter van Totta data lab. “Om een voorspelling te kunnen doen, hebben we data nodig vanuit het verleden. De participatiewet (vroeger de Wet werk en bijstand), inclusief de verantwoordelijkheid tot controleren van het recht op een uitkering, ligt veel langer bij gemeenten dan de Wmo of de jeugdzorg. Van die laatste onderwerpen lijkt nu pas voldoende data te zijn om te toetsen of fraude voorspellen ook daar succesvol is.”
Gemeenten doen rechtmatigheidsonderzoeken, of iemand nog steeds recht heeft op een uitkering. Zo’n onderzoek is arbeids- en tijdsintensief. Gemeenten weten graag wie ze moeten onderzoeken, zodat ze meer fraude vinden in minder onderzoeken. Luk: “Onze datawetenschappers voorspellen of er een verhoogde kans op fraude is bij de mensen die een uitkering ontvangen. Dat levert niet alleen een besparing op voor de gemeenten, maar zij hoeven daardoor ook minder mensen te storen die zich wel netjes aan de regels houden.”
Voordat voorspellend algoritme voor fraude kan worden ingezet, moet er eerst een data protection impact assessment (DPIA) plaatsvinden, om het risico van het project in te schatten. Bevatten de data die je wilt gebruiken een hoog risico als je die met partijen wilt delen? Die inschatting ligt bij de verwerkingsverantwoordelijke, in dit geval de betreffende gemeente, voordat het project start. Op basis van dat assessment wordt er gekeken of variabelen komen te vervallen of niet. En of het project überhaupt kan doorgaan.
‘Soms moeten we data schrappen, omdat ze van onvoldoende kwaliteit zijn’
Dan volgt er een toetsing van de kwantiteit en kwaliteit van data. Er moet voorspellende kracht in zitten. Bijvoorbeeld de variabele ‘geslacht’ op een onderzoekspopulatie van louter mannen, heeft geen onderscheidend vermogen. “We zien verschillen bij de gemeenten hoe goed bepaalde systemen zijn ingevuld en bijgehouden”, merkt Luk op. “Soms moeten we data schrappen, omdat ze van onvoldoende kwaliteit zijn. We adviseren de gemeenten ook over wat ze kunnen verbeteren om het algoritme nauwkeuriger te maken.”
De datawetenschappers prepareren de data die van voldoende kwaliteit zijn en trainen op die dataset het algoritme. Als dat op orde is, dan wordt het gehele uitkeringenbestand van de betreffende gemeente gecontroleerd. Dat gebeurt om de 3, 4 maanden, in lijn met de doorlooptijd van een rechtmatigheidsonderzoek. Vervolgens is het aan de gemeente met welke uitkeringsgerechtigde een handhaver of sociaal rechercheur aan de slag gaat. Die vraagt dan bijvoorbeeld documenten op, zoals bankafschriften. Mocht dat een indicatie van fraude opleveren, dan mag het onderzoek steeds een stapje verder gaan. Totdat er genoeg aanwijzingen zijn om daadwerkelijk een rechtmatigheidsonderzoek te starten.
“Hoe de algoritmes precies komen tot een voorspelling, is moeilijk te vatten voor een mens. Het is één grote combinatie van invloeden, waar een patroon in zit”, merkt Luk op. “We kunnen wel goed interpreteren welke variabelen over het algemeen zwaar meewegen in de voorspelling. Als mensen uit elkaar gaan, is dat bijvoorbeeld een vrij grote factor. De financiële situatie verandert.” Het is dan zaak om uit te zoeken of de fraude bewust gepleegd wordt of niet. Soms houdt iemand zich niet aan de informatieplicht zonder dat in de gaten te hebben. Het is aan de gemeente om dat te achterhalen. En wat dan? Wordt de uitkering stopgezet of komen er wat aanpassingen om iemand verder op weg te helpen? Ook dat is aan de gemeente. Het algoritme helpt dus niet alleen bij het opsporen van fraude, maar ook van fouten.
‘Van veel gegevens die fraude aan het licht kunnen brengen, is het onduidelijk of we die mogen gebruiken’
De AVG geeft niet over alle gegevens helderheid of ze wel of niet voor fraudeonderzoeken kunnen worden gebruikt, geeft Luk aan. “Van veel gegevens die fraude aan het licht kunnen brengen, is het onduidelijk of we die mogen gebruiken. Water- en energieverbruik bijvoorbeeld, dat biedt duidelijke patronen van hoeveel mensen er in een huis wonen. In geval van onzekerheden kiezen we ervoor om aan de veilige kant van de medaille te zitten en de data niet mee te nemen.” Meer data kunnen het plaatje helderder maken.
Het uitgangspunt van dit type dataonderzoeken is om ervoor te zorgen dat de gemeentegelden daar terechtkomen waarvoor ze zijn bedoeld. Dus aan de ene kant fraudeurs aanpakken, maar ook de mensen verder helpen die de weg niet kennen. Luk: “Een volgende stap is dat we gemeenten gaan helpen met voorspellingen of mensen recht hebben op bepaalde voorzieningen, waar ze nu nog geen gebruik van maken. Omdat ze niet op de hoogte zijn. Fraude opsporen is een ding, maar we kunnen onze diensten ook meer servicegericht inzetten. Door het geld terecht te laten komen bij de mensen die het nodig hebben.” <<