J'ai lu la série d'articles qu'ils ont publié ce matin,
Ce qu'il faut comprendre, c'est que l'algo est basé sur du data mining, et créé a la base "sans préjugé" :
Ils ont tiré au sort 7000 personnes et fait des controles, puis ils ont regardé quels étaient les cas où il y avait des erreurs et comparé ça (de façon automatisée) aux données sur ces personnes.
Ces données représentent des milliers de point de données potentiels (age, composition du foyer, revenus, depuis quand on touche des allocations, changements récents etc).
L'algo construit alors un score de risque. Ce qui permet de prédire le risque d'une personne.
En soit, ça ne me choque pas, on fait ce genre de chose pour énormément de cas. Perso, bossant pour en santé, des scores de risques basés sur du data mining, c'est archi courant, et ça peut pas vraiment etre biaisé par un préjugé si le modèle est bien construit.
Pour la discrimination, on peut facilement argumenter que un algo de prédiction ayant des milliers de variables est une sorte de boite noire. Surtout si en entrée, on utilise le résultat d'une étude aléatoire (sachant que le processus a été répété plusieurs fois dans le temps)
Ce qui me choque plus, c'est ce qui en est fait ensuite. Se rendre compte que certains profils sont plus "a risque", c'est une oportunité de comprendre pourquoi. L'algo ne dit pas "les gens précaires fraudent", mais "les erreurs sont plus fréquentes chez tel type de personnes". Et c'est surtout une opportunité de faire de la prévention, en accompagnant les personnes "a risque" (ex : ceux ayant vécu un changement important comme le décès de leur compagnon). Et de simplifier certaines procédures complexes, en mettant en avant les informations importantes.
Quand on creuse (avec les autres articles du monde par exemple), on se rend compte que il y a une complexité importante des déclaration de la caf, avec des cas un peu absurdes. Par exemple, la demande des allocations pour handicap sont lourdes et l'erreur est facile.
En gros, ce ne sont pas les "plus précaires" qui "frauderaient", mais simplement que leur site est mal foutu. Quand on a les moyens, on a souvent besoin de la caf que pour des cas "simples" (ex : aide pour garde d'enfant), et on est facilement guidé.
Quand on a diverses besoin d'aide, ça se complexifie.
L'algo repère de façon objective les soucis, et du coup ça me semble "ok" d'avoir cet outil là, mais il faudrait que les controles soient précédés de mesures préventives et de simplifications.