La Quadrature du Net, expérimentation algorithme datamining CSS, ex CMU-C
Madame, Monsieur,
La CADA a, dans son avis n° 20235120 du 02 novembre 2023, émis un avis défavorable à la communication des documents concernant l'ensemble des algorithmes de profilage utilisés ou ayant été utilisés par la CNAM à des fins de contrôle, estimant que la demande faisait porter sur la CNAM une charge de travail trop importante.
Il existe en effet un nombre important de ces programmes liés tant au contrôle des professionnels de santé (Profileur, scoring des infirmiers, fraudes aux médicaments, dispositifs médicaux, soins dentaires...) qu'à celui des assurés (contrôle PUMA, AME, CMU-C...).
Par la présente demande, afin de tenir compte de cet avis, je sollicite la communication de documents relatif au seul programme de profilage développé pour le contrôle de la Complémentarité Santé Solidaire (CSS, ex CMU-C).
Concernant ce programme, les documents publiquement disponibles indiquent:
- Qu'une première expérimentation de l'utilisation d'un algorithme de profilage à des fins de contrôle de la CMU-C a eu lieu en 2010/2011. Cette expérimentation n'a a priori pas donné suite à sa généralisation.
- En 2017 les travaux ont repris avec le développement d'un nouveau modèle de profilage.
- En 2018, cet algorithme a fait l'objet d'une expérimentation dans 16 caisses locales.
- En 2019, et à la suite de cette expérimentation, une première version de l'algorithme a été généralisé à l'ensemble des caisses à des fins de rationalisation des contrôles CSS (ex CMU-C).
- En 2021, une deuxième version de cet algorithme a été publiée. C'est cette deuxième version qui est utilisée depuis lors.
* **Concernant l'expérimentation ayant eu lieu en 2010/2011**
Le rapport annuel 2011 de la CNAM établi conformément à l’article L.114-9 du code de la sécurité sociale précise qu'une « expérimentation de datamining » a été initiée par la Caisse Régionale d'assurance maladie d'Ile de France (CRAMIF) en 2010. Il est ajouté qu'en octobre 2010, le travail de la CRAMIF a pris fin et qu'il « a permis de tirer un certain nombre d’enseignements pour mettre en œuvre une nouvelle expérimentation».
Le même document indique qu'à la suite de cette première phase « une expérimentation, au niveau national, des méthodes de datamining est menée sur le thème de la CMUC. » Il ajoute que l’objectif était en 2011 de « développer 3 modèles à mettre en concurrence », que « les résultats devraient être présentés à la CNAMTS en 2012 » et qu’« un bilan de ces différentes expérimentations de datamining sera réalisé en fin d’année 2012. »
* **Concernant le développement d'un nouveau modèle à partir de 2017**
Concernant le développement d'un nouveau modèle à partir de 2017, son expérimentation en 2018, sa généralisation en 2019 et sa modification en 2021, ma demande s'appuie sur les rapports annuels 2018, 2019 et 2020 de la CNAM établis conformément à l’article L.114-9 du code de la sécurité sociale.
Il est ainsi précisé dans le rapport 2018 que « le modèle de datamining par apprentissage supervisé développé en 2017 » visant à rationaliser les contrôles CMU-C « a été expérimenté en 2018 dans 16 caisses du réseau de l’Assurance Maladie dans la perspective d’une généralisation en 2019 ».
Le rapport 2019 précise quant à lui que « les résultats du data mining supervisé mis en place dans le cadre du programme national de contrôle CMU-c (expérimentation 2018) » ont fait l'objet d'une « généralisation » en 2019.
Prenant acte de l'avis numéro 20225787 de la CADA qui précise que ne sont communicables que le code source des versions n'étant plus utilisées suite à la mise à jour des algorithmes de profilage, je tiens à préciser que cet algorithme a fait l'objet de deux versions.
La première a été utilisée entre 2019 et 2021 ; la seconde a été utilisée à partir de 2021. Ces informations se basent sur les rapports annuels de lutte contre la fraude produits en 2019 et 2020 . Il y est notamment écrit que:
- Rapport annuel fraude 2020 : « Des travaux ont été réalisés en 2020 afin d’améliorer la détection des dossiers à contrôler, avec des outils qui seront mis à disposition du réseau au cours du deuxième trimestre 2021 (nouveau modèle de data mining national.) »;
- Rapport annuel fraude 2021: « Cela s’explique notamment [les changements] par la diffusion d’un nouveau modèle de data mining, mis à la disposition du réseau au cours du second trimestre 2021»
* **Documents demandés**
En application du livre III du code des relations entre le public et l'administration, je sollicite donc, au nom de l’association La Quadrature du Net, la communication des documents administratifs suivants relatifs à l'utilisation d'algorithmes de profilage à des fins de contrôle des assurés de la CSS, ex CMU-C:
1. Concernant l'expérimentation menée en 2010/2011:
1.1. Les principaux documents relatifs au bilan des expérimentations réalisée en Ile-de-France et dans 16 caisses locales en 2010/2011, en particulier le bilan de ces expérimentation tel qu'évoqué dans le rapport annuel fraude de 2011;
1.2. La communication des codes sources des modèles datamining testés en 2010 et en 2011 - en particulier les 3 modèles mis en concurrence en 2011 évoqués ci-dessus - incluant les étapes de préparation des données utilisées.
Étant donné que cette expérimentation a eu lieu en 2010, l’article L. 311-5 f et g du CRPA ne saurait être invoqué pour refuser la communication de ces documents, en particulier des codes sources des modèles développés à l'époque et n'étant plus utilisés aujourd'hui, conformément à l'avis de la CADA numéro 20225787.
2. Concernant le développement de nouveaux modèles à partir de l'année 2017 et leur expérimentation en 2018:
2.1. Les principaux documents de travail relatifs à la construction du ou des modèles construit(s) en 2017 puis expérimentés en 2018. Ceci inclut la documentation technique (présentation des modèles, leur évaluation, leur comparaison), les comptes-rendus des principales réunions et les documents de bilan de la phase d'expérimentation ;
2.2. La communication des codes sources des modèles de datamining testés durant la période 2017/2018, incluant les étapes de préparation des données utilisées.
3. Concernant l'algorihme utilisé entre 2019 et 2021:
3.1. Les principaux documents de travail et documents techniques relatifs à cet algorithme: manuel technique et notes internes;
3.2. L'analyse d'impact relative à la protection des données (AIPD) de cet algorithme ;
3.3. La communication de son code source incluant les étapes de préparation des données utilisées.
4. Concernant l'algorithme utilisé depuis 2021:
4.1. Les principaux documents liés à la mise à jour du modèle en 2021, dans le respect de l'avis de la CADA numéro 20225787;
Je souhaite recevoir ces documents dans un format numérique, ouvert et réutilisable. Pour ce faire, je vous prie de m'indiquer une adresse de téléchargement ou de me les envoyer en pièce jointe par email.
Bien cordialement,
Noémie Levain
Juriste à La Quadrature du Net
Madame, Monsieur,
Je vous prie de m'excuser, je me référais à l'avis numéro 20226179 de la CADA et non le conseil numéro 20225787.
Veuillez agréer, Madame, Monsieur, l'expression de mes sentiments distingués.
Noémie Levain
La Quadrature du Net
Madame, Monsieur,
En l'absence de réponse de votre part, je me vois dans l'obligation de saisir la CADA.
Veuillez agréer, Madame, Monsieur, l'expression de mes sentiments distingués.
Noémie Levain
La Quadrature du Net