Projet Argimi

Création et évaluation de LLM

Contexte

Dans le cadre de l'initiative France 2030, Bpifrance a lancé en 2023 un appel à projet intitulé "Communs numériques pour l'intelligence artificielle générative". Cet appel vise à développer des modèles de langages (LLMs) spécialisés et adaptés aux besoins des entreprises. Le consortium ArGiMi, composé des entreprises Artefact, Giskard et Mistral AI ainsi que des institutions publiques Institut national de l'audiovisuel (INA) et Bibliothèque nationale de France (BnF), a été sélectionné fin mai 2024.

Les innovations majeures du projet ArGiMi comprennent le développement et l'évaluation de modèles de langage spécialisés pour le français, ainsi que des méthodes et outils pour assurer la conformité réglementaire et l'éthique dans l'utilisation de ces LLMs. Le projet, d’une durée de deux ans, vise à surmonter des obstacles techniques importants, notamment dans l'adaptation des technologies d'IA aux spécificités linguistiques et culturelles françaises.

Travaux réalisés

Dans ce contexte, l'expertise des équipes de l'INA se mobilise pour la réalisation de plusieurs tâches.

L'une des caractéristiques des données audiovisuelles tient à leur utilisation d'un français oral – avec toutes les spécificités de la langue parlée par rapport à l'écrit. Une composante essentielle de l'apport de l'INA dans ce projet est ainsi l'adaptation et l'évaluation des modèles aux cas d'usage de l'audiovisuel en général et de l'INA en particulier. Ces expérimentations, menées exclusivement par notre Service de la Recherche et uniquement sur le cluster de calcul de l'Institut, donneront lieu à des publications scientifiques et à la mise à disposition d'outils d'annotation et d'évaluation en open source. L'Institut contribuera ainsi à la construction de "communs numériques" en langue française – un enjeu de souveraineté majeur. Ces travaux seront bien sûr réalisés dans le strict respect de la législation en vigueur. Les flux audiovisuels, leurs transcriptions ainsi que les modèles spécialisés sur ces données ne seront pas partagés, y compris aux partenaires du projet, et ne serviront qu'à la réalisation d'évaluations en vue des publications scientifiques précitées.

Une étude juridique sera également menée, en partenariat avec la Bibliothèque nationale de France (BnF), pour déterminer les conditions dans lesquelles de telles données patrimoniales pourraient être exploitées – ou non – à des fins d’entraînement de modèles, de manière à les rendre plus pertinents sur des cas d’usages français, francophones et européens. Ces travaux seront naturellement menés en lien avec les deux missions confiées en 2024 au Conseil supérieur de la propriété littéraire et artistique (CSPLA) et contribueront à clarifier les options pour la rémunération des contenus culturels utilisés par les systèmes d'IA ainsi que sur la mise en œuvre effective du nouveau règlement européen sur l'IA.

Résumé

Verrous scientifiques :

spécificité de la langue orale
dépendance à la qualité de la transcription
forte diversité des natures de programmes

Méthodologie :

spécialisation de modèles génériques sur des transcriptions (fine-tuning)
évaluation sur de multiples tâches d’extraction d’information

Livrables :

publications scientifiques
étude juridique
IHM d’annotation et outils d'évaluation

Membres du projet

Nicolas Hervé (responsable du projet), Abdelkrim Beloued (chercheur), Émile Chapuis (chercheur), Steffen Lalande (chercheur), Agnès Saulnier (chercheuse)