Création et évaluation de LLM
Contexte
Dans le cadre de l'initiative France 2030, Bpifrance a lancé en 2023 un appel à projet intitulé "Communs numériques pour l'intelligence artificielle générative". Cet appel vise à développer des modèles de langages (LLMs) spécialisés et adaptés aux besoins des entreprises. Le consortium ArGiMi, composé des entreprises Artefact, Giskard et Mistral AI ainsi que des institutions publiques Institut national de l'audiovisuel (INA) et Bibliothèque nationale de France (BnF), a été sélectionné fin mai 2024.
Les innovations majeures du projet ArGiMi comprennent le développement et l'évaluation de modèles de langage spécialisés pour le français, ainsi que des méthodes et outils pour assurer la conformité réglementaire et l'éthique dans l'utilisation de ces LLMs. Le projet, d’une durée de deux ans, vise à surmonter des obstacles techniques importants, notamment dans l'adaptation des technologies d'IA aux spécificités linguistiques et culturelles françaises.
Travaux réalisés
Dans ce contexte, l'expertise des équipes de l'INA se mobilise pour la réalisation de plusieurs tâches.
L'une des caractéristiques des données audiovisuelles tient à leur utilisation d'un français oral – avec toutes les spécificités de la langue parlée par rapport à l'écrit. Une composante essentielle de l'apport de l'INA dans ce projet est ainsi l'adaptation et l'évaluation des modèles aux cas d'usage de l'audiovisuel en général et de l'INA en particulier. Ces expérimentations, menées exclusivement par notre Service de la Recherche et uniquement sur le cluster de calcul de l'Institut, donneront lieu à des publications scientifiques et à la mise à disposition d'outils d'annotation et d'évaluation en open source. L'Institut contribuera ainsi à la construction de "communs numériques" en langue française – un enjeu de souveraineté majeur. Ces travaux seront bien sûr réalisés dans le strict respect de la législation en vigueur. Les flux audiovisuels, leurs transcriptions ainsi que les modèles spécialisés sur ces données ne seront pas partagés, y compris aux partenaires du projet, et ne serviront qu'à la réalisation d'évaluations en vue des publications scientifiques précitées.
Une étude juridique sera également menée, en partenariat avec la Bibliothèque nationale de France (BnF), pour déterminer les conditions dans lesquelles de telles données patrimoniales pourraient être exploitées – ou non – à des fins d’entraînement de modèles, de manière à les rendre plus pertinents sur des cas d’usages français, francophones et européens. Ces travaux seront naturellement menés en lien avec les deux missions confiées en 2024 au Conseil supérieur de la propriété littéraire et artistique (CSPLA) et contribueront à clarifier les options pour la rémunération des contenus culturels utilisés par les systèmes d'IA ainsi que sur la mise en œuvre effective du nouveau règlement européen sur l'IA.
Résumé
Verrous scientifiques :
- spécificité de la langue orale
- dépendance à la qualité de la transcription
- forte diversité des natures de programmes
Méthodologie :
- spécialisation de modèles génériques sur des transcriptions (fine-tuning)
- évaluation sur de multiples tâches d’extraction d’information
Livrables :
- publications scientifiques
- étude juridique
- IHM d’annotation et outils d'évaluation
Membres du projet
Nicolas Hervé (responsable du projet), Abdelkrim Beloued (chercheur), Émile Chapuis (chercheur), Steffen Lalande (chercheur), Agnès Saulnier (chercheuse)