Contrat : CDD Cadre du secteur privé
Offre d'emploi publiée le 02.05.2024
Le poste : R&D / Haute technologie
L'entreprise
EPIC créé en 1975, l’INA est chargé de conserver, de valoriser et de transmettre le patrimoine audiovisuel français. Premier centre d’archives numérisées au monde avec plus de 3 millions et demi d’heures de télévision et de radio auxquelles s’ajoutent chaque année 800 000 heures au titre du dépôt légal, l’INA compte environ 1 000 salariés.
Dans une démarche d'innovation tournée vers les usages, l'INA valorise ses contenus pour les partager avec le plus grand nombre : sur ina.fr et madelen.ina.fr pour le grand public, sur inamediapro.com et mediaclip.ina.fr pour les professionnels, à l'INA thèque pour les chercheurs.
Avec plus de 2 400 documentaires et programmes produits depuis 40 ans, l'INA a acquis une expérience et un savoir-faire uniques dans la construction du récit et le traitement visuel des archives.
L’Institut assure la mise en œuvre des missions de collecte, catalogage, numérisation, conservation physique et numérique à des fins d’exploitation des collections audiovisuelles et issues du web médias. Elle porte également les missions de la Recherche ainsi que le développement et l’exploitation des technologies industrialisées par l’INA.
L’INA concentre également des compétences d’expertise, une vocation d’observatoire des médias, au service de l’excellence et de l’innovation. Enfin, l’Institut est l’un des premiers centres de formation initiale et continue aux métiers de l’audiovisuel et des nouveaux médias et s’affirme comme un laboratoire de recherche et d’expérimentation.
Les travaux menés au sein du service de la Recherche de l’INA visent notamment à améliorer les approches numériques permettant d’extraire, d’indexer, de modéliser, de visualiser et de comprendre des connaissances depuis les fonds audiovisuels conservés par l’institut. Ces méthodes numériques sont principalement utilisées pour aider à la documentation des fonds ainsi que dans des travaux transdisciplinaires pour avoir une meilleure connaissance des médias et de la façon dont ils parlent de la société.
La mission
Mission
Dans le cadre du projet ANR Pantagruel, l’Institut recrute un postdoc spécialisée en TAL (Traitement automatique des langues). Le cadre des travaux proposé est l’analyse de transcriptions de flux audiovisuels dans le cadre de l’évaluation de LLMs. Il s’agit donc de reprendre et adapter des tâches de NLP / SLU au contexte particulier de ces contenus. Les principales tâches sur lesquelles il/elle sera amené à se pencher sont à déterminer parmi les suivantes : segmentation sémantique, détection d’événements médiatiques, extraction de citations, désambiguïsation d'entités nommées, analyse de sentiments, catégorisation, résumé automatique, détection de propos haineux et RAG. Pour ces tâches, il est prévu de mener de bout en bout la création de corpus (train et eval) avec les équipes de l’INA, le développement du code et l’évaluation sur plusieurs modèles de fondation, dont ceux issu du projet Pantagruel. Un accès à notre cluster de calcul ainsi qu’à AdAstra est prévu.
Activités principales
1/ Organiser une veille scientifique et effectuer des travaux de recherche visant à améliorer l’état de l’art, notamment sur de gros corpus de données issus des collections de l’INA
2/ Concevoir, implémenter, tester, évaluer des outils technologiques innovants dans le cadre des usages existants ou pressentis de l’Institut, notamment ceux définis dans le projet Pantagruel
3/ Collaborer avec l’ensemble des acteurs internes (notamment la tribu IA et le Lab) et externes (partenaires scientifiques)
4/ Rédiger ou participer à la rédaction d’articles scientifiques et présenter ces articles dans des colloques, séminaire ou salons
5/ Participer à la stratégie de recherche et développement du service
6/ Participer à la rédaction des documents liés à l’activité (rapports d’activité, livrables des projets en particulier).
Le profil recherché
Qualifications, diplômes, expérience :
Justifier d'un doctorat en informatique, spécialité : traitement automatique des langues et/ou machine learning, ou parcours professionnel admis en équivalence.
Compétences :
• Expérience significative dans une ou plusieurs tâches nécessitant d’utiliser des stratégies d’apprentissage automatique appliquées au texte : sentence labeling, traduction automatique, classification de textes, POS tagging, segmentation de textes, résumé automatique, génération de texte, extraction d’entités nommées (NER), systèmes de question/réponses (QA), détection de concepts, apprentissage et adaptation de modèles de langue, modèles de plongement lexicaux
• Expérience significative en développement informatique, bonne autonomie : architecture logicielle, tests unitaires, design patterns, calcul distribué, profiling CPU et GPU, Linux, Docker
• Expérience dans la recherche académique et/ou industrielle;
• Expérience en publications scientifiques
• Expérience de projets collaboratifs
• Très bonne maîtrise de l’anglais écrit et parlé
• Bonne connaissance des méthodes d’analyse quantitative et compétences en statistiques
• L’implication dans des projets open-source serait un plus
• Une connaissance des domaines de l’audiovisuel et des médias, des Sciences Humaines et Sociales et des Humanités Numériques serait un plus
Aptitudes
• Esprit d’équipe
• Ouverture d’esprit, curiosité
• Sens de l’écoute
• Sens de la pédagogie
• Capacité rédactionnelles
• Esprit d’analyse et de synthèse
• Force de proposition