Ingénieur d'étude en traitement automatique des langues (H/F)

Paris 5e

Missions

Le cadre général du travail est celui de l’évaluation des grands modèles génératifs (giga modèles de langue ou LLM) multilingues, c'est-à-dire des modèles génératifs qui prennent en charge plus d'une langue. La question principale qui se pose est celle de la mesure du niveau de "multilinguisme" d'un modèle - pour le formuler de manière simple "combien (et quelles) de langues le modèle est-il capable de prendre en charge (et avec quel niveau de qualité)"? Ce travail de réflexion méthodologique s'inscrit dans le cadre du projet européen LLM4EU qui vise à développer des modèles et des cadres d'évaluation pour toutes les langues officielles de l'UE.

Contexte scientifique

Les outils de traitement des langues s'appuyant sur des grands modèles de langue dits génératifs ont en quelques années atteint des niveaux très élevés de performance pour des tâches complexes. Ils sont aujourd'hui largement présents dans nos environnements numériques de travail pour accéder à l'information, l'analyser, la reformuler, ou encore pour générer des contenus originaux. Avec la large diffusion de ces technologies, l'analyse des performances réelles, des risques et des limitations de ces modèles se pose de manière accrue. Lorsque ces modèles sont multilingues, une dimension de l'évaluation doit concerner le niveau de multilinguisme d'un modèle.

Cette évaluation est difficile, faute de pouvoir (en général) accéder directement à partir de l'analyse des données et protocoles d'apprentissage et doit donc être effectuée en "boîte noire" à partir de requêtes soumises à un modèle entraîné. Il existe de multiples tâches et parangons monolingues, surtout pour l'anglais, mais la qualité et variété de ces parangons est très inégalement répartie entre langues. Une seconde difficulté est liée à la nécessité de comparer les performances entre langues: or dans cette comparaison, des facteurs multiples peuvent entrer en ligne de compte, certains liés au modèle, mais d'autres qui sont intrinsèques aux langues considérées.

Dans un premier temps, le travail visera à construire des mesures robustes applicables à des modèles qui rendent accessibles les représentations et les distributions de probabilité qui sont manipulées: pour ces modèles nous étudierons la validité de plusieurs métriques inspirées de la théorie de l'information (compression, perplexité), et à les déployer sur une infrastructure ouverte. Dans un second temps, le travail visera à étudier des méthodes pour minimiser les différences entre langues et rendre les métriques plus directement comparables -- par exemple en utilisant des transcodages "universels" plus équitables entre langues (par translittération, phonétisation, etc.). En parallèle, on s'intéressera à généraliser les métriques proposées pour les modèles ouverts à des modèles fermés.

Activités

La personne recrutée travaillera en collaboration avec les membres du laboratoire travaillant sur le traitement des langues; plus largement, elle entretiendra des collaborations au sein du projet "LLM4EU" (dans d'autres laboratoires du CNRS, et plus généralement d'autres partenaires du projet), pour évaluer les grands modèles de langue multilingues, en particulier pour mesurer leurs compétences linguistiques; puis à rendre compte de ce travail dans des articles et communications scientifiques. Une partie significative de l'activité sera de nature expérimentale et demandera de conduire des expériences sur les (grands) modèles de l'état de l'art.

Compétences

Nous recherchons une personne hautement motivée:
- titulaire d'un diplôme de master ou école d'ingénieur récent en intelligence artificielle avec des compétences en apprentissage profond, traitement automatique des langues, recherche d'information ou traduction automatique.
- maitrisant Python et des plateformes d'apprentissage profond et des principaux frameworks pour manipuler des modèles de langue et les algorithmes de génération de textes;
- maîtrisant français et anglais scientifique (écrit et oral), un intérêt général pour les langues sera un plus.

Contexte de travail

La personne recrutée travaillera à l'Institut des Systèmes Intelligents et de Robotique, un laboratoire pluridisciplinaire de Sorbonne Université du CNRS, au sein de l'équiple "Machine Learning and Deep Learning for Information Access" (MLIA - qui s'intéresse à l'apprentissage automatique et à ses applications, en particulier en traitement des langues. Situé sur le corpus de Jussieu, au centre de Paris, l'ISIR regroupe plus de 250 membres et est un acteur majeur de l'IA et de la Robotique en Europe (

Contraintes et risques

Travail sur écran, sans autre risque particulier.

Publié le 2025-11-15

Emplois Recommandés

Chef de Projet Merchandising H/F

DAUM
Paris 8e

Et si vous donniez forme à l'expression visuelle d'une maison d'exception ? Au sein de la Maison Daum, vous participez à la mise en valeur des collections dans les espaces de vente et d'exposition.…

Voir les Détails
Publié le 2025-11-18

RRH sur Longjumeau (91) dans le retail

Mon Consultant Indépendant
Paris

Le besoin Notre client une grande enseigne, avec un siège, en support des magasins, de 550 salariés et implanté sur Longjumeau (91), recherche à plein temps pour 4 à 6 mois (transformable en CDI) …

Voir les Détails
Publié le 2025-11-06

Consultant RWE & Données Cliniques H/F

Ividata Life Sciences
Paris

Vos missions Vous serez responsable de la conduite opérationnelle de plusieurs études internationales (Phase IV, épidémiologiques, RWE). Vos principales responsabilités incluront : ~ Préparation…

Voir les Détails
Publié le 2025-11-18

Conducteur De Travaux Gros Œuvre -CEA F/H

CAP INGELEC
Paris

Dans un contexte de croissance et de structuration autour de nos grands projets de bâtiments industriels en Contractant Général, nous recherchons un(e)Conducteur De Travaux Gros Œuvre -CEA pour notre…

Voir les Détails
Publié le 2025-11-03

Consultant expérimenté - Business Transformation - secteur Banque de détail F/H

EY
Paris

On vous raconte l'histoire de ce poste ? Let's go L'équipe Retail d'EY France évolue au cœur des métiers de conseil en Services Financiers, dans un contexte de forte croissance de nos activités…

Voir les Détails
Publié le 2025-10-24

Data Protection Engineer Cohesity & Veritas NetBackup

Paris

About the job Data Protection Engineer Cohesity & Veritas NetBackup Data Protection Engineer Cohesity & Veritas NetBackup Designing, deploying, and managing enterprise backup and recovery soluti…

Voir les Détails
Publié le 2025-11-24

Chargé d'Affaires Contrôle Technique - Électricité CFO/CFA - Gds Travaux H/f

LTd
Paris 9e

Le poste : Rattaché(e) au Responsable de Département Grands Projets, vos principales responsabilités incluent : Prendre en charge les missions de contrôle technique liées aux installations élect…

Voir les Détails
Publié le 2025-11-27

Consultant Développeur Marketing Technology (CRM & Data) - 3 à 5 ans d'expérience

Paris

Who We Are: At VML, we are a beacon of innovation and growth in an ever-evolving world. Our heritage is built upon a century of combined expertise, where creativity meets technology, and diverse p…

Voir les Détails
Publié le 2025-11-15

Community manager stagiaire

Objectware
Paris

Qui sommes-nous &##128640; : Le Groupe Objectware fondé en 1999 est une ESN spécialisée dans le Conseil IT et la transformation digitale. Le groupe représentant plus de 900 collaborateurs en Fr…

Voir les Détails
Publié le 2025-11-21