Utilisation LLMs pour la spécification des politiques de partage des données - CDD - Paris-Saclay F/H

Détail de l'offre

Informations générales

Entité de rattachement

Le CEA est un acteur majeur de la recherche, au service des citoyens, de l'économie et de l'Etat.

Il apporte des solutions concrètes à leurs besoins dans quatre domaines principaux : transition énergétique, transition numérique, technologies pour la médecine du futur, défense et sécurité sur un socle de recherche fondamentale. Le CEA s'engage depuis plus de 75 ans au service de la souveraineté scientifique, technologique et industrielle de la France et de l'Europe pour un présent et un avenir mieux maîtrisés et plus sûrs.

Implanté au cœur des territoires équipés de très grandes infrastructures de recherche, le CEA dispose d'un large éventail de partenaires académiques et industriels en France, en Europe et à l'international.

Les 20 000 collaboratrices et collaborateurs du CEA partagent trois valeurs fondamentales :

• La conscience des responsabilités
• La coopération
• La curiosité
  

Référence

2024-33325  

Description de la Direction

Le Commissariat à l'énergie atomique et aux énergies alternatives (CEA) est un organisme public de recherche.
Acteur majeur de la recherche, du développement et de l'innovation, le CEA intervient dans le cadre de ses quatre missions :
• la défense et la sécurité
• l'énergie nucléaire (fission et fusion)
• la recherche technologique pour l'industrie
• la recherche fondamentale (sciences de la matière et sciences de la vie).
Avec ses 16000 salariés -techniciens, ingénieurs, chercheurs, et personnel en soutien à la recherche- le CEA participe à de nombreux projets de collaboration.

Description de l'unité

Le laboratoire LECS (Laboratoire d'Études et de Conception de Systèmes) du département DILS au sein de l'institut LIST de la direction DRT du CEA se concentre principalement sur la cybersécurité et la protection des données dans les systèmes distribués. Il participe à des projets tels que le projet TASTING, qui vise à moderniser et sécuriser les infrastructures énergétiques. Le LECS collabore avec plusieurs organismes de recherche et partenaires industriels comme RTE pour développer des solutions basées sur des méthodes formelles de vérification en temps réel.

Description du poste

Domaine

Sciences pour l'ingénieur

Contrat

CDD

Intitulé de l'offre

Utilisation LLMs pour la spécification des politiques de partage des données - CDD - Paris-Saclay F/H

Statut du poste

Cadre

Durée du contrat (en mois)

36

Description de l'offre

« Rejoignez le CEA pour donner du sens à votre activité, mener et soutenir des projets de R&D nationaux et internationaux, cultiver et faire vivre votre esprit de curiosité. »

 

 

EN SYNTHESE, QU’EST-CE QUE NOUS VOUS PROPOSONS ?

Le CEA recherche un(e) Ingénieur(e) en usage des LLMs pour la spécification des politiques de partage des données pour la CEA/DRT (Direction de la Recherche Technologique). Ce poste de cadre en CDD de 36 mois est basé sur le site Nano-Innov de Paris-Saclay, Essonne (91).

Il s'agit d'un poste à pourvoir à partir dès que possible.

 

POURQUOI NOUS REJOINDRE ?

Le développement de systèmes physiques ou numériques est complexe et implique des défis techniques et humains. La première étape consiste à formaliser les idées en rédigeant des spécifications ou un cahier des charges, généralement rédigés en langage naturel par des analystes fonctionnels. Ces documents sont cruciaux pour le projet et facilitent la communication entre les parties prenantes. L'ingénierie des exigences propose des techniques (revues, modélisation, formalisation) pour améliorer la qualité des documents (cohérence, complétude) et corriger les défauts avant l’implémentation du système.

 

Les réseaux de neurones à grands modèles (LLM) apportent de nouvelles possibilités dans ce domaine [2]. Nous proposons d’utiliser un agent conversationnel (ChatGPT, Lama) pour modéliser les politiques de partage de données (ODRL[1]) à partir de texte naturel. L’outil recommandera des options de réécriture inspirées des normes INCOSE et EARS, analysera les résultats et fournira un audit sur la qualité du modèle obtenu.

 

Les LLM sont particulièrement prometteurs pour :

  • transformer les exigences non structurées en modèles structurés comme EARS ou des user stories [2]
  • classifier les exigences [3] : comportementale, non fonctionnelles, etc. comme défini par exemple dans [4]
  • signaler les ambiguïtés, incohérences ou violations potentielles sur la base d'heuristiques de validation prédéfinies [5] [2]

 

Cependant, les LLM présentent des limites : hallucinations, biais algorithmiques et généralisation limitée [2]. Pour pallier cela, nous suggérons d’hybrider, comme dans [1], les LLM avec d’autres techniques (NLP, algèbres de processus) afin de réduire ces impacts.

 

QU’ATTENDONS-NOUS DE VOUS ?

Au sein de l’équipe « Exigences intelligentes » du laboratoire, votre challenge consistera à :

  • Déterminer des schémas ou un langage contrôlé pour représenter le modèle ODRL.
  • Déterminer l’efficacité de différentes techniques et formalismes, tel que le NLP [6] ou inspiration de la métrique Bleu [7], pour éviter les hallucinations lors de la réécriture.
  • Analyser, gérer ou générer des données d’entrainement pour des LLM
  • Configurer et piloter un ou plusieurs LLM avec les techniques les plus efficaces pour améliorer la cohérence et la complétude de politiques de partage de données.
  • Développer l’outillage logiciel nécessaire aux travaux ci-dessus.

 

#CEA-List

Profil du candidat

COMPÉTENCES REQUISES :

  • Titulaires d'un doctorat ou d'un Master en informatique, en mathématiques ou en ingénierie des systèmes

 

VOUS AVEZ ENCORE UN DOUTE ?

Les à-côtés de votre mission principale peuvent nous intéresser : 

  • Un écosystème de recherche à la pointe, unique en son genre et dédié à des thématiques à fort enjeu sociétal, qui donne du sens à votre mission
  • Des formations pour renforcer vos compétences, en acquérir de nouvelles et booster votre mission
  • Un équilibre vie privée / vie professionnelle reconnu par nos collaborateurs
  • La possibilité de télétravailler pour équilibrer les temps de transport et contribuer à votre qualité de vie
  • Un CE riche en avantages et en activités sociales, culturelles et sportives
  • Un lieu de travail au cœur d’un plateau dynamique, entouré d’écoles et d’entreprises de la tech

Cela vous tente ? Postulez, ce poste est fait pour vous !

 

Conformément aux engagements pris par le CEA en faveur de l'intégration des personnes en situation de handicap, cet emploi est ouvert à toutes et à tous

#CEA-List #NumericalSimulation #AI

[1]       « ODRL Information Model 2.2 » : https://www.w3.org/TR/odrl-model/
[2]       C. Arora, J. Grundy, et M. Abdelrazek, « Advancing Requirements Engineering through Generative AI: Assessing the Role of LLMs », 1 novembre 2023, arXiv: arXiv:2310.13976 : http://arxiv.org/abs/2310.13976
[3]       X. Luo, Y. Xue, Z. Xing, et J. Sun, « PRCBERT: Prompt Learning for Requirement Classification using BERT-based Pretrained Language Models », in Proceedings of the 37th IEEE/ACM International Conference on Automated Software Engineering, Rochester MI USA: ACM, oct. 2022, p. 1‑13. doi: 10.1145/3551349.3560417.
[4]       A. Fan et al., « Large Language Models for Software Engineering: Survey and Open Problems », 11 novembre 2023, arXiv: arXiv:2310.03533. doi: 10.48550/arXiv.2310.03533.
[5]       D. V. Dzung et A. Ohnishi, « Improvement of Quality of Software Requirements with Requirements Ontology », in 2009 Ninth International Conference on Quality Software, août 2009, p. 284‑289. doi: 10.1109/QSIC.2009.44.
[6]       I. K. Raharjana, D. Siahaan, et C. Fatichah, « User Stories and Natural Language Processing: A Systematic Literature Review », IEEE Access, vol. 9, p. 53811‑53826, 2021, doi: 10.1109/ACCESS.2021.3070606.
[7]       K. Papineni, S. Roukos, T. Ward, et W.-J. Zhu, « Bleu: a Method for Automatic Evaluation of Machine Translation », in Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, P. Isabelle, E. Charniak, et D. Lin, Éd., Philadelphia, Pennsylvania, USA: Association for Computational Linguistics, juill. 2002, p. 311‑318. doi: 10.3115/1073083.1073135.

Localisation du poste

Site

Saclay

Localisation du poste

France, Ile-de-France, Essonne (91)

Ville

Palaiseau

Critères candidat

Formation recommandée

Master / Ingénieur en Informatique

Demandeur

Disponibilité du poste

01/01/2025