Avatar
README.md

À-propos de moi

Je suis chercheur en NLP, et Quant chez G-Research.

Avant ça, j’ai fait un doctorat en informatique à Sorbonne Université, tout en occupant un rôle d'Ingénieur de Recherche chez BNP Paribas. Ma thèse de doctorat, Vers des systèmes neuronaux fiables et contrôlables pour de la génération de texte à partir de données structurées, a été encadrée par Patrick Gallinari et Laure Soulier, de l’équipe MLIA. Tous mes projets (solos & duos) sont disponibles sur Github et ArXiv.

Vie Professionnelle

Je suis Chercheur Quant, ce qui veut dire que je recherche des stratégies de trading systématiques, pour prédire le future des marchés finianciers. Pour ce faire, j’utilise méthode & rigueur scientifique pour trouver des signaux dans des grands jeux de données bruitées et rapidemment changeantes. En d’autres termes, j’applique et développe des approches état-de-l’art en NLP (comprendre les transformers) pour trouver des signaux dans de large corpus de textes. En confiant l’exécution des ordres aux ordinateurs, on fait en sorte d’enlever la possibilité de l’erreur humaine, et on s’assure que seules des stratégies rigoureusement testées sont déployées.

Avant ça, j’était Ingénieur de Recherche chez BNP Paribas. Dans la pratique, j’assurais le pont entre la recherche/académie et l’applicatif/entreprise. Je faisais partie de l’équipe qui a développé le moteur de recherche de l’entreprise, ainsi qu’un certain nombre d’autres outils (la plateforme interne de traduction par exemple).

Recherche Académique

En ce moment, je suis particulièrement intéressé par la recherche en NLP.

Pendant mon doctorat, j’ai travaillé sur la Génération de Texte à partir de Données Structurées, c’est-à-dire sur des systèmes capables de:

  • appréhender des données structurées complexes (par ex. tableaux, graphs, etc.) ;
  • produire une description adéquate de ces données (une phrase ou bien plusieurs paragraphes).

Ces systèmes sont cruciaux dans les environnements où les données brutes abondent, mais sont difficilement utilisables en tant que telles (par ex. la santé, le sport, etc), car les utilisateurs finaux se débrouillent mieux avec des résumés textuels1.

Mon travail de doctorat s’est concentré sur un aspect critique de la Génération de Texte : la fiabilité des systèmes. Les réseaux neuronaux se sont révélés étonnamment efficaces pour produire des textes corrects gramaticallement, mais les utilisateurs finaux se soucient davantage de la fiabilité que de la lisibilité. Les descriptions erronées qui doivent être révisées par des experts humains sont d’une utilité limitée. Dans cette optique, j’ai proposé de nouveaux modules neuronaux d’encodage mieux adaptés aux données structurées complexes, des protocoles d’évaluation qui permettent de mieux distinguer les modèles en exploitant les données structurées, et des procédures d’entraînement qui garantissent que les modèles ne copient pas des comportements humains biaisés (comme la mention de faits invérifiables).

En 2021, j’ai priviligié le travail en équipe, avec des collaborations fructueuses avec l’Université de Turin (Italie), l’Université d’Aberdeen (Royaume-Uni) et aussi au sein même de Sorbonne Université (France).

Vie perso

Sur le plan personnel, je suis passioné d’escalade, et j’essaie d’aller nager au moins une fois par semaine. J’adore les histoires, autant les lires que les voir au cinéma (j’allais au cinéma 2x par semaine avant de déménager à Londres). Je suis aussi fan de cuisine : plats, desserts et aussi les cocktails 🍹 Voir plutôt la Galerie Photo pour des preuves que je vais dehors!

1: From data to text in the Neonatal Intensive Care Unit: Using NLG technology for decision support and information management. Gatt et al. 2009
2: An Investigation into the Validity of Some Metrics for Automatically Evaluating Natural Language Generation Systems. Belz and Reiter 2009