Vers une classification automatique de didascalies en français avec des grands modèles de langue
Pablo Ruiz Fabo  1@  , Alexia Schneider  1  
1 : LiLPa - Linguistique, Langues, Parole (UR 1339)
université de Strasbourg : UR1339, université de Strasbourg

Suite à nos travaux précédents sur l'affinage de modèles pré-entraînés basés sur BERT pour la même tâche, nous présentons ici des expériences de classification automatique de didascalies en français avec des grands modèles de langue (LLM) sur la base d'une description de leurs types, avec zéro exemples (zero-shot) et avec 20 exemples (few-shot). Nous évaluons des modèles de la famille GPT-4, ainsi que Llama 3.1. Les résultats du modèle gpt-4o (0.7 F1 avec une typologie de 13 classes de nature variée) sont prometteurs. Dans nos expériences, les résultats des LLM sans ou avec peu d'exemples n'atteignent pas les meilleurs scores des modèles BERT affinés sur un volume plus large d'exemples. Cependant, leurs résultats sont intéressants, car une classification de didascalies sans ou avec peu d'exemples permettrait d'annoter de grands corpus (y compris multilingues) avec plusieurs typologies, avec un coût réduit d'annotation manuelle. Une comparaison des analyses selon chaque typologie aiderait à une meilleure compréhension de cet élément complexe, peu étudié avec des méthodes computationnelles.

Le texte complet du résumé (1 500 mots) se trouve dans le PDF en pièce jointe.



  • Poster
Personnes connectées : 1 Vie privée
Chargement...