FR EN

ATTENTION : Une migration de la base de données est programmée jeudi 21 août.
Elle peut occasionner des problèmes d'accès à Sciencesconf.

Par auteur > Schneider Alexia

sciencesconf.org:csthn-ariane:580255

Suite à nos travaux précédents sur l'affinage de modèles pré-entraînés basés sur BERT pour la même tâche, nous présentons ici des expériences de classification automatique de didascalies en français avec des grands modèles de langue (LLM) sur la base d'une description de leurs types, avec zéro exemples (zero-shot) et avec 20 exemples (few-shot). Nous évaluons des modèles de la famille GPT-4, ainsi que Llama 3.1. Les résultats du modèle gpt-4o (0.7 F1 avec une typologie de 13 classes de nature variée) sont prometteurs. Dans nos expériences, les résultats des LLM sans ou avec peu d'exemples n'atteignent pas les meilleurs scores des modèles BERT affinés sur un volume plus large d'exemples. Cependant, leurs résultats sont intéressants, car une classification de didascalies sans ou avec peu d'exemples permettrait d'annoter de grands corpus (y compris multilingues) avec plusieurs typologies, avec un coût réduit d'annotation manuelle. Une comparaison des analyses selon chaque typologie aiderait à une meilleure compréhension de cet élément complexe, peu étudié avec des méthodes computationnelles.

Le texte complet du résumé (1 500 mots) se trouve dans le PDF en pièce jointe.

Type :	:	Communications
Thématiques	:	Annoter
PDF version	:	PDF version

Poster

Vie privée | Accessibilité