
Cette journée de réflexion sur les apports et les limites de la transcription automatisée s'articulera autour d'une présentation des travaux du projet chuchotons par Arthur Ducasse et Colin Kerouanton (UMR ESO - Rennes).
- La matinée sera consacrée à un atelier pratique visant à saisir les enjeux et les limites de la transcription automatique. [Uniquement en présentiel]
- L'après-midi portera sur une présentation du programme de recherche chuchotons et intégrera échanges et discussions sur le sujet. [En présentiel et retransmis en ligne]
L'évènement est organisé en collaboration avec le projet MAD (Méthodes d’Analyse des Données) et le groupe thématique TIPS-IA du réseau Mate-shs.
Les informations complètes sur le déroulé de la journée sont disponibles sur la page de l'évènement.
Si vous êtes intéressés vous pouvez d'ores et déjà vous inscrire en remplissant le formulaire accessible ici.
Résumé de la présentation
La retranscription d’entretiens est une tâche laborieuse qui peut s’avérer chronophage. Rite de passage autrefois obligatoire pour les étudiant·es qui débutaient leur parcours en recherche en SHS, les solutions de retranscription automatique se sont multipliées ces dernières années. Avec l’apparition de corpus d’apprentissage toujours plus volumineux et l’amélioration des capacités de calcul, les modèles de retranscriptions automatiques sont devenus très performants (Whisper, 2022). L’ouverture au grand public de Whisper par l’entreprise étasunienne OpenAI (également productrice du modèle ChatGPT) a permis aux collectifs de recherche de s’approprier le modèle (implémentation IR Humanum par exemple).
Le projet Chuchotons (2023-2025, financement de l’université Rennes 2) s’est construit autour d’un collectif de jeunes chercheurs et chercheuses de l’UMR ESO, pour :
- étudier les retranscriptions du modèle Whisper (2022)
- observer les changements sur nos pratiques de recherche en SHS introduits par le recours toujours plus facilité aux solutions de retranscription automatique
À l’occasion de cette journée, nous souhaiterions présenter les premiers résultats de ce projet et organiser notre propos autour de trois grands axes :
- la mise en contexte du modèle Whisper à une échelle globalisée,
- la confection et l’application itérative d’un carnet d’analyse des retranscriptions réalisées avec Whisper sur des corpus présentant des difficultés de plusieurs ordres,
- les questionnements autour du processus de construction des verbatims à partir d’une retranscription automatique.
Inscriptions
Si vous êtes intéressés vous pouvez d'ores et déjà vous inscrire en remplissant le formulaire accessible ici.