Venez vous former au topic modeling et découvrir BERTopic avec Axel Morin et Émilien Schultz, membres du groupe de sciences sociales computationnelles de l'Institut Polytechnique de Paris (CSS @ IP-Paris).
Présentation
Quels sont les enjeux centraux abordés dans un ensemble de documents ? Ces documents traitent-ils de sujets similaires ou de questions distinctes ? Quel est le thème le plus saillant ?
Identifier les grands axes thématiques d’un corpus est une démarche courante en sciences sociales, notamment lors de l’exploration d’un nouveau jeu de données. Si les thématiques peuvent en théorie être identifiées manuellement, la tâche devient irréalisable face à des corpus volumineux.
Pour surmonter cette difficulté, il est possible de s'appuyer sur les méthodes de topic modeling qui permettent d’extraire rapidement les thèmes dominants d’un corpus, que ce soit à des fins exploratoires ou pour approfondir plus finement l’analyse.
Cet atelier proposera une initiation à ces techniques et une application concrète à l'aide de BERTopic.
Intervenants
Axel Morin est data scientist au sein du CSS@IPP. Formé en tant qu’ingénieur, il contribue à la promotion des méthodes computationnelles et est responsable du développement de logiciels et de tutoriels.
Émilien Schultz est ingénieur de recherche au CREST/CSS@IPP où il contribue au développement des sciences sociales computationnelles et l’analyse de données. Ses principaux centres d’intérêt incluent les science studies, les logiciels scientifiques, Python, ainsi que les liens entre sciences sociales et informatique.
Ressources
Documentation : https://maartengr.github.io/BERTopic/index.html
Tutoriel : https://css-polytechnique.github.io/css-ipp-materials/pages/bertopic-tutorial.html