Extraire et manipuler des données de Gallica
- Gallica -
Intervenant : Sébastien Le Moing, doctorant CED
L'idée est simple : réunir les curieux.ses autour d'un café pour découvrir les possibilités offertes par les sciences sociales computationnelles. Que vous soyez déjà expert.e.s ou que vous souhaitiez simplement découvrir ces méthodes, cette rencontre informelle est l'occasion de partager des idées et des pratiques. Lors cette séance, Sébastien nous montrera comment extraire, en quelques clics, les textes bruts de documents numérisés sur la plateforme “Gallica” afin de constituer des bases de données exploitables.
Bibliothèque numérique de la BNF, Gallica permet d'accéder à une collection de plus de 10 millions de documents comprenant des livres, des journaux, des manuscrits, des cartes, des images, etc. Quelle que soit la source qui vous intéresse, cette méthode d’extraction vous permettra d’analyser de larges corpus de documents, d'étudier la prévalence de certains thèmes ou bien de dessiner des évolutions historiques au fil des publications. Sébastien nous présentera quelques exemples de manipulations tirés de son étude socio-historique des manuels scolaires en usage sous la Troisième République.
La séance comprendra les étapes suivantes :
- Collecter une série d’identifiants “ark” correspondant à certains documents liés à une question de recherche
- Extraire les fichiers textes de ces documents à l’aide d’un notebook
- Insérer ces fichiers dans des bases de données prêtes à l’emploi
- Nettoyer et manipuler les textes extraits au regard de la problématique de recherche