Atelier Méthodes

Formation à saisir, places limitées !

Frédéric Vergnaud (en savoir plus)

ouvre son stage de méthode qu'il dispense aux masters et à tout·e doctorant·e désireux·se de se former au scraping de données conversationnelles (en auditrice/auditeur libre). Vous apprendrez en plus à parler le html couramment !


Syllabus du cours :

Le cours a pour ambition de permettre aux étudiant·es de devenir autonomes sur la collecte de données issues du web. La méthode enseignée est le scraping, qui est une technique d’extraction du contenu de pages web.

Extraire de l’information d’une page web revient à sélectionner les éléments HTML qui la structurent afin d’en extraire le contenu. Cette sélection va s’opérer à l’aide de sélecteurs CSS. L’apprentissage du HTML et de CSS constituent donc la première partie du cours. Après avoir passé en revue les balises HTML et les sélecteurs CSS les plus courants, nous effectuons de nombreux exercices tou·tes ensemble afin de se familiariser avec les concepts évoqués.

La deuxième étape du cours se focalise sur le scraping en tant que tel. Après un passage en revue rapide des différents outils de scraping existant actuellement, l’enseignement se focalise sur le plugin Extractify, développé in situ au sein de différents projets de recherche en sociologie des sciences et techniques. Après une présentation du logiciel et une démonstration en direct sur un forum de discussions, nous effectuons tous ensemble un scraping d’un autre forum de discussions.

La dernière partie du cours est consacrée à l’examen, au cours duquel les étudiant·es mobilisent ce que l’on a vu en cours à travers la sélection et le scraping d’un forum de discussion qu’ils ont choisi :

  • savoir s'orienter dans la structure HTML d’une page web;
  • repérer des éléments HTML et leur attributs;
  • repérer des noms de classe;
  • repérer des chemins au sein de la structure pour cibler certains éléments (ascendants, descendants);
  • mettre en œuvre les sélecteur CSS pour cibler des balises HTML.

Enfin, en fonction du temps qu’il nous restera, nous consacrerons un moment au nettoyage et au formatage des données extraites à l’aide d’OpenRefine : suppression des bruits, transformation des données typées texte en données typées d’autres formats (nombre, date …etc), exportation au format xls (Excel).


Conditions / pré-requis :

Aucuns, sinon être présent·e à l'ensemble des séances

Inscription auprès de Viviane Le Hay dans la limite des places disponibles👇


Début : 24 janvier 2023 à 09:30
Fin : 26 janvier 2023 à 16:30
sur inscription

Partager