FR EN

Ateliers

Des ateliers de formation sont proposés avant les Journées de la Linguistique de Corpus. Ils sont gratuits et ouverts à tous mais l'inscription est obligatoire.

Nous remercions le consortium CORLI pour son soutien concernant la mise en place de ses ateliers.

NB : les ateliers se dérouleront en langue française.

MACI, 339 Av. Centrale, 38400 Saint-Martin-d'Hères
Salles : 208 / 209 / 210

Lundi 3 juillet après-midi (à partir de 14h)

atelier autour d'INCEPTION (Claude Ponton -- Salle 208
atelier autour de l'exploration textométrique de corpus multi-couches (multilayered corpus) – corpus oral traité avec ELAN (Sascha Diwersy et Luisa Acosta Cordoba) -- Salle 209

Mardi 4 juillet matin (9h-12h maxi)

atelier Lexicoscope (Olivier Kraif) -- Salle 208
atelier Préparer son corpus pour le rendre utilisable avec des outils d'analyse textuelle (Loïc Liégeois, Achille Falaise) -- Salle 209
atelier Corpus et didactique ( Virginie André, Carole Etienne, Christian Surcouf) -- Salle 210

Inscription en suivant ce lien

Descriptif

Inception

Animateurs:

Claude Ponton (Université Grenoble Alpes, LIDILEM)

Sujet: Utilisation de INCEpTION (Environnement d’annotation avec possibilité d’appliquer des méthodes d’Active Learning)

Modalités:

durée: 2h
nombre de participants: ~ 20
pré-installation de logiciel:

Exploration textométrique de corpus multi-couches

Animateurs:

Luisa Fernanda Acosta Córdoba (ENS de Lyon, Laboratoire ICAR UMR 5191)
Sascha Diwersy (Université Paul-Valéry Montpellier 3, Laboratoire Praxiling 5267)

Sujet:

Exploration d’un corpus annoté en multi-couches de français et d’espagnol parlées

Objectif:

A partir d’un corpus de langue parlée annoté en multi-couches, nous présenterons un protocole méthodologique pour l’exploration de ce type de données. Le corpus est constitué par dix enregistrements d’une durée moyenne de dix minutes chacun. La partie française est issue du projet ANR/DFG SegCor, dont le corpus de travail provient des bases de données ESLO et CLAPI. A l’instar de ce projet, d’orientation conversationnaliste, nous avons catégorisé les sous-corpus selon le type d’interaction (entretien sociolinguistique, entretien public, réunion de travail, réunion d’amis et interaction de service). Pour la partie espagnole, nous avons récupéré un extrait de la base de données PRESEEA et le restant correspond à deux travaux de terrain. L’ensemble de ces données a été annoté avec différentes méthodes. Dans une première phase d'annotation manuelle, sur le logiciel ELAN, nous avons segmenté le corpus en unités syntaxiques (Rossi-Gensane et al. 2020) et en tours de parole. Nous avons annoté, également, des phénomènes de disfluence, de répétition et reformulation. Les résultats de cette phase de travail sont recueillis dans une thèse soutenue en 2022 (Acosta Córdoba). Dans la deuxième phase, nous avons mis en place une chaîne de traitement basée sur l'analyseur automatique Stanza (Qi et al. 2020), qui nous a permis d'étiqueter le corpus aux niveaux morpho-syntaxique et syntaxique (en termes de relations de dépendance). Outre la possibilité de réaliser des requêtes complexes sur plusieurs des phénomènes langagiers annotés, nous tenons à montrer les possibilités d’exploration textométrique de ce type de données, où interviennent différentes approches et manières d'appropriation. Enfin, nous évoquerons l’interopérabilité entre langages d’annotation et logiciels différents, ainsi que les enjeux épistémiques soulevés par les limites et les possibilités de la structuration multi-couche des données de langue parlée.

Ressources:

Logiciels d’exploration de corpus utilisés dans l’atelier : TXM (https://txm.gitpages.huma-num.fr/textometrie/)
Logiciels utilisés pour le traitement préalable du corpus : ELAN, Stanza

Prérequis:

Connaissance de méthodologies d’exploration de corpus (cf. Poudat & Landragin 2017)

Modalités:

durée: 2h30
nombre de participants: 10 à 15
pré-installation de logiciel: TXM

Références:

Acosta Córdoba, Luisa. (2022). La reformulation dans les langues française et espagnoles parlées en interaction. Thèse de doctorat. Lyon : Université Lumière Lyon 2.

Heiden, Serge, Magué, Jean-Pierre & Pincemin, Bénédicte. (2010). TXM: Une plateforme logicielle open-source pour la textométrie – conception et développement, dans Sergio Bolasco (ed.) : Proceedings of the 10th International Conference on the Statistical Analysis of Textual Data (JADT 2010), vol. 2, 1021-1032. Rome : Edizioni Universitarie di Lettere Economia Diritto.

Poudat, Céline & Landragin, Frederic. (2017). Explorer des données textuelles: méthodes - pratiques - outils. 1re édition. Paris : De Boeck supérieur.

Qi, Peng, Zhang, Yuhao, Zhang, Yuhui, Bolton, Jason & Manning, Christopher D. (2020). Stanza: A Python Natural Language Processing Toolkit for Many Human Languages, dans Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations. [https://nlp.stanford.edu/pubs/qi2020stanza.pdf]

Rossi-Gensane, Nathalie, Ursi, Biagio, Eshkol-Taravella, Iris & Skrovec, Marie. (2020). La syntaxe en empirie et en théorie. La proposition de segmentation multiniveau du projet SegCor pour le français parlé, dans Marie-José Béguelin, Gilles Corminboeuf & Florence Lefeuvre (eds.) : Types d’unités et procédures de segmentation, 203-220. Limoges : Lambert-Lucas.

Lexicoscope

Animateurs:

Olivier Kraif (Université Grenoble Alpes, LIDILEM)

Sujet & Objectif:

Prise en main du Lexicoscope 2.0, une plateforme d'exploration de corpus analysés en dépendances Introduction au langage TQL (Tree Query Language).

Ressources:

Logiciel utilisé: Lexicoscope (http://phraseotext.univ-grenoble-alpes.fr/lexicoscope_2.0)
Documentation: http://phraseotext.univ-grenoble-alpes.fr/lexicoscope_2.0/help

Modalités:

durée: 2h
nombre de participants: 20 maximum
pré-installation de logiciel: non

Corpus et analyse textuelle

Animateurs:

Achille Falaise (CNRS, LLF)

Loïc Liégeois (Univ. Paris Cité, CLILLAC-ARP / LLF)

Sujet & Objectif: Préparer son corpus pour le rendre utilisable avec des outils d'analyse textuelle

Résumé de présentation

Ressources & Prérequis:

Les participants doivent avoir des textes numérisés à traiter (.txt, .doc, .odt, .pdf, etc.), et les déposer dans l'espace Sharedocs disponible : https://sharedocs.huma-num.fr/wl/?id=CtWnsCAtEInfEYffuqD4DDqM3NE5H7uQ avant la formation (le + tôt possible) afin que ces derniers puissent orienter la formation en fonction des données.

Modalités:

durée: 3h
nombre de participants: ~ 25
pré-installation de logiciel:
- SublimeText, et un tableur au choix (LibreOffice Calc, MS Excel...) − pour les gens sous Windows qui ne sont pas administrateurs de leur ordinateur, SublimeText existe en version "portable" qui peut s'utiliser sans droits administrateurs

Corpus et didactique

Animateurs:

Virginie André (Université de Lorraine, ATILF)
Carole Etienne (CNRS, ICAR)
Christian Surcouf (Université de Lausanne)

Sujet:

Construire une séquence sur l’enseignement du français parlé à partir de différentes ressources pour mieux comprendre les mécanismes du refus et du désaccord tels qu'ils sont mis en œuvre par les locuteurs francophones

Objectif:

Préparer un cours de FLE sur une thématique complexe à partir de plusieurs ressources à articuler en associant les niveaux macro (structure, organisation, attendu, type de situation, implicite vs explicite) et micro (intonation, négation, répétition, passage au tu générique pour en faire un argument, atténuateurs, constructions syntaxiques ...)

Ressources:

CLAPI-FLE : Apprendre à interagir en contexte, orienté enseignant.es et formateur.trices (http://clapi.icar.cnrs.fr/FLE/)
CORAIL : Apprendre à interagir en contexte, orienté apprenant.es (http://clapi.icar.cnrs.fr/Corail/)
FLEURON : Dispositif numérique d’apprentissage du français basé sur des ressources multimédias authentiques (https://fleuron.atilf.fr/)
FLORALE: Travailler la compréhension orale en français langue étrangère, à partir de plus de 200 phénomènes caractéristiques du français parlé. (https://florale.unil.ch/)
INTERFARE : Comprendre ce qui se passe réellement en réunion pour pouvoir participer et mettre en œuvre les décisions prises (http://icar.cnrs.fr/interfare/)

Prérequis:

Intérêt pour les problématiques de création de modules d'enseignement du français parlé, en intégrant les différentes composantes de la langue orale dans l'enseignement.

Les stagiaires peuvent d'ores et déjà découvrir les ressources en accès libre.

Modalités:

durée: 2h30 (de 9h30 à 12h)
nombre de participants: ~ 20
pré-installation de logiciel: Il est demandé de venir avec son ordinateur portable, les stagiaires travailleront en binôme

Après avoir présenté les composantes de la langue parlée servant à exprimer un refus ou un désaccord, les intervenant.es les illustreront selon différentes perspectives :

une entrée par situation : montrer avec des extraits courts contextualisés, transcrits et décrits, adaptés à une présentation en classe
une entrée par procédé : comprendre et reconnaître des procédés multimodaux, morphosyntaxiques, prosodiques, lexicaux, etc.
une entrée par fonction : appréhender la variété des réalisations, leur caractère explicite ou implicite
une entrée par un concordancier : travailler sur la compréhension - intuitive - des mots ou expressions dans leur cotexe
une ouverture vers l'interculturel

Le stagiaire apprendra à explorer ces différentes ressources et à les articuler pour construire une ou plusieurs séquences suivant ses besoins.

Vie privée | Accessibilité