Ateliers
Des ateliers de formation sont proposés avant les Journées de la Linguistique de Corpus. Ils sont gratuits et ouverts à tous mais l'inscription est obligatoire. Nous remercions le consortium CORLI pour son soutien concernant la mise en place de ses ateliers. NB : les ateliers se dérouleront en langue française.
Lundi 3 juillet après-midi (à partir de 14h)
Mardi 4 juillet matin (9h-12h maxi)
Inscription en suivant ce lien
DescriptifInceptionAnimateurs:
Sujet: Utilisation de INCEpTION (Environnement d’annotation avec possibilité d’appliquer des méthodes d’Active Learning) Modalités:
Exploration textométrique de corpus multi-couchesAnimateurs:
Sujet:
Objectif: A partir d’un corpus de langue parlée annoté en multi-couches, nous présenterons un protocole méthodologique pour l’exploration de ce type de données. Le corpus est constitué par dix enregistrements d’une durée moyenne de dix minutes chacun. La partie française est issue du projet ANR/DFG SegCor, dont le corpus de travail provient des bases de données ESLO et CLAPI. A l’instar de ce projet, d’orientation conversationnaliste, nous avons catégorisé les sous-corpus selon le type d’interaction (entretien sociolinguistique, entretien public, réunion de travail, réunion d’amis et interaction de service). Pour la partie espagnole, nous avons récupéré un extrait de la base de données PRESEEA et le restant correspond à deux travaux de terrain. L’ensemble de ces données a été annoté avec différentes méthodes. Dans une première phase d'annotation manuelle, sur le logiciel ELAN, nous avons segmenté le corpus en unités syntaxiques (Rossi-Gensane et al. 2020) et en tours de parole. Nous avons annoté, également, des phénomènes de disfluence, de répétition et reformulation. Les résultats de cette phase de travail sont recueillis dans une thèse soutenue en 2022 (Acosta Córdoba). Dans la deuxième phase, nous avons mis en place une chaîne de traitement basée sur l'analyseur automatique Stanza (Qi et al. 2020), qui nous a permis d'étiqueter le corpus aux niveaux morpho-syntaxique et syntaxique (en termes de relations de dépendance). Outre la possibilité de réaliser des requêtes complexes sur plusieurs des phénomènes langagiers annotés, nous tenons à montrer les possibilités d’exploration textométrique de ce type de données, où interviennent différentes approches et manières d'appropriation. Enfin, nous évoquerons l’interopérabilité entre langages d’annotation et logiciels différents, ainsi que les enjeux épistémiques soulevés par les limites et les possibilités de la structuration multi-couche des données de langue parlée.
Ressources:
Prérequis:
Modalités:
Références: Acosta Córdoba, Luisa. (2022). La reformulation dans les langues française et espagnoles parlées en interaction. Thèse de doctorat. Lyon : Université Lumière Lyon 2. Heiden, Serge, Magué, Jean-Pierre & Pincemin, Bénédicte. (2010). TXM: Une plateforme logicielle open-source pour la textométrie – conception et développement, dans Sergio Bolasco (ed.) : Proceedings of the 10th International Conference on the Statistical Analysis of Textual Data (JADT 2010), vol. 2, 1021-1032. Rome : Edizioni Universitarie di Lettere Economia Diritto. Poudat, Céline & Landragin, Frederic. (2017). Explorer des données textuelles: méthodes - pratiques - outils. 1re édition. Paris : De Boeck supérieur. Qi, Peng, Zhang, Yuhao, Zhang, Yuhui, Bolton, Jason & Manning, Christopher D. (2020). Stanza: A Python Natural Language Processing Toolkit for Many Human Languages, dans Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations. [https://nlp.stanford.edu/pubs/qi2020stanza.pdf] Rossi-Gensane, Nathalie, Ursi, Biagio, Eshkol-Taravella, Iris & Skrovec, Marie. (2020). La syntaxe en empirie et en théorie. La proposition de segmentation multiniveau du projet SegCor pour le français parlé, dans Marie-José Béguelin, Gilles Corminboeuf & Florence Lefeuvre (eds.) : Types d’unités et procédures de segmentation, 203-220. Limoges : Lambert-Lucas.
LexicoscopeAnimateurs:
Sujet & Objectif:
Ressources:
Modalités:
Corpus et analyse textuelleAnimateurs:
Sujet & Objectif: Préparer son corpus pour le rendre utilisable avec des outils d'analyse textuelle Ressources & Prérequis:
Modalités:
Corpus et didactiqueAnimateurs:
Sujet:
Objectif:
Ressources:
Prérequis: Intérêt pour les problématiques de création de modules d'enseignement du français parlé, en intégrant les différentes composantes de la langue orale dans l'enseignement. Les stagiaires peuvent d'ores et déjà découvrir les ressources en accès libre.
Modalités:
Après avoir présenté les composantes de la langue parlée servant à exprimer un refus ou un désaccord, les intervenant.es les illustreront selon différentes perspectives :
Le stagiaire apprendra à explorer ces différentes ressources et à les articuler pour construire une ou plusieurs séquences suivant ses besoins.
|
Personnes connectées : 2 | Vie privée |