Accéder directement au contenu Accéder directement à la navigation
Thèse

Statistical and computational approaches to first language acquisition : mining a set of French longitudinal corpora (CoLaJE)

Résumé : Le projet ANR « CoLaJE » (Morgenstern & Parisse, 2012) consiste en sept corpora d’enfants francophones filmés une heure par mois, tous les mois, dès l’age d’un an jusqu’à environ 5 ans. L’ensemble de données est disponible en libre accès et fait partie de la branche française de CHILDES. Nous avons choisi cette base de données parce que – à ce jour – elle est la plus complète, en termes qualitatifs aussi bien qu’en quantitatifs. En plus, nous estimons que l’échantillonnage effectué dans la collecte mensuelle des données est conforme aux indications de fiabilité énoncées par Tomasello et Stahl (2004). Chaque corpus a été codé en CHAT et transcrit en pho (ce que l’enfant prononce) et – pour certains corpora dont les deux qu’on utilise en cette étude - mod (ce que l’enfant aurait dû prononcer selon la norme), ce qui nous permet d’uniformiser les données phonético-phonologiques, de les contextualiser pour mieux les interpréter et, enfin, de pouvoir y appliquer des traitements automatiques.Nous nous focalisons sur les corpora d’« Adrien » et « Madeleine » car ils sont les plus complets: nous avons extrait chaque ligne en format .csv, ensuite nous avons choisi de commencer par la transcription no 8 (1an 11mois; 14jours) pour Adrien et la no 32 (1 ;01 ;10) pour Madeleine, puisque pour les précédentes il était difficile de distinguer entre les mots et les simples suites des syllabes (le « babillage canonique » et le « babillage diversifié »). Au total nous avons 26 enregistrements et 8214 énoncés pour Adrien et. 25 enregistrements et 7168 énoncés pour Madeleine.Nous avons choisi le « Universal Dependencies » treebank (de Marneffe et al., 2006, 2008, 2014) comme modèle de référence d’analyse du langage en parties du discours, principalement parce que nous avoins déjà eu une expérience avec ce modèle (Briglia et al., 2020). Ce choix nous a porté à adopter “stanza”, un outil d’analyse du langage majoritairement entraîné en utilisant les UD. « stanza » est une des bibliothèques de TAL disponible en langage Python, développée par l’Université de Stanford: puisque le système d’annotation automatique ne reconnaît pas les caractères spéciaux de l’API (Alphabet Phonétique International), nous l’avons appliquée sur le tier CHI : ce choix implique une forte confiance envers l’interprétation des transcripteurs : il est néanmoins possible de consulter – énoncé par énoncé – toutes les différences entre CHI – pho –mod. La qualité de l’annotation produite par « stanza » est élevée et, pour la plupart des tâches, son score est meilleur que celui de ses concurrents (e.g UDPipe, spaCy), comme le montre le tableau numéro 2 « Neural pipeline performance comparisons on the Universal Dependencies (v2.5) test treebanks” (Qi et al., 2020)Puisque le langage de l’enfant est plus variable et imprévisible de celui de l’adulte et étant considéré que UD et « stanza » ont été conçus pour le langage des adultes, les auteurs de cet article ont jugé nécessaire un contrôle manuel de quatre-vingt énoncés par enfant (ce qui représente environ 1% du total) équitablement repartis au fil du temps, afin de comprendre l’effective fiabilité de l’outil pour cette application.
Type de document :
Thèse
Liste complète des métadonnées

https://tel.archives-ouvertes.fr/tel-03700023
Contributeur : ABES STAR :  Contact
Soumis le : lundi 20 juin 2022 - 17:40:12
Dernière modification le : vendredi 24 juin 2022 - 04:01:07

Fichier

2021_BRIGLIA_arch.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-03700023, version 1

Collections

Citation

Andrea Briglia. Statistical and computational approaches to first language acquisition : mining a set of French longitudinal corpora (CoLaJE). Linguistics. Université Paul Valéry - Montpellier III; Università degli studi (Messine, Italie), 2021. English. ⟨NNT : 2021MON30097⟩. ⟨tel-03700023⟩

Partager

Métriques

Consultations de la notice

0

Téléchargements de fichiers

0