Statistical and computational approaches to first language acquisition : mining a set of French longitudinal corpora (CoLaJE) - Université Paul Valéry Montpellier 3 Accéder directement au contenu
Thèse Année : 2021

Statistical and computational approaches to first language acquisition : mining a set of French longitudinal corpora (CoLaJE)

Approches statistiques et informatiques sur l'acquisition du français langue première : une étude basée sur les suivis longitudinaux du corpus de Paris (CoLaJE)

Résumé

CoLaJE [?] is a database composed by seven children that have been videorecorded in vivo approximately one hour every month from their first year of life until they were five. In this research, statistical treatments have been tested only on two children (Adrien and Madeleine) as for them transcription are the most complete ones. Data is transcripted in three forms: CHI is what the child says in the orthographic form, pho what the child really says and mod what he should have said according to the adult norm. To uniform data in a suitable form for automatic processing, we had to make trade-off like choices: child language is subject to interpretation difficulties by adults trying to decode it: in about 5% of the total number of occurrences, the number of words differs between the three main aforementioned forms in which sounds are coded : we decide to cut off these occurrences because they would have biased the final statistics, as the classification methods need to have an equal number of words related to the same phrase. The resulting data structure is a transformation from the video [?] into a statistically manageable database. In this respect, Code for the Human Analysis of Transcripts (CHAT) provides a standardized format for producing computerized transcripts of conversational interactions. By analyzing, cleaning, filtering and normalizing all the available original CHAT transcripts we aimed at produce two corpora composed by the overall amount of what infants said along the years, that is respectively of 8214 and 7168 annotated sentences containing more than 100 variables. Some useful measures have been calculated such as: child age in years (time); Sentence Phonetic Variation Rate (SPVR) [?]: the variation rate is obtained by comparing mod and pho in order to measure how the relation between varied and correct form evolves over time. Then, we apply a Part-Of-Speech Tagger (POS Tags), a software that reads text in a given language and assigns parts of speech to each word such as noun, verb, adjective. We used Stanford Core NLP engine [?] to tag all CHI words. 3 A brief introduction of the EM clustering method The EM clustering is an iterative method relying on the assumption that the data are generated by a mixture of underlying probability distributions, where each component represents a separate group, or cluster. The method provides the optimal number of clusters in any empirical situation, by using a two step iterative algorithm: the (E) or expectation step and the (M) or maximization step. These two steps are repeated until a further increase in the number of clusters would result in a negligible improvement in the log-likelihood, namely a convergence. Accordingly the program checks how much the overall fit improves in passing from one to two clusters (formed in all possible ways, and selecting the best), then from two to three, etc. If the error function calculated for the solution with K+1 clusters is not markedly (at least 5 percent) better than the simpler solution, with K clusters, then the solution with K clusters is considered ideal, and retained [?] [?] .To extend previous research EM Clustering method and first language acquisition 3 [?], we divide our database in strata considering 3 age classes of the child (L=1.97 - 2.64; M= 2.71 - 3.39 H=3.46 - 4.33 in years) and 3 classes of SPVR (L= 33; M=>33 and 66; H>66 in percent). So, we get 9 strata (LL, ......, HH). According to this strategy, the evolution of verbs and syntactically related forms such as articles – subject – adjectives show how morphosyntactic rules could implicitly influence the clustering procedure. We think that EM clustering method can be useful to evaluate in a reliable way linguistic structures development over time.
Le projet ANR « CoLaJE » (Morgenstern & Parisse, 2012) consiste en sept corpora d’enfants francophones filmés une heure par mois, tous les mois, dès l’age d’un an jusqu’à environ 5 ans. L’ensemble de données est disponible en libre accès et fait partie de la branche française de CHILDES. Nous avons choisi cette base de données parce que – à ce jour – elle est la plus complète, en termes qualitatifs aussi bien qu’en quantitatifs. En plus, nous estimons que l’échantillonnage effectué dans la collecte mensuelle des données est conforme aux indications de fiabilité énoncées par Tomasello et Stahl (2004). Chaque corpus a été codé en CHAT et transcrit en pho (ce que l’enfant prononce) et – pour certains corpora dont les deux qu’on utilise en cette étude - mod (ce que l’enfant aurait dû prononcer selon la norme), ce qui nous permet d’uniformiser les données phonético-phonologiques, de les contextualiser pour mieux les interpréter et, enfin, de pouvoir y appliquer des traitements automatiques.Nous nous focalisons sur les corpora d’« Adrien » et « Madeleine » car ils sont les plus complets: nous avons extrait chaque ligne en format .csv, ensuite nous avons choisi de commencer par la transcription no 8 (1an 11mois; 14jours) pour Adrien et la no 32 (1 ;01 ;10) pour Madeleine, puisque pour les précédentes il était difficile de distinguer entre les mots et les simples suites des syllabes (le « babillage canonique » et le « babillage diversifié »). Au total nous avons 26 enregistrements et 8214 énoncés pour Adrien et. 25 enregistrements et 7168 énoncés pour Madeleine.Nous avons choisi le « Universal Dependencies » treebank (de Marneffe et al., 2006, 2008, 2014) comme modèle de référence d’analyse du langage en parties du discours, principalement parce que nous avoins déjà eu une expérience avec ce modèle (Briglia et al., 2020). Ce choix nous a porté à adopter “stanza”, un outil d’analyse du langage majoritairement entraîné en utilisant les UD. « stanza » est une des bibliothèques de TAL disponible en langage Python, développée par l’Université de Stanford: puisque le système d’annotation automatique ne reconnaît pas les caractères spéciaux de l’API (Alphabet Phonétique International), nous l’avons appliquée sur le tier CHI : ce choix implique une forte confiance envers l’interprétation des transcripteurs : il est néanmoins possible de consulter – énoncé par énoncé – toutes les différences entre CHI – pho –mod. La qualité de l’annotation produite par « stanza » est élevée et, pour la plupart des tâches, son score est meilleur que celui de ses concurrents (e.g UDPipe, spaCy), comme le montre le tableau numéro 2 « Neural pipeline performance comparisons on the Universal Dependencies (v2.5) test treebanks” (Qi et al., 2020)Puisque le langage de l’enfant est plus variable et imprévisible de celui de l’adulte et étant considéré que UD et « stanza » ont été conçus pour le langage des adultes, les auteurs de cet article ont jugé nécessaire un contrôle manuel de quatre-vingt énoncés par enfant (ce qui représente environ 1% du total) équitablement repartis au fil du temps, afin de comprendre l’effective fiabilité de l’outil pour cette application.
Fichier principal
Vignette du fichier
2021_BRIGLIA_arch.pdf (6.42 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03700023 , version 1 (20-06-2022)

Identifiants

  • HAL Id : tel-03700023 , version 1

Citer

Andrea Briglia. Statistical and computational approaches to first language acquisition : mining a set of French longitudinal corpora (CoLaJE). Linguistics. Université Paul Valéry - Montpellier III; Università degli studi (Messine, Italie), 2021. English. ⟨NNT : 2021MON30097⟩. ⟨tel-03700023⟩
46 Consultations
183 Téléchargements

Partager

Gmail Facebook X LinkedIn More