17h00
Salle 124, UPS Pouchet, 59 rue Pouchet, 75017, (accès/ map) & zoom
retour à la page du Séminaire Grammaires créoles
Daphne Gonçalves Teixeira (U. Orléans)
Créoles de Base Portugaise en Afrique - Une approche en TAL pour la mesure de distance entre les langues
(résumé en pdf)
Direction de thèse : Emmanuel Schang (U. Orléans)
L'un des aspects théoriques les plus cruciaux et débattus dans la recherche sur les langues créoles concerne la similarité entre ces langues et leur langue lexificatrice, ainsi qu'avec d'autres langues créoles en général. Actuellement, de nouvelles approches intégrant des techniques de traitement du langage naturel, notamment le traitement et la reconnaissance de la parole, ont donné lieu à l'émergence de méthodologies novatrices. L'utilisation de Wav2Vec et de modèles linguistiques multilingues comme XLSR (Conneau et al. 2020), par exemple, offre une nouvelle perspective pour explorer et établir la similitude entre des paires de langues créoles.
Ce travail est une tentative préliminaire d’utiliser un modèle de langage multilingue afin de vectoriser, à travers Wav2Vec1 (Baevski et al. 2020), des extraits d’audio (à partir de corpus existants) afin de comparer différentes langues - dans ce cas particulier, le portugais européen (PE) et le Kriol. Afin de tester l’algorithme, développé par Séverine Guillaume (LACITO)2 et Guillaume Wisniewski (LLF)3, nous avons pris 2 approches.
Dans un premier temps, nous l’avons testé avec le portugais et le kriol, en comparant les paires de langues suivantes : portugais vs portugais, kriol vs kriol puis portugais vs kriol. Plus tard, afin de tester la robustesse de l’algorithme et des résultats, nous avons testé différents paramètres tels que l’âge et le genre dans le corpus ESLO (ESLO 1 et 2).
Cette étude présentera les résultats préliminaires obtenus pour les deux approches testées et discutera des étapes suivantes dans ce type d’approche computationnelle mesurant la similarité entre langues.
Baevski, Alexei, Henry Zhou, Abdelrahman Mohamed & Michael Auli (2020): wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations.
Conneau, Alexis, Alexei Baevski, Ronan Collobert, Abdelrahman Mohamed & Michael Auli (2020): Unsupervised Cross-lingual Representation Learning for Speech Recognition.
Guillaume, Séverine, Guillaume Wisniewski & Alexis Michaud (2023): From `Snippet-lects’ to Doculects and Dialects: Leveraging Neural Representations of Speech for Placing Audio Signals in a Language Landscape.
Rougé, Jean-Louis, Emmanuel Schang, Ana R. Luis, Flora Badin & Eugène Tavares (2018): Un corpus oral transcrit de kriol. (présentation du corpus)