tranSLA

Dates
à
Responsable(s)
Description

Outiller la linguistique de corpus est un enjeu essentiel des recherches qui sont menées à SFL, notamment sur l’acquisition des langues secondes. Les récents progrès technologiques posent de nouvelles questions sur le plan méthodologique (Benazzo & Watorek 2021). Si les résultats obtenus pour la reconnaissance de la parole de façon générale sont très encourageants (Radford & al. 2023), nous avons par contre encore besoin de pouvoir évaluer finement leur fonctionnement sur une langue non standard comme l’interlangue des apprenants d’une langue étrangère (Selinker 1972). Aussi ce projet est à la croisée de la linguistique et de l’informatique, et a pour but de mener une étude sur la reconnaissance automatique de la parole sur différents corpus d’apprenants déjà transcris manuellement afin de pouvoir, dans un premier temps, comparer les résultats obtenus, les quantifier mais également évaluer finement quels éléments de langage posent des difficultés.

Ce projet est financé par l'Université Paris 8 et le laboratoire SFL (campagne d'AAP 2024).

 

Bibliographie

  • Benazzo, S. & Watorek. 2021. M. Transcription de corpus oraux d’apprenants débutants en français L2 : quelques enjeux théoriques. In L. Spreafico, G. Bernini, A. Valentini & J. Saturno (éds.) Superare l’evanescenza del parlato. Un vademecum per il trattamento digitale di dati linguistici (pp. 127-165). Bergamo: Sestante, 127-165.
  • Bley-Vroman, R. 1983. The Comparative Fallacy in Interlanguage Studies: The Case of Systematicity. Language Learning. 1983, 33(1), 1-17.
  • Dekydtspotter, L., Schwartz, B. & Sprouse, R. 2006. The Comparative Fallacy in L2 Processing Research. 8th Generative Approaches to Second Language Acquisition Conferences, 33-40.
  • El Ayari, S. 2022. Sarramanka, une plateforme outillée de transcription, d’annotation et d’exploration de corpus. 8ème Congrès Mondial de Linguistique Française (CMLF), Orléans, France, 10066. DOI : https://doi.org/10.1051/shsconf/202213810006
  • El Ayari, S. & Watorek. M. 2021. Exploration outillée pour un corpus de productions orales des apprenants débutants en L2. Colloque "Influence translinguisitique : où en est-on aujourd'hui ?", Toulouse, France.
  • Klein, W. & Perdue, C. 1997. The Basic Variety (or: Couldn’t natural languages be much simpler?). Second Language Research, 13(4), 301-347.
  • Perdue, C. (ed.) 1993. Adult Language Acquisition. Vol 1: Field Methods. Cambridge University Press.
  • Radford, A., Kim, J. Xu,T., Brockman, G., McLeavey, C. & Sutskever, I. 2023. Robust speech recognition via large-scale weak supervision. Proceedings of the 40th International Conference on Machine Learning, Hawaï, USA, 28492–28518.
  • Selinker, L. 1972. Interlanguage. International Review of Applied Linguistics, 1(3), 209-231.
Membres
Publications liées
  • Sarra El Ayari & Zhongjie LI, Potential of ASR for the study of L2 learner corpora, Workshop Natural Language Processing for Computer-Assisted Language Learning (NLP4CALL) , Oct 2024, Rennes, France.
  • Sarra El Ayari & Marzena Watorek. What has Automatic Speech Recognition to offer for the study of learners' corpora? 3rd Conference of the European Second Language Association (EuroSLA), Jul 2024, Montpellier, France.
Equipe(s)
Soutenu par SFL