Dongjun Wei


2025

pdf bib
Watermarking Large Language Models: An Unbiased and Low-risk Method
Minjia Mao | Dongjun Wei | Zeyu Chen | Xiao Fang | Michael Chau
Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)

Recent advancements in large language models (LLMs) have highlighted the risk of misusing them, raising the need for accurate detection of LLM-generated content. In response, a viable solution is to inject imperceptible identifiers into LLMs, known as watermarks. Our research extends the existing watermarking methods by proposing the novel Sampling One Then Accepting (STA-1) method. STA-1 is an unbiased watermark that preserves the original token distribution in expectation and has a lower risk of producing unsatisfactory outputs in low-entropy scenarios compared to existing unbiased watermarks. In watermark detection, STA-1 does not require prompts or a white-box LLM, provides statistical guarantees, demonstrates high efficiency in detection time, and remains robust against various watermarking attacks. Experimental results on low-entropy and high-entropy datasets demonstrate that STA-1 achieves the above properties simultaneously, making it a desirable solution for watermarking LLMs. Implementation codes for this study are available online.

2020

pdf bib
Qualité vocale dans l’acquisition d’une langue étrangère : le cas des apprenants sinophones en FLE (Voice quality in the second language acquisition: The case of Chinese learners of French as Foreign Language)
Dongjun Wei | Mohamed Embarki
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole

L’étude porte sur les configurations de la qualité vocale de huit apprenants sinophones qui parlent en mandarin dans une tâche de production de La bise et le soleil en L1 chinois et L2 français. Une comparaison est faite avec la lecture en français de quatre locuteurs natifs du français. Les corpus chinois/français sont utilisés pour recueillir les impressions d’auditeurs français sur la qualitévocale des apprenants sinophones. Des enregistrements vidéo ont étéégalement réalisés en L1 chinois et L2 français par les mêmes apprenants. Les données subjectives récoltées conformément à la littérature indiquent des variations de configurations de la qualitévocale dans les deux langues. Les mesures acoustiques, Fo moyenne du texte lu et Fo moyenne de la voyelle [a], présentent dans les deux langues des variations ordonnées intra- et interindividuelles, entre lecture en L1 chinois et lecture en L2 français, et entre locuteurs L1 français et apprenants L2 français.