If you've seen some, you've seen them all: Identifying variants of multiword expressions - Laboratoire LI, équipe BDTLN Accéder directement au contenu
Communication Dans Un Congrès Année : 2018

If you've seen some, you've seen them all: Identifying variants of multiword expressions

Trait pour trait identiques ? Identification de variantes d’expressions polylexicales

Résumé

Multiword expressions, especially verbal ones (VMWEs), show idiosyncratic variability, which is challenging for NLP applications, hence the need for VMWE identification. We focus on the task of variant identification, i.e. identifying variants of previously seen VMWEs, whatever their surface form. We model the problem as a classification task. Syntactic subtrees with previously seen combinations of lemmas are first extracted, and then classified on the basis of features relevant to morpho-syntactic variation of VMWEs. Feature values are both absolute, i.e. hold for a particular VMWE candidate, and relative, i.e. based on comparing a candidate with previously seen VMWEs. This approach outperforms a baseline by 4 percent points of F-measure on a French corpus.
Les expressions polylexicales (EP), et parmi elles plus particulièrement les EP verbales (EPV), se caractérisent par une grande variabilité idiosyncrasique de forme. La détection et l’identification de ces EPV variées pose ainsi un réel défi à la réalisation d’applications langagières robustes. Cet article met l’accent sur la tâche d’identification dans un corpus de variantes d’une EP verbale déjà rencontrées. Il propose une stratégie d’identification basée sur l’extraction de formes candidates à partir de patrons syntaxiques, suivie de leur classification basée sur des caractéristiques morphologiques et syntaxiques. Ces propriétés sont à la fois absolues (c.-à-d. concernent l’entité considérée) ou relatives (c.-à-d. issues de la comparaison avec des EPV déjà rencontrées). Les performances du système résultant ont été évaluées sur un corpus francophone. Elles montrent une amélioration de 4 points de F-mesure par rapport à une baseline bien établie.
Fichier principal
Vignette du fichier
article-coling.pdf (1.33 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01866345 , version 1 (03-09-2018)

Identifiants

  • HAL Id : hal-01866345 , version 1

Citer

Caroline Pasquer, Agata Savary, Carlos Ramisch, Jean-Yves Antoine. If you've seen some, you've seen them all: Identifying variants of multiword expressions. COLING, Aug 2018, Santa Fe, United States. ⟨hal-01866345⟩
123 Consultations
64 Téléchargements

Partager

Gmail Facebook X LinkedIn More