Skip to content

Le cas des liaisons

Comment prendre en compte les liaisons ? Le problème principal, c'est qu'on prend les mots les uns après les autres, et les colorise un par un ans prendre en compte ce qui suit ou ce qui précède.

2 possibilités :

  1. on récupère les liaisons du dictionnaire. Il y en a déjà pas mal, mais ça marchera que si les deux mots apparaissent côte-à-côte qqpart dans le dictionnaire. Autrement dit il va manquer plein de cas.
  2. les liaisons du français fonctionnent par règle. Peu d'exceptions. On doit donc pouvoir coder ça en dur (sans passer par un modèle statistique).

On part sur 2). Résumé des règles : https://www.lepointdufle.net/ressources_fle/liaisons_obligatoires_liaisons_interdites.htm Attention : il va falloir prendre en compte la nature des mots (pour les adjectifs notamment). En principe, ce sera pas un soucis avec spaCy qui tokénise déjà le texte.