Informatisation du FEW

Les 25 volumes du Französisches Etymologisches Wörterbuch de Walther von Wartburg posent dans leur état actuel d’importants problèmes de consultation, dus à la structure très complexe du dictionnaire. Chaque article rassemble, sous un étymon commun, tous les lexèmes du français, du franco-provençal, du gascon, de l’occitan et de leurs dialectes (dont les dialectes belgoromans), selon un classement qui varie en fonction de la famille lexicale traitée ; de nombreuses abréviations ajoutent à la densité du texte. Il en résulte que les articles sont illisibles pour qui n’a pas été formé à leur lecture. Même pour les linguistes rompus à l’exercice, la recherche d’une unité lexicale dans le FEW s’apparente à un jeu de piste : il est recommandé de « lire le FEW d’un bout à l’autre » (K. Baldinger) avant de prétendre qu’un mot y manque.

L’informatisation du FEW est rapidement apparue comme la solution à son inaccessibilité. Le projet vise à mettre le dictionnaire à la disposition gratuite de la communauté des chercheurs, sous une forme qui en renouvellera l’exploitation. Concrètement, l’objectif de cette entreprise est de fournir un FEW électronique dans lequel les types d’information qui intéressent les utilisateurs ont été identifiés via un balisage XML, ce qui permettra des recherches ciblées et de nouveaux modes de consultation.

Le projet d’informatisation du FEW est mené à l’ATILF en collaboration avec l’Université de Liège. Une thèse en cotutelle Nancy-Liège, menée par Pascale Renders sous la direction de Eva Buchi (ATILF) et Marie-Guy Boutier (ULg), a prouvé la faisabilité du projet. L’étude a abouti à la conception d’un logiciel dit « de rétroconversion », capable de structurer chaque article du FEW de façon totalement automatisée au moyen d’un balisage XML, exploitable par un moteur de recherche et pensé de manière à répondre aux besoins variés des utilisateurs (cf. publications de P. Renders).

L’application de cette recherche doctorale est en cours à l’ATILF et à l’ULg, avec le soutien du FNRS belge et de la Fondation FEW. L’objectif est triple :

  1. faciliter l’accès et la lecture du FEW à tous les chercheurs et étudiants via une interface d’interrogation ;
  2. permettre l’intégration des nombreuses corrections au FEW, sans nuire à la cohérence structurelle de l’ouvrage ;
  3. permettre sa mise en réseau avec d’autres dictionnaires en ligne (DEAF, AND, TLF-Etym etc.).

Les volumes 16, 17 et 19 sont actuellement (janvier 2014) en cours d’informatisation. Le déroulement du projet est programmé en quatre grandes étapes :

  1. acquisition du texte brut du FEW sous format électronique (avec l’aide du Trier Center for Digital Humanities) ;
  2. balisage des articles au moyen du logiciel de rétroconversion (Université de Liège) ;
  3. développement des outils d’exploitation (ATILF) ;
  4. en parallèle, conception d’une police de caractères apte à afficher les nombreux caractères spéciaux de l’ouvrage (avec l’aide de l’ANRT).

En attendant la mise à disposition du texte interrogeable, les volumes sont mis en ligne sous leur format image, sur le site du Lecteur FEW.