Evaluation et exploitation d'étiqueteurs morphosyntaxiques dans une perspective d'analyse des genres scientifiques

Rapport final d'un contrat de bourse Marie Curie à Bergen Advanced Training Site in Multilingual Tools (BATMULT) – Octobre-décembre 2003

Céline Poudat (Université d' Orléans)

I. Description du projet

Le projet que j'ai mené à Bergen s'inscrit dans le cadre plus large de ma thèse de doctorat, intitulée « Etude contrastive de l'article scientifique dans une perspective d'analyse des genres. »

La thèse se propose de dégager les propriétés linguistiques et sociales de l'article scientifique de revue linguistique, en partant de l'hypothèse que le genre est un niveau global de régulation des variables/corrélations linguistiques à condition de prendre en compte ses conditions de production et d'interprétation. Le genre est effectivement subordonné à une pratique sociale précise, i.e. la communication scientifique. Dans cette perspective, appréhender l'article scientifique en tant que genre nécessiterait donc une analyse pluridisciplinaire, à la fois sociologique et linguistique. L'approche "corpus" nous permet toutefois de faire converger ces deux méthodologies, et c'est à partir de l'exploration du corpus que des méthodologies d'analyse linguistique et sociologique seront développées (linguistique et sociologie de corpus).

La dimension contrastive interlangue français/anglais nécessite en outre l'élaboration d'une méthodologie d'analyse contrastive des genres (adaptation des outils/méthodes de traitement de corpus, prise en compte de l'interférence entre les langues, pondération des variables et phénomènes linguistiques étudiés, etc.).

L'analyse contrastive interlangue de l'article scientifique étant difficilement concevable sur corpus parallèles (différences de pratiques sociales, problèmes de disponibilité des textes, etc.), l'étude de textes de genres comparables ne peut être envisagée que comme la mise en texte de genres comparables. Le plan de l'expression doit par conséquent être privilégié et chaque langue pourra être étudiée séparément, avec un ensemble de catégories identiques.

Deux types de catégories nous intéressent tout particulièrement pour caractériser le genre: les catégories structurelles et linguistiques, qui doivent être annotées pour pouvoir être appréhendées. Le développement de la linguistique de corpus entraînant des besoins croissants de standardisation et d'uniformisation des systèmes d'annotation, j'ai choisi de baliser mon corpus en XML et selon les recommandations de la TEI.

Les annotations structurelle et linguistique devant être unifiées à terme, les catégories linguistiques doivent être étiquetées conformément à la TEI, ce qui est encore bien problématique: à notre connaissance, aucun système d'étiquetage automatique linguistique français/anglais n'est actuellement adapté au traitement de tels textes. Les deux annotations doivent donc être menées séparément puis être fusionnées au sein d'un même document.

Le niveau d'annotation morphosyntaxique étant encore le plus développé à l'heure actuelle en raison de la relative faisabilité de l'annotation et de son apport considérable à la description des langues, de nombreux étiqueteurs morphosyntaxiques ou encore assignateurs automatiques de catégories (taggers) sont disponibles.

L'exploitation de tels outils requiert un travail préalable de recension et d'évaluation. De surcroît, la comparaison des niveaux morphosyntaxiques en français et en anglais ne saurait s'effectuer sans pondération des étiquettes, en fonction des caractéristiques des langues étudiées. Les catégories linguistiques acquièrent en effet des valeurs différentes selon la structure et les spécificités des langues: elles doivent par conséquent être adaptées pour pouvoir être considérées comme comparables.

Le projet que j'ai choisi de mener à AKSIS dans le cadre du projet BATMULT vise à recenser, évaluer et exploiter ces assignateurs automatiques de catégories dans les deux langues. Il a été mené en collaboration avec le projet KIAP (dir. K. Fløttum) auquel je suis indirectement rattachée, et plus précisément avec K. Fløttum.

II. Rapport d'activité

II.a. Déroulement du projet

Un travail de recension et de description des outils existants et disponibles a d'abord été mené. Au final, six taggers ont été retenus: Brill Tagger, Cordial Analyseur, MBT tagger, TnT Tagger, TreeTagger et VISL.

Les outils étant implémentés dans des langages de programmation différents et fonctionnant le plus souvent sous Linux, leur installation, de même que leur utilisation n'a pas toujours été évidente. Sindre Sørensen m'a été d'une grande aide dans ce processus en répondant volontiers à mes questions et en m'aidant à installer les outils. Deux des six outils sélectionnés (TnT et TreeTagger) étaient d'ailleurs déjà installés à AKSIS et j'ai pu y accéder facilement.

La plupart des outils répertoriés se sont avérés offrir une possibilité d'entraînement, i.e. Brill, MBT, TnT et TreeTagger permettent de générer un outil d'annotation automatique à partir d'un corpus manuellement étiqueté, le système d'annotation de départ étant libre.

Cette possibilité, qui n'avait pas été prise en compte au départ, a entraîné d'importantes modifications du projet : en effet, j'avais initialement envisagé d'évaluer les outils et la pertinence des variables morphosyntaxiques disponibles. Les variables ayant obtenu les meilleurs scores auraient ensuite été récupérées et fusionnées au sein de documents XML.

Dans cette perspective, j'ai d'abord mené un travail de recension des travaux antérieurs d'évaluation d'étiqueteurs morphosyntaxiques et syntaxiques et d'outils du TAL en général (FRANCIL ARCs: Grace 1994 et Eagles 1996, Chanod 1995, Cutting 1992, Molla et Hutchinson 2003, Santos et Gasperin 2002, etc.), qui m'a permis d'apprécier toute la difficulté d'un travail d'évaluation.

Evaluer la qualité des variables et ne conserver que les plus pertinentes pose en effet de nombreux problèmes. La plupart des étiqueteurs proposent un jeu très limité d'étiquettes souvent fondé sur des critères d'automatisation plutôt que sur des critères strictement linguistiques (le système d'annotation du projet Penn Treebank distingue par exemple les verbes au simple present anglais à la troisième personne du singulier; celui de TreeTagger ne permet pas de coder les temps composés du français, etc.). En outre, les théories et hypothèses linguistiques sous-tendant l'analyse sont hétérogènes – VISL propose des tags fondés sur les hypothèses des grammaires de contraintes, ce qui le rend difficilement comparable à des outils comme TreeTagger ou Cordial – et les critères d'étiquetage diffèrent d'un tagger à l'autre (longueur du contexte, critères morphologiques, etc.).

Les outils sont de surcroît implémentés de manière distincte (règles, classification automatique, etc.) et dans des cadres différents: un outil commercial comme Cordial doit ainsi se soumettre à des critères de rapidité et adopter des catégories appréhendables par le grand public.

Les étiqueteurs recensés ne sont pas tous exploitables en leur état – plusieurs outils ne permettent pas d'étiqueter le français – et ont été entraînés sur des corpus très éloignés du genre qui m'intéresse (textes journalistiques et littéraires la plupart du temps). Le système d'annotation employé est a fortiori souvent discutable: l'élaboration d'un système d'annotation plus adapté et plus complet quant à mon étude m'a paru fortement souhaitable. Dans l'état actuel des choses, les taggers ne sont pas immédiatement améliorables, le corpus étiqueté d'entraînement n'étant pas directement fourni.

Entraîner les taggers à étiqueter le genre de l'article scientifique à partir d'un système d'annotation de mon choix m'a semblé être la solution la plus pertinente, bien que coûteuse. J'ai en effet privilégié l'objectif de la thèse, qui demeure de caractériser l'article scientifique dans les deux langues à partir d'une étude en corpus: l'évaluation des outils doit demeurer subordonnée à un tel objectif.

Une fois la décision prise d'entraîner les taggers, j'ai travaillé à l'élaboration d'un jeu d'étiquettes adapté à la caractérisation des articles scientifiques, que j'ai soumis à l'approbation de trois membres du projet KIAP: K. Fløttum, T. Kinn et E. Thue Vold.

Travaillant sur deux langues, deux corpus d'entraînement doivent être élaborés, de taille suffisamment importante pour permettre aux taggers d'en inférer des règles.

L'étiquetage manuel d'un corpus représentant une tâche ingrate et très coûteuse en temps, je ne pouvais raisonnablement envisager l'annotation de deux corpus. En outre, il me fallait dans un premier temps évaluer l'entraînabilité des outils. Si la plupart des outils répertoriés permettent de traiter la langue anglaise, il n'en va pas de même du français: j'ai donc pris la décision de me consacrer au français.

Un corpus d'entraînement de 20 articles scientifiques linguistiques français (soit 136 936 mots/170 000 tokens) a été sélectionné. L'annotation manuelle de 136 936 mots étant difficilement envisageable, j'ai opté pour une correction manuelle en contexte des résultats obtenus par l'un des étiqueteurs disponibles[1]. C'est finalement la version française de TreeTagger qui a été retenue, les autres outils ayant été écartés pour différentes raisons : MBT et TnT ne permettent pas l'étiquetage du français et la version de Brill développée par l'Inalf n'est pas pourvue d'un tokenizer. Cordial fournit en sortie un fichier difficile à exploiter tel quel, et les tags qu'il propose sont globalement éloignés du système d'annotation choisi. Au contraire, les étiquettes de TreeTagger sont plus proches du résultat souhaité.

En outre, j'ai ainsi pu apprécier les résultats de TreeTagger sur le français.

Une fois le fichier corrigé, je me suis consacrée à l'entraînement des outils, qui aurait été difficilement envisageable sans l'aide précieuse de Sindre Sørensen.

J'ai donc pu entraîner trois outils sur quatre: MBT, TnT et Brill. TreeTagger nécessitant un dictionnaire pleine forme du français, je n'ai pas pu l'exploiter.

Si MBT s'est avéré décevant[2], TnT a obtenu des résultats tout à fait honorables et très encourageants pour la suite.

Enfin, j'ai travaillé au codage TEI des étiquettes morphosyntaxiques, ce qui me sera très utile ultérieurement, lorsqu'il s'agira de fusionner les résultats de l'étiquetage aux corpus XML-TEI.

II.b. Activités parallèles

J'ai pu également participer et assister à différentes manifestations qui m'ont été extrêmement profitables.

II.b.1. Interventions

- Un séminaire a été organisé en l'honneur de Christian Fluhr, de passage à Bergen en délégation française (23-24 octobre 2003). Gjert Kristoffersen m'a proposé d'y participer. J'ai pu ainsi présenter les premières avancées de mon projet (Toward an evaluation and exploitation of French and English taggers in a contrastive genre analysis framework), et ai bénéficié de l'expertise de différents membres d'AKSIS (dont Paul Meurer qui a travaillé sur le tagger Oslo-Bergen). En outre, j'ai pu avoir un aperçu de la recherche qui s'effectuait à Aksis.

- Je suis également intervenue dans le séminaire interne KIAP organisé par K. Fløttum le 31 octobre 2003. J'ai pu y décrire les premières avancées de mon étude contrastive (De l'usage des pronoms personnels et des temps verbaux dans les articles scientifiques linguistiques français et anglais: premiers résultats contrastifs) et participer à des discussions très enrichissantes avec les membres du projet.

- J'ai enfin présenté l'intégralité de mon projet le 5 décembre 2003 lors d'un Friday seminar organisé par K. de Smedt (Using taggers to characterize scientific articles). J'ai pu ainsi exposer les nombreux problèmes que j'ai rencontrés lors des phases d'annotation et d'entraînement. L'expertise et les conseils des participants m'ont été très profitables pour la suite.

II.b.2. Assistance à différents séminaires

- De passage à Bergen, Claire Blanche-Benveniste a donné trois conférences sur la langue parlée (du 13 au 15 octobre 2003), auxquelles j'ai assisté et qui m'ont été très profitables, dans la mesure où j'ai pu apprécier l'état de la recherche actuelle sur l'oral.

- Nancy Ide a donné une conférence particulièrement intéressante le 11 novembre 2003 intitulée " Sense Disambiguation with Parallel Corpora".

III. Résultats obtenus

Je suis très satisfaite des résultats que j'ai obtenus durant mon séjour à AKSIS: ils me seront très profitables pour la suite de ma thèse.

III.a. Une bonne connaissance de six étiqueteurs morphosyntaxiques

Durant mon séjour à AKSIS, j'ai acquis une très bonne connaissance des six étiqueteurs morphosyntaxiques répertoriés. J'ai documenté chacun des outils (caractéristiques générales, fonctionnement et implémentation, tagsets) et les ai largement manipulés. Je sais à présent quels outils sont les plus pertinents et je sais parfaitement les utiliser et les entraîner – je me suis beaucoup améliorée avec Linux, grâce aux conseils de Sindre Sørensen.

III.b. Un état de l'art des travaux d'évaluation antérieurs

Afin de mener à bien mon projet d'évaluation, j'ai répertorié et étudié les travaux d'évaluation antérieurs. Je pense être à jour dans le domaine et ces connaissances me serviront ultérieurement.

III.c. Un système d'annotation morphosyntaxique dédié au genre de l'article scientifique

J'ai élaboré un tagset dédié au genre de l'article scientifique, que j'ai soumis à l'approbation des membres du projet KIAP. Le système d'annotation est encore très robuste[3] et demande à être amélioré, mais il constitue une première base très satisfaisante.

III.d. Deux versions d'un corpus manuellement étiqueté de 170 000 tokens

J'ai travaillé sur un corpus français de 170 000 tokens: j'ai corrigé les sorties de TreeTagger et adapté les étiquettes récupérables. Les étiquettes qui n'étaient pas comprises dans le système d'annotation adopté par TreeTagger ont été rajoutées manuellement – parfois à l'aide d'expressions régulières.

Deux versions du corpus ont été développées, l'une pour entraîner Brill, l'autre pour entraîner TnT et MBT. Brill requiert en effet un format de fichier différent (une phrase par ligne), qui a demandé un réajustement important du document de départ.

Le corpus annoté pourra en outre être ré-exploité dans d'autres cadres (études qualitatives par exemple).

III.e. Un tagger adapté au traitement des articles scientifiques linguistiques

Enfin, j'ai obtenu des résultats tout à fait satisfaisants avec TnT, que je pense privilégier pour traiter mon corpus. Une étude comparative des résultats obtenus avec TnT, TreeTagger, Brill et MBT demeure toutefois à effectuer, mais je dispose déjà d'un outil qui fonctionne correctement, ce qui est très positif pour ma thèse.

[1] L'utilisation de plusieurs sorties d'étiqueteurs poserait en effet de nombreux problèmes et constituerait un travail de recherche à part entière (cf. Projet AMALGAM).

[2] Les résultats obtenus étaient fort médiocres, mais il faut souligner que l'outil demande un paramétrage important; W. Daelemans, le concepteur du tagger avec qui je suis en contact, a accepté de m'aider à régler les paramètres.

[3] Il aurait de toute manière été hasardeux de développer un tagset de granularité élevée sans l'avoir testé sur les outils: il me semble en effet que ce n'est que progressivement qu'il est possible d'améliorer le système d'annotation, en fonction des résultats obtenus par les taggers.