Corpora: Atelier TALN/Workshop TALN : corpus et TAL. 2nd CFP

Marie-Paule =?iso-8859-1?Q?P=E9ry=2DWoodley?= (pery@univ-tlse2.fr)
Fri, 12 Mar 1999 18:47:43 +0100 (MET)

ATELIER TALN'99
(http://talana.linguist.jussieu.fr/taln99/)
12 au 17 juillet 1999,
Institut d'Etudes Scientifiques de Cargèse, Corse

2è APPEL A COMMUNICATION/ 2nd CALL FOR PAPERS

CORPUS ET TAL : POUR UNE REFLEXION METHODOLOGIQUE
CORPORA AND NLP: REFLECTING ON METHODOLOGY

***********************

REPORT DE LA DATE LIMITE DE SOUMISSION : 26 MARS 1999
THE DEAD-LINE IS EXTENDED UNTIL MARCH 26TH

**********************

Le recours aux corpus, alimenté par des ressources linguistiques et
logicielles toujours plus nombreuses, devient de plus en plus fréquent
dans les recherches et les applications en TAL. Cette évolution doit
s'accompagner d'une réflexion de nature méthodologique. Les corpus sont
généralement perçus comme des stocks de données permettant d'acquérir
automatiquement des informations linguistiques, mais leur rôle reste à
évaluer clairement.
Il existe différentes façons d'envisager les corpus. On peut distinguer
quelques unes de ces pratiques.
Les corpus sont considérés :

- le plus souvent, comme des données attestées permettant de
rendre compte du fonctionnement de "la langue". Le corpus facilite la
construction de modèles, et constitue en particulier une alternative à
l'établissement de données lexicales par introspection. Il peut être
également utilisé pour valider des modèles existants.

- comme des données spécifiques, à partir desquelles on tire des
conclusions propres au seul corpus, dans le cadre d'une application donnée
(par exemple, l'acquisition de terminologie dans un domaine spécifique),

- comme des données expérimentales dont on peut contrôler les variables
(écrit vs oral, domaine couvert, visée discursive, etc.) pour les rendre
représentatives d'usages spécifiques de la langue et permettre une
généralisation des résultats aux sous-systèmes délimités par ces variables,
voire au système général de la langue (par exemple, pour la constitution
d'analyseurs syntaxiques généraux). Pour garantir cette
représentativité, l'accent est souvent mis sur la taille des corpus.

Ces perspectives, de natures très différentes, doivent être
explicitées afin que l'on puisse évaluer les résultats obtenus sur
corpus, tant sur le plan de la validité que sur celui de la
réutilisabilité. Nous souhaitons que cet atelier soit l'occasion de
confronter ces différents points de vue et de les éclaircir.

Dans ce but, nous nous intéresserons aux travaux qui développent une
réflexion sur l'utilisation des corpus pour le TAL et/ou la
linguistique. Les domaines abordés par les articles ainsi que les
méthodes employées pourront couvrir l'ensemble des thèmes de la
conférence TALN. Nous encourageons les propositions de contribution
qui problématisent le recours aux corpus et posent nettement certaines
des questions suivantes :

- pourquoi recourt-on aux corpus dans le travail décrit ?
- selon quels critères constituer le corpus ? Ou, si un corpus
est d'emblée disponible pour l'application visée, comment le
caractériser pour pouvoir évaluer la portée des résultats de son
utilisation ? Comment remplit-on le cas échéant des objectifs de
représentativité ?
- les résultats obtenus sont-ils liés à ce corpus, sont-ils
généralisables ?
- comment choisit-on les outils à mettre en oeuvre ? Quelles
sont les conséquences sur le plan méthodologique ?

*** COMITE D'ORGANISATION ***

Anne Condamines, Cécile Fabre, Marie-Paule Péry-Woodley
ERSS (Equipe de Recherche en Syntaxe et Sémantique)

COORDONNEES :

ERSS, Maison de la Recherche, 5 allées A. Machado, 31058 Toulouse Cedex
(acondami,cfabre,pery)@univ-tlse2.fr
tél : 05 61 50 36 09 ou 05 61 50 36 08, fax : 05 61 50 46 77

*** COMITE DE PROGRAMME ***

Andrée Borillo (ERSS, Toulouse)
Didier Bourigault (ERSS, Toulouse)
Teresa Cabre (IULA, Universitat Pompeu Fabra, Barcelone)
Anne Condamines (ERSS, Toulouse)
Cécile Fabre (ERSS, Toulouse)
Bernard Fradin (LLI, Villetaneuse)
Benoît Habert (UMR 9952, ENS Fontenay/St-Cloud)
Fabrice Issac (UTC Compiègne)
John Mac Naught (Center for Computational Lingusitics, UMIST, Manchester)
Adeline Nazarenko (LIPN, Villetaneuse)
Marie-Paule Péry-Woodley (ERSS, Toulouse)
André Salem (ILPGA /Sorbonne nouvelle - Paris 3)
Pierre Zweigenbaum (DIAM/SIM AP-HP, Paris)

*** DATES IMPORTANTES ***

26 mars : Date limite de soumission des articles
1 mai : Notification
15 mai : Version finale

*** FORMAT DES SOUMISSIONS ***:

Les articles soumis doivent suivre les modalités de soumission de
TALN'99. Ils ne devront pas dépasser 10 pages en Times 12, espacement
simple, soit environ 3000 mots, figures, exemples et références compris,
et doivent être conformes au style disponible sur le site de
TALN'99 (http://talana.linguist.jussieu.fr/taln99/).

4 copies des articles doivent parvenir aux organisatrices de l'atelier
avant le 19 mars 1999. La version finale sera publiée dans les actes du
Workshop.

*** LANGUE DE L'ATELIER ***

Les langues officielles pour les articles et les communications sont
le français et l'anglais.

*** ADRESSE DE L'ENVOI ***

Atelier TALN'99
ERSS
Maison de la Recherche
5 Allées Antonio Machado
31058 TOULOUSE Cedex, FRANCE
*******************************************************************************

CALL FOR PAPERS

CORPORA AND NLP: REFLECTING ON METHODOLOGY

With current rapid developments in linguistic resources and analytical
software, more and more NLP research, whether descriptive or applied, is
turning towards the use of corpora. These new research practices make it
necessary to review methodological principles.
Corpora are mostly perceived as banks of data allowing automatic access to
linguistic information, but their role needs to be assessed more precisely.
Researchers resort to corpora for a number of different reasons:
- mostly they view them as stores of occurrences which can be used for the
description of the linguistic system. Corpora facilitate the elaboration of
models and constitute an alternative to the introspective construction of
data. They can also help validate existing models.
- on the other hand, they are also used as specific data, forming the basis
for observations which apply only to the corpus under study, with a
particular application in mind (e.g. to acquire terminological data in a
specialised field).
- corpora can also constitute experimental data where variables may be
controlled (written vs spoken, domain, discourse function, etc.) in order
to make them representative of specific uses of language and allow
generalisation of results to the sub-systems defined by these variables, or
even to the overall system of the language (e.g. for the elaboration of
parsers). The problem of representativity is often then tackled in terms of
corpus size.

These conceptions differ quite fundamentally , and must be made explicit if
we are to be able to evaluate results from corpus analysis, both as to
their validity and their reusability. We would like this workshop to
provide researchers with an opportunity to confront views and approaches,
so as to clarify them.

With this objective in mind, we call for papers which take a reflective
approach to the use of corpora in NLP and/or linguistic research. Domains
and methods may range over any of the TALN conference themes. We particularly
welcome studies which look critically at their corpus-based methodology and
ask some of the following questions:
- why does the work described make use of a corpus?
- what criteria should inform the design of the corpus? Or, if there is an
existing corpus corresponding to the aims of the study, how should it be
characterised to allow proper evaluation of the scope of the results? How
can representativity be achieved?
- are the results of an analysis entirely tied to the corpus used or are
they generalisable?
- what criteria can guide the choice of analytical tools? What are the
methodological consequences of these choices?

*** ORGANISING COMMITTEE ***

Anne Condamines, Cécile Fabre, Marie-Paule Péry-Woodley
ERSS (Equipe de Recherche en Syntaxe et Sémantique)

ADDRESS :
ERSS, Maison de la Recherche, 5 allées A. Machado, 31058 Toulouse Cedex
(acondami,cfabre,pery)@univ-tlse2.fr
tel : +33 (0)5 61 50 36 09 ou +33 (0)5 61 50 36 08, fax : +33 (0)5 61 50 46 77

*** PROGRAM COMMITEE ***

Andrée Borillo (ERSS, Toulouse)
Didier Bourigault (ERSS, Toulouse)
Teresa Cabre (IULA, Universitat Pompeu Fabra, Barcelone)
Anne Condamines (ERSS, Toulouse)
Cécile Fabre (ERSS, Toulouse)
Bernard Fradin (LLI, Villetaneuse)
Benoît Habert (UMR 9952, ENS Fontenay/St-Cloud)
Fabrice Issac (UTC Compiègne)
John Mac Naught (Center for Computational Lingusitics, UMIST, Manchester)
Adeline Nazarenko (LIPN, Villetaneuse)
Marie-Paule Péry-Woodley (ERSS, Toulouse)
André Salem (ILPGA /Sorbonne nouvelle - Paris 3)
Pierre Zweigenbaum (DIAM/SIM AP-HP, Paris)

*** IMPORTANT DATES ***

26 March: Deadline for submission of papers
1 May: Notification of acceptance/rejection
15 May: Deadline for final version

*** SUBMISSION FORMAT ***
Papers submitted must conform to the submission format of TALN'99. They
should not exceed 10 pages of text in Times 12 with single line-spacing,
i.e. approximately 3000 words, figures, examples and references included.
They must conform to the style sheet available on the TALN'99 web site
(http://talana.linguist.jussieu.fr/taln99).

*** LANGUAGES ***
The official languages for papers and presentations are French and English

*** ADDRESS ***

ATELIER TALN'99
ERSS
Maison de la Recherche
5, Allées Antonio Machado,
31058 Toulouse cedex, FRANCE

********************************** **********************************
* Marie-Paule PERY-WOODLEY * *
* Equipe de Recherche en Syntaxe * *
* et Semantique * *
* Maison de la Recherche * Telephone :+33(0)5 61 50 36 09 *
* 5 allees Antonio-Machado * Telecopie :+33(0)5 61 50 46 77 *
* 31058 TOULOUSE CEDEX * Email: pery@univ-tlse2.fr *
* * *
********************************** **********************************