[Corpora-List] Call for submissions: workshop on CHARACTERISATION OF INTERNET CONTENT

From: Natalia Grabar (ngr@biomath.jussieu.fr)
Date: Fri Nov 21 2003 - 20:26:18 MET

  • Next message: Olivier Kraif: "RE : [Corpora-List] Looking forparallel corpora : French/English scientific articles"

    [french version below]

    >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>

    Workshops of the Association pour le Traitement Automatique des LAngues
    (ATALA)

    CALL FOR SUBMISSIONS

    Location:
    ENST, 46, rue Barrault, 75013 Paris, Métro : Corvisart

    Date:
    SATURDAY JANUARY 31TH, 2004

    Subject:
    CHARACTERISATION OF INTERNET CONTENT: BEYOND KEYWORDS, SEMANTIC APPROACH.

    Workshop organised by François Rastier (CNRS - UMR 7114, Paris X -
    MoDyCo), Natalia Grabar (CRIM/INaLCO, STIM / DSI / AP-HP, Paris 6) and
    Thomas Beauvisage (France Télécom R&D - DIH/UCE, Paris X - MoDyCo)

    [This call for submissions is also available on the ATALA website (www.atala.org)]

    ======
    Issues
    ======

    Applications related to characterisation, detection and processing of
    Internet content (Web, mail, fora, ...) are ever more numerous, both
    in relation to Internet access and content filtering. Therefore, there
    exists a real social need which is direclty related to NLP techniques:
    NLP appears here as the user of Internet content, but also as the
    developer of tools for the content processing. But while all documents
    available on the Web and network exchanges (mails, web discussion
    fora, ...) make up a digitised text repository that is constantly
    expanding, their detection, collection and processing raise a series
    of technical and theoretical problems.

    First of all, NLP tools have to be adapted to the lexical content of
    Internet documents (specific vocabulary, formatting, check spelling,
    grammatical correction). More generally, the poly-semiotic nature of
    Web content raises questions about the relevance of lexicon-specific
    content processing. Two examples can help us realise the usefulness of
    going beyond lexical approaches:

     - search engines have significantly improved their performances with
       the exploitation of structural elements of HTML pages ("keywords"
       tags, ...) and Web links.

     - in filtering applications, key-words seem to be insufficient. They
       make up a baseline and have to be combined with other types of
       features (morphology, punctuation, syntax, etc.).

    Pictures, formularies, layout, evolutivity, services offered, exchange
    structures are some other elements which require considering Internet
    content as a specific activity, with its own interaction modes and its
    specific user-centered rules.

    Because of these problems, computational linguistics has to study
    further the use of Internet content. It is then important to define
    which textual and non-textual elements -going beyond merely lexical
    material- participate in the characterisation of Internet content and
    which kinds of tools are useful to bring this characterisation to
    light. This workshop is organised to point to existing problems and
    current solutions in different applications.

    ==========
    Objectives
    ==========

    This workshop is organised to point to existing problems faced by NLP
    tools for the description and use of material available on the
    Internet (Web pages and sites, mail, fora, instant mail, etc). Such
    problems concerns in particular:

     - methods for content collection, accessibility of content,
       formalisms for information storage, etc.

     - the semantics of Internet content: textual content vs. services
       offered, multimedia and interactive content, semiotics of web
       pages;

     - categorisation methods: topic detection, categorisation of sites
       and pages, Internet-specific genres.

    Globally speaking, these problems reveal new links between NLP and the
    Internet. On the same time, because of these problems, computational
    linguistics has to study further the benefits and limitations of NLP
    tools for the description and use of Internet content.

    We are particularly interested in work which goes beyond the
    single-criterion analysis (i.e. keywords) and offers an analysis which
    takes into account different organisational levels of the document:

     - inside the ergonomic unity of the document: textual (lexical,
       grammatical, etc.), visual (pictures, logos), structural (text,
       peritext) or other elements (frames),

     - the environment of the document: the sites or the services proposed
       within the document, the network of pages which the document is
       part of (internal, external links, anchors), the usage scenarii in
       which the document exists, etc.

     - in the intertextual integration of the document on the Internet
       (connectivity, hypertext).

    ==========
    Submission
    ==========

    Interested authors can send a 2-to-4-page abstract of their work,
    providing the
    following information:
    - research objectives and application fields,
    - stage of research work,
    - theoretical and practical research-related issues,
    - bibliography.

    Abstracts have to be sent to the following e-mail address:
    indices.internet@ml.free.fr
    (this adress will be close on Feb. 1st 2004.

    Accepted document formats (in preference order): PDF, PS, TXT, DOC, RTF

    Official languages: French, English

    ===============
    Important dates
    ===============

    Submission: December 15, 2003
    Notification: January 05, 2004
    Workshop: January 31, 2004

    <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<

    >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>

    Journées d'Étude de l'Association pour le Traitement Automatique des LAngues
    (ATALA)

    APPEL À COMMUNICATIONS

    Lieu :
    ENST, 46, rue Barrault, 75013 Paris, Métro : Corvisart

    Date :
    SAMEDI 31 JANVIER 2004

    Titre :
    CARACTÉRISATION DES CONTENUS DE L'INTERNET : AU-DELÀ DU LEXIQUE, L'APPROCHE SÉMANTIQUE.

    Journée organisée par François Rastier (CNRS - UMR 7114, Paris X -
    MoDyCo), Natalia Grabar (CRIM/INaLCO, STIM / DSI / AP-HP, Paris 6) et
    Thomas Beauvisage (France Télécom R&D - DIH/UCE, Paris X - MoDyCo)

    [L'appel à participation peut-être consulté sur le site de l'ATALA (www.atala.org)]

    =============
    Problématique
    =============

    Les applications de caractérisation, de détection et de traitement des
    contenus Internet (Web, mail, forums...) se multiplient, soit pour
    l'accès, soit pour le filtrage. Il y a là une demande sociale
    croissante qui intéresse naturellement le traitement automatique du
    langage : dans ce cadre, le TAL se pose comme consommateur de
    contenus, mais également comme producteur d'outils qui exploitent ces
    contenus. Cependant, si la masse des documents accessibles sur le Web
    et des échanges via le réseau s'apparente à une mine de textes
    numérisés en constante extension, le repérage, la collecte et le
    traitement de ces documents posent une série de problèmes, tant au
    niveau technique que théorique.

    En premier lieu, le contenu textuel des documents nécessite bien
    souvent d'adapter les outils de TAL (vocabulaire spécifique,
    formatage, correction orthographique et grammaticale). Plus
    généralement, la nature polysémiotique des contenus Web invite à
    s'interroger sur la place et la pertinence d'un traitement réduit au
    lexique, comme c'est fréquemment le cas. Deux exemples illustrent un
    dépassement heureux du "tout lexical" :

     - les moteurs de recherche ont significativement amélioré
       leurs performances en exploitant finement les éléments structurels
       des documents HTML (balises "keywords"...) et la structure de liens
       du Web.

     - dans les applications de filtrage, les mots-clé s'avèrent
       très insuffisants. Ils ne constituent qu'une amorce et doivent être
       exploités en combinaison avec des indices provenant d'autres
       paliers linguistiques (morphologie, ponctuation, syntaxe,
       ...). Images, formulaires, mise en forme, évolutivité, services
       proposés, structure des échanges sont autant d'éléments qui
       obligent à replonger les contenus Internet dans les modes
       d'activité, d'interaction et, en quelque sorte, de consommation
       particuliers.

    Ces problèmes appellent l'ingénierie linguistique à s'interroger plus
    profondément sur l'utilisation qu'elle fait des contenus accessibles
    sur Internet. Il importe de définir quels sont les éléments textuels
    ou non textuels qui participent à la caractérisation des contenus
    Internet, par-delà le matériel lexical, et de déterminer les outils
    nécessaires à cette caractérisation. Cette journée d'étude cherchera à
    faire le point sur les problèmes rencontrés, et les solutions
    apportées dans différentes applications.

    =========
    Objectifs
    =========

    Cette journée d'étude a pour objectif de faire le point sur les
    problèmes rencontrés par les outils de TAL pour la description et
    l'exploitation des contenus disponibles sur Internet (pages et sites
    du Web, mail, forums, etc.) Les difficultés concernent notamment :

     - les méthodes de récupération des contenus, l'accessibilité
       des contenus, les formalismes pour le stockage des informations,
       etc. ;

     - la sémantique des contenus Internet : contenu textuel
       vs. services proposés, contenus multimédia et interactifs,
       sémiotique des pages ;

     - les méthodes de catégorisation : détection thématique,
       catégorisation des sites et de pages, genres propres à Internet. De
       manière générale, ces problèmes marquent les liens naissants entre
       le TAL et l'Internet. Mais surtout, ils invitent à réfléchir sur
       les apports et les limites des outils de TAL et la description des
       contenus Internet.

    Nous nous intéressons en particulier aux travaux qui dépassent les
    analyses mono-critériales (par exemple, par mots-clé) et privilégient
    l'analyse qui se situe aux différents niveaux de complexité du
    document :
     - à l'intérieur de l'unité ergonomique que constitue le document :
     éléments textuels (lexicaux, grammaticaux, etc.), visuels
     (pictogrammes, logos) et structurels (texte, péritexte) ou autres
     pages (frames),

     - dans le contexte proche du document : le site ou le service proposé
       par la page, le réseau de pages dans lequel elle s'inscrit (liens
       externes et internes, pointeurs), les scénarios d'usage dans
       lesquels elle s'inscrit, etc.

     - dans l'intégration intertextuelle du document à Internet
       (connectivité, hypertexte).

    =======================
    Modalités de soumission
    =======================

    Les auteurs sont priés de soumettre un résumé de 2 à 4 pages de leurs
    travaux en précisant :
    - cadre et objectifs des travaux,
    - aboutissement des travaux,
    - tenants théoriques et applicatifs,
    - bibliographie.

    Les résumés doivent être envoyés à l'adresse suivante :
    indices.internet@ml.free.fr
    (l'adresse sera fermée au 01/02/2004)

    Formats acceptés (dans l'ordre de préférence) : PDF, PS, TXT, DOC, RTF

    Langues de présentation : français, anglais

    =================
    Dates importantes
    =================

    Réception des résumés : 15 décembre 2003
    Notification d'acceptation : 05 janvier 2004
    Journée d'étude : 31 janvier 2004

    <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<



    This archive was generated by hypermail 2b29 : Fri Nov 21 2003 - 20:31:11 MET