[Corpora-List] Call for submissions : workshop on "NON-LEXICAL CHARACTERISATION OF INTERNET CONTENT" (urgent)

From: Thomas BEAUVISAGE (thomas.beauvisage@wanadoo.fr)
Date: Mon Nov 03 2003 - 14:38:58 MET

  • Next message: Hailing Jiang: "[Corpora-List] Named Entity recognition software"

    [french version below]

    Workshops of the Association pour le Traitement Automatique des LAngues
    (ATALA)

    CALL FOR SUBMISSIONS

    Location:
    ENST, 46, rue Barrault, 75013 Paris, Métro : Corvisart

    Date:
    SATURDAY JANUARY 31TH, 2004

    Subject:
    NON-LEXICAL CHARACTERISATION OF INTERNET CONTENT.

    Workshop organised by Natalia Grabar (CRIM/INaLCO, STIM / DSI / AP-HP,
    Paris
    6), Thomas Beauvisage (France Télécom R&D - DIH/UCE, Paris X - MoDyCo) and
    Mathieu Valette (CRIM/INaLCO, , Paris X - MoDyCo)

    [This call for submissions is also available on the ATALA website
    (www.atala.org)]

    ==========
    Objectives
    ==========

    The workshop aims at the presentation of work on analysis and
    description of
    material available on the Internet: Web pages and sites, mail, fora,
    instant mail, etc.
    Such work concerns for instance:
    - the semantics of Internet content: textual content vs. services offered,
    multimedia and interactive content, semiotics of web pages;
    - categorisation methods: topic detection, categorisation of sites and
    pages,
    Internet-specific genres;
    - computational linguistics and the Internet: contribution and limits of
    NLP tools
    for the description of Internet content;
    - related problems: methods for content collection, accessibility of
    content, "hidden
    Web", formalisms for information storage, etc.

    We are particularly interested in work which goes beyond the
    single-criterion
    analysis (i.e. key-words) and offers an analysis which takes into
    account different
    organisational levels of the document:
    - inside the ergonomic unity of the document: textual (lexical,
    grammatical, etc.),
    visual (pictures, logos), structural (text, peritext) or other elements
    (frames),
    - the environment of the document: the sites or the services proposed
    within the
    document, the network of pages which the document is part of (internal,
    external
    links, anchors), the usage scenarii in which the document exists, etc.
    - in the intertextual integration of the document on the Internet
    (connectivity,
    hypertext).

    ======
    Issues
    ======

    Applications related to characterisation, detection and processing of
    Internet
    content (Web, mail, fora, ...) are ever more numerous, both in relation
    to Internet
    access and content filtering. Therefore, there exists a real social need
    which is
    direclty related to NLP techniques. But while all documents available on
    the Web and
    network exchanges (mails, web discussion fora, ...) make up a digitised
    text
    repository that is constantly expanding, their detection, collection and
    processing
    raise a series of technical and theoretical problems.

    First of all, NLP tools have to be adapted to the lexical content of
    Internet
    documents (specific vocabulary, formatting, check spelling, grammatical
    correction).
    More generally, the poly-semiotic nature of Web content raises questions
    about the
    relevance of lexicon-specific content processing. Two examples can help
    us realise
    the usefulness of going beyond lexical approaches:
    - search engines have significantly improved their performances with the
    exploitation of structural elements of HTML pages ("keywords" tags, ...)
    and Web
    links.
    - in filtering applications, key-words seem to be insufficient. They
    make up a
    baseline and have to be combined with other types of features (morphology,
    punctuation, syntax, etc.).
    Pictures, formularies, layout, evolutivity, services offered, exchange
    structures are
    some other elements which require considering Internet content as a
    specific
    activity, with its own interaction modes and its specific user-centered
    rules.

    Because of these problems, computational linguistics has to study
    further the use of
    Internet content. NLP appears as the user of Internet content, but also
    as the
    developer of tools for the content processing. It is then important to
    define which
    textual and non-textual elements -going beyond merely lexical material-
    participate
    in the characterisation of Internet content and which kinds of tools are
    useful to
    bring this characterisation to light. This workshop is organised to
    point to existing
    problems and current solutions in different applications.

    ==========
    Submission
    ==========

    Interested authors can send a 2-to-4-page abstract of their work,
    providing the
    following information:
    - research objectives and application fields,
    - stage of research work,
    - theoretical and practical research-related issues,
    - bibliography.

    Abstracts have to be sent to the following e-mail address:
    je.atala.internet@ml.free.fr

    Accepted document formats (in preference order): PDF, PS, TXT, DOC, RTF

    Official languages: French, English

    ===============
    Important dates
    ===============

    Submission deadline : 1st December 2003
    Notifications to authors : 26th December 2003
    Workshop : 31st January 2004

    <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<

    >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>

    Journées d'Étude de l'Association pour le Traitement Automatique des
    LAngues
    (ATALA)

    APPEL À COMMUNICATIONS

    Lieu :
    ENST, 46, rue Barrault, 75013 Paris, Métro : Corvisart

    Date :
    SAMEDI 31 JANVIER 2004

    Sujet :
    CARACTÉRISATIONS NON LEXICALES DES CONTENUS DE L'INTERNET. LA
    PAROLE À LA SÉMANTIQUE.

    Journée organisée par Natalia Grabar (CRIM/INaLCO, STIM / DSI / AP-HP,
    Paris
    6), Thomas Beauvisage (France Télécom R&D - DIH/UCE, Paris X - MoDyCo) et
    Mathieu Valette (CRIM/INaLCO, , Paris X - MoDyCo)

    [L'appel à participation peut-être consulté sur le site de l'ATALA
    (www.atala.org)]

    =========
    Objectifs
    =========
     
    Cette journée d'étude est dédiée à la présentation de travaux consacrés
    à l'analyse
    et la description des contenus disponibles sur Internet : pages et sites
    du Web, mail,
    forums, messagerie instantanée, etc. Ces travaux concernent notamment :
    - la sémantique des contenus Internet : contenu textuel vs. services
    proposés,
    contenus multimédia et interactifs, sémiotique des pages ;
    - les méthodes de catégorisation : détection thématique, catégorisation
    des sites et
    de pages, genres propres à Internet ;
    - la linguistique informatique et Internet : apports et limites des
    outils de TAL pour la
    description des contenus Internet ;
    - les problèmes soulevés : méthodes de récupération des contenus,
    accessibilité des
    contenus, "hidden Web", formalismes pour le stockage des informations, etc.

    Nous nous intéressons en particulier aux travaux qui dépassent les analyses
    mono-critériales (par exemple, par mot clés), privilégient l'analyse qui
    se situe aux
    différents niveaux de complexité du document :
    - à l'intérieur de l'unité ergonomique que constitue le document :
    éléments textuels
    (lexicaux, grammaticaux, etc.), visuels (pictogrammes, logos) et
    structurels (texte,
    peritexte) ou autres pages (frames),
    - dans le contexte proche du document : le site ou le service proposé
    par la page, le
    réseau de pages dans lequel elle s'inscrit (liens externes et internes,
    pointeurs), les
    scénarios d'usage dans lesquels elle s'inscrit, etc.
    - dans l'intégration intertextuelle du document à Internet
    (connectivité, hypertexte).

    =============
    Problématique
    =============

    Les applications de caractérisation, de détection et de traitement des
    contenus
    Internet (Web, mail, forums...) se multiplient, soit pour l'accès, soit
    pour le filtrage. Il
    y a là une demande sociale croissante qui intéresse naturellement le
    traitement
    automatique du langage. Mais si la masse des documents accessibles sur
    le Web et
    des échanges via le réseau s'apparentent à une mine de textes numérisés en
    constante extension, le repérage, la collecte et le traitement de ces
    documents
    posent une série de problèmes, tant au niveau technique que théorique.

    En premier lieu, le contenu textuel des documents nécessite bien souvent
    d'adapter
    les outils de TAL (vocabulaire spécifique, formatage, correction
    orthographique et
    grammaticale). Plus généralement, la nature polysémiotique des contenus
    Web invite
    à s'interroger sur la place et la pertinence d'un traitement réduit au
    lexique, comme
    ce peut être fréquemment le cas. Deux exemples illustrent un dépassement
    heureux
    du "tout lexical" :
    - les moteurs de recherche ont significativemet amélioré leurs
    performances en
    exploitant finement les éléments structurels des documents HTML (balises
    "keywords"...) et la structure de liens du Web.
    - dans les applications de filtrage, les mots clés s'avèrent très
    insuffisants. Ils ne
    constituent qu'une amorce et doivent être exploités en combinaison avec
    d'autres
    types d'indices (morphologie, ponctuation, syntaxe, ...).
    Images, formulaires, mise en forme, évolutivité, services proposés,
    structure des
    échanges sont autant d'éléments qui obligent à replonger les contenus
    Internet
    dans les modes d'activité, d'interaction et, en quelque sorte, de
    consommation
    particuliers.

    Ces problèmes appellent l'ingénierie linguistique à s'interroger plus
    profondément
    sur l'utilisation qu'elle fait des contenus accessibles sur Internet. Le
    TAL se pose
    comme consommateur de contenus, mais également comme producteur d'outils
    qui
    exploitent ces contenus. Il importe donc de définir quels sont les
    éléments textuels
    ou non textuels qui participent à la caractérisation des contenus
    Internet, par-delà
    le matériel lexical, et de déterminer les outils nécessaires à cette
    caractérisation.
    Cette journée d'étude cherchera a faire le point sur les problèmes
    rencontrés, et les
    solutions apportées dans différentes applications.

    =======================
    Modalités de soumission
    =======================

    Les auteurs sont priés de soumettre un résumé de 2 à 4 pages de leurs
    travaux en
    précisant :
    - cadre et objectifs des travaux,
    - aboutissement des travaux,
    - tenants théoriques et applicatifs,
    - bibliographie.

    Les résumés doivent être envoyés à l'adresse suivante :
    je.atala.internet@ml.free.fr

    Formats acceptés (dans l'ordre de préférence) : PDF, PS, TXT, DOC, RTF

    Langues de présentation : français, anglais

    =================
    Dates importantes
    =================

    Réception des résumés : 1er décembre 2003
    Notification d'acceptation : 26 décembre 2003
    Journée d'étude : 31 janvier 2004

    <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<



    This archive was generated by hypermail 2b29 : Mon Nov 03 2003 - 23:24:46 MET