[Corpora-List] Corpus of Spoken Italian release, on behalf of Federico Albano Leoni

From: Isabella Chiari (isabella.chiari@uniroma1.it)
Date: Wed Feb 21 2007 - 12:48:19 MET

  • Next message: L. Ruiz Miyares - Linguistica: "[Corpora-List] New book from Cambridge Scholar Press"

    [Apologize for multiple postings]

     

    We are glad to announce the final release of CLIPS, corpus of spoken
    Italian, freely available at <http://www.clips.unina.it/>
    www.clips.unina.it. The corpus (audio files, annotation and documentation)
    are fully downloadable from the website via ftp, free for research purposes.

     

    CLIPS consists of about 100 hours of speech, equally represented by female
    and male voices. A section of the corpus is transcribed orthographically, a
    smaller section has been phonetically labeled. Recordings were made in 15
    Italian cities, selected on the basis of linguistic and socio-economic
    principles of representativeness: Bari, Bergamo, Bologna, Cagliari,
    Catanzaro, Firenze, Genova, Lecce, Milano, Napoli, Palermo, Parma, Perugia,
    Roma, Venezia.

     

    For each of the 15 cities different text typologies have been included: a)
    radio and television broadcasts (news, interviews, talk shows); dialogue
    (240 dialogues collected using the map task procedure and the “spot the
    difference” game. In this set: 30 dialogues are phonetically labeled, 90
    orthographically transcribed); c) read speech from non professional speakers
    (20 sentences each, covering medium-high frequency Italian words); d) speech
    over the telephone (conversations between 300 speakers and a simulated hotel
    desk service operator), e) read speech from 20 professional speakers (160
    sentences, covering all phonotactic sequences and medium-high frequency
    Italian words) recorded in an anechoic chamber.

    Documentation, corpus collection and annotation follow the EAGLES
    guidelines.

    Sincerely,

    Federico Albano Leoni (federico.albanoleoni@uniroma1.it)

    Francesco Cutugno (cutugno@unina.it)

    Renata Savy (rsavy@unisa.it )

    -------------------------------------------------------------------

    E’ in rete il corpus di italiano parlato CLIPS al sito www.clips.unina.it
    <http://www.clips.unina.it/> . Il corpus (audio, etichettatura e
    documentazione) è pubblico, l’accesso e il download completo del materiale
    per finalità scientifiche sono gratuiti.

     

    CLIPS consiste di circa 100 ore di parlato, equamente ripartito tra voci
    maschili e voci femminili, in parte trascritto ortograficamente e
    etichettato foneticamente. Le registrazioni sono state effettuate in 15
    località italiane scelte in base a criteri di rappresentatività linguistica
    e socioeconomica: Bari, Bergamo, Bologna, Cagliari, Catanzaro, Firenze,
    Genova, Lecce, Milano, Napoli, Palermo, Parma, Perugia, Roma, Venezia.

     

    Per ogni località è stato raccolto a) parlato radiotelevisivo (notiziari,
    interviste, talk shows); b) parlato dialogico (240 dialoghi raccolti secondo
    le modalità del map task e del ‘gioco delle differenze’, dei quali 30
    etichettati foneticamente, 90 trascritti ortograficamente, studenti
    universitari); c) parlato letto da parlanti non professionisti (20 frasi
    atte a garantire la copertura delle frequenze medio-alte del lessico
    italiano); d) parlato telefonico (conversazioni tra circa 300 parlatori e un
    portiere d’albergo simulato) e) parlato letto da 20 parlanti professionisti
    (160 frasi atte a garantire la copertura delle sequenza fonotattiche
    dell’italiano e delle frequenze medio-altedel lessico italiano) registrato
    in camera anecoica.

    La documentazione, i protocolli di raccolta e di annotazione del materiale
    tengono conto delle direttive del progetto EAGLES.

    Federico Albano Leoni (federico.albanoleoni@uniroma1.it)

    Francesco Cutugno (cutugno@unina.it)

    Renata Savy (rsavy@unisa.it )

     



    This archive was generated by hypermail 2b29 : Wed Feb 21 2007 - 12:52:32 MET