Sommeren 1989 ble det avholdt to konferanser innafor emneområdet edb og språk i Reykjavik på Island. Den ene dreia seg om datalingvistikk og het De nordiske datalingvistikkdagene 1989 og den andre Symposium for datastøtta leksikografi og terminologi 1989.
Datalingvistikk-konferansen omhandla språkmodeller for bruk til automatisk språkanalyse og -produksjon og til maskinoversettelse. Om lag halvparten av foredraga dreia seg om maskinoversettelse, og de fleste av dem ble bygd på erfaringer og diskusjoner i EFs maskinoversetterprosjekt EUROTRA.
Leksikografi-konferansen omhandla i stor grad emner knytta til utarbeiding av allmennspråklige ordlister. Flere foredragsholdere tok opp dataformater for ordbøker, og motiverte interessen for emnet med konvertering til ulike presentasjonsformater og utveksling mellom ulike program og maskiner. Innholdet på denne konferansen har blitt mer orientert i retning formelle språkbeskrivelser enn på tidligere konferanser av samme slag.
Vi skal se litt mer på de to konferansene.
Foredraga kan grovt sett deles inn i fem grupper: maskinoversettelse, kunnskapsrepresentasjon, morfologisk analyse, parsing (maskinell setningsanalyse) og språkteori.
Som nevnt kom mange av foredragsholderne fra EUROTRA-prosjektet. Til sammen ga disse et bredt bilde av prosjektet. Det var to generelle foredrag, av den danske EUROTRA-lederen Poul Andersen og Bente Maegaard, og fem om mer spesielle emner, som koordinering, støtteverbkonstruksjon (innholdslett verb pluss substantivert verb), morfologisk analyse, preposisjonsuttrykk og ikke-finitte uttrykk.
Blant andre foredrag var Klaus Schuberts om maskinoversettelse med esperanto som mellomspråk, et stort anlagt prosjekt i Nederland. Han snakka bl.a. om etablering av en større kunnskapsbase i form av koda tekst. Islendingen Stefán Briem presenterte et mindre prosjekt om oversettelse fra esperanto til islandsk.
Barbara Gawron'ska-Werngren tok opp problemer knytta til identifisering av koreferente uttrykk i tekst. Hun bygde på arbeidet med SWETRA, et prosjekt for maskinoversettelse mellom engelsk, svensk og russisk.
Maria Sidiropoulou tok opp forskjeller mellom adverbiale setninger i engelsk og gresk. Formålet er maskinoversettelse.
Jeg holdt foredrag og demonstrasjon med utgangspunkt i prosjektet Maskinstøtta oversettelse fra bokmål til nynorsk. (Se Utnes artikkel i HD 1/2-89. Red.anm.)
De fleste av foredragsholderne som tok opp kunnskapsrepresentasjon snakka om teknikker for uthenting av tekstinnhold og modeller for formell representasjon av dette. Annelise Bech rapporterte fra et opphold i Stanford i California, forskningsinstitusjonen SRI, der hun hadde deltatt i arbeidet med et system som kunne hente ut informasjonsinnholdet i nyhetsmeldinger. Steffen Leo Hansen presenterte et større dansk prosjekt, FAGFLADE, der målet er å hente ut informasjon fra fagtekster. I den nåværende fasen arbeider de med å utvikle en parser som kan handtere syntaks og semantikk innafor setningsgrensene. Gunnel Källgren gjorde greie for et prosjekt der målet er å identifisere kjeder av innholdsord i tekst, dvs. innholdsord i forskjellige setninger (perioder) som til sammen uttrykker innholdskomponenter.
Flere av foredraga om morfologi var dels vurdering av og dels videreføringer av tonivåmodellen til Kimmo Koskenniemi. Fred Karlsson presenterte et prosjekt for oppløsning av morfologisk tvetydighet. Jordan Zlatev tok opp bulgarsk substantivmorfologi i et tonivåperspektiv. Janne Bondi Johannessen stilte spørsmålet om tonivåmodellen er en morfologisk modell, og presenterte en til dels kritisk vurdering som førte til en påfølgende plenumsdiskusjon med Karlsson. Lars Borin drøfta bruken av ulike morfologiske modeller innen datalingvistikken, og Benny Brodda presenterte den siste utviklinga av BETA-systemet, særlig innen morfologisk analyse.
Flere av prosjekta ovafor omfatter, som nevnt, også utvikling av en parser. I tillegg til de nevnte ble det presentert to parsingprosjekt, av Eva Ejerhed og Anna Sågvall Hein. Sågvall Heins prosjekt blir prøvd ut på definisjonene i Svensk Ordbok. En effekt av dette er at det skal utvikles en database med formalisert grammatisk informasjon om de enkelte oppslagsorda. Denne skal bli datagrunnlag for en større parser.
Flere av foredraga som er nevnt, har også betydelig innslag av språkteoretisk drøfting. Ett som ikke er nevnt, er Torben Thranes foredrag om datamaskinell semantikk, med vekt på drøfting av hvordan abstrakte uttrykk skal analyseres innafor rammen av den såkalte "localist"hypotesen.
Foredraga på leksikografikonferansen deler jeg grovt sett inn i gruppene terminologi, ordboksarbeid, ordboksformat og -konvertering, grammatiske kategorier, morfologi og kvalitetssikring.
På tidligere konferanser har andelen foredrag om terminologi vært stor. Denne gangen hører bare foredraget til Peter Ammundensen klart inn under en slik kategori. Han gjorde rede for EFs terminologibase, EURODICATOM, som omfatta 450.000 begreper og i tillegg 120.000 forkortelser. De nevnte begrepa har synonymer på flere av de ni EF-språkene, slik at det til sammen er ei samling på om lag to millioner termer.
To av foredragene grupperer jeg som ordboksarbeid.
Det ene omhandlet tradisjonell leksikografi. Det var Stig Örjan Ohlsson som presenterte en prosjektplan for en ny stor skandinavisk ordbok. Det fantes på dette tidspunktet ikke midler til å få i gang et slikt prosjekt.
Henrik Holmboes radiærordbok, som han presenterte, betrakter jeg som ei videreføring av tradisjonen med rein datamaskinell behandling av ordbokskorpus, dvs. ordbøker som blir til uten manuell koding og annen manuell bearbeiding. Ei radiærordbok er i prinsippet en konkordans kjørt på bokstaver istedenfor ord. En slik bokstavkonkordans viser alle bokstavkombinasjoner i et vokabular sortert f.eks. alfabetisk fra og med venstre bokstav i de enkelte kombinasjonene. I tillegg til at ei slik ordbok viser alle (innafor et gitt korpus) bokstavkombinasjoner, kan en i den også få god hjelp til å finne fram til morfemer.
Flere av foredragsholderne tok opp format for registrering og utveksling av ordboksdata. Anna Braasch gjorde greie for et prosjekt for konvertering, eller kanskje rettere sagt systematisk uthenting, av grammatisk informasjon fra ei rettskrivingsordbok og ei større tospråklig ordbok. Den siste av de to bydde på størst problemer. Det gjaldt særlig henting av informasjon om valensrammer fra eksempler på bruk av oppslagsordet. Slik jeg kunne forstå framstillinga, har de faktisk satt seg så dristige mål som å automatisere uthenting av sistnevnte informasjonstype.
Ole Norling-Christensen og Jens Erlandsen snakka om forholdet mellom taksonomi, som vil si innholdsklassifikasjon i den enkelte ordboksposten, og presentasjonsformat. De la vekt på at informasjonen i ordbokspostene skal kodes etter innhold. Dernest kan man bruke ulike konverteringsregler for å gi all eller deler av informasjonen et tjenlig presentasjonsformat på forskjellige presentasjonsmedier. All beskrivelse av formater og klassifikasjon blir hos dem gjort ved hjelp av et metaspråk for tekstkoding som er standardisert av ISO, SGML. Dette metaspråket blir utviklet av ISO og dokumentasjonssektoren innafor databransjen for å effektivisere kontorautomasjonsteknikker.
Björn or Svavarsson og Jörgen Pind holdt to foredrag om databaser og trykking av ordbøker.
To av foredragsholderne diskuterte hva slags grammatiske innholdskategorier som burde legges inn i ordlister. Boel Bøggild-Andersen drøfta synspunkter på representasjon av valensrammer til bruk i et maskinoversettelsessystem. Jón Hilmar Jónsson presenterte et islandsk prosjekt for koding av grammatisk informasjon, særlig for verb.
Stefán Briem presenterte sitt prosjekt for automatisk morfologisk analyse av islandsk språk.
I foredraget What should be included in a commercial word data base, and why?, tok jeg opp emnet kvalitetssikring av ordlistearbeid med utgangspunkt i terminologivirksomheten og arbeidet med allmennspråklige ordlister ved Norsk termbank. Kvalitetssikring vil si å sikre at leverte produkter er i samsvar med spesifiserte krav ved bestilling av vare eller tjeneste. I forbindelse med språkarbeid vil det si at en kan stille krav til spesielle varianter innafor rettskrivinga, grad av norskspråklige ordlagingselementer oa.
For ytterligere dokumentasjon av deltakelsen i de to konferansene i Reykjavik vises det til konferanserapporten som vil foreligge etter nyttår 1990.
De to konferansene avholdes annet hvert år. Bergen har tatt på seg arrangøransvar høsten 1991. Det vil bli et arrangørsamarbeid der NAVFs edb-senter for humanistisk forskning har det administrative ansvaret og flere fagmiljøer innafor HF-miljøet har faglig styringsansvar. Undertegnede er kontaktperson inntil planlegginga har kommet inn i fastere former.
Ivar Utne er amanuensis ved Nordisk institutt, Universitetet i Bergen.