LEKSIKOGRAFISKE DATABASAR 

Dagfinn Worren

Leksikalske kunnskapsbasar vert stendig viktigare kjelder for kulturell dokumentasjon. Det er eit mål å gjere slike kunnskapsbasar tilgjengeleg som allmenn informasjon. Det gjeld både kunnskapen om den verda dei skildrar og om det språket som er brukt i skildringa. Middelet er å gjere om desse kunnskapsbasane til elektronisk tekst. Ved University of Waterloo (UW) i Ontario i Canada, der eg var frå 23.7. til 3.8.90, er tenleg programvaretilbod for slik tekst eit viktig arbeidsfelt. Jamvel om UW er eit heller lite universitet, representerer det den fremste ekspertisen på fleire felt (etter Highlights Some facts about the University of Waterloo). Det gjeld ikkje minst dataavdelinga deira, Department of Computer Science, med eit særskilt tekstsenter, UW Centre for the New OED and Text Research (Centre for New OED).
Senteret har i dag 7 tilsette. Eg møtte 5 av dei, såleis direktøren, professor Frank Tompa, adm. leiar Linda M. Jones, progammerar Betty Blake, hovudfagsstudent i programmering Mike Knowles og sekretær Brenda Law, som kvar gjorde sitt til at det vart både eit lærerikt og hyggeleg opphald.
Dette datamaskinelle tekstsenteret vart skipa etter at dataavdelinga i 1984 fekk oppdraget frå Oxford University Press (OUP) i England med å gjere ein maskinleseleg versjon av Oxford English Dictionary ikkje berre tilgjengeleg for fotosetjing, men òg for oppdatering og utviding av og frisøking i databasen. Opplegget for denne tekstdatabasen skulle elles ha ein allmenn struktur som kunne brukast for andre tekstdatabasar òg. Den oppgåva som OUP gav til Centre for New OED, svarar i hovudsaka til dei problemstillingane og arbeidsoppgåvene som er skildra ved overgangen til datamaskinstødd leksikografi i dokumentasjonsbolkane i Strategisk plan 1991-1995 for Institutt for nordistikk og litteraturvitskap ved Universitetet i Oslo (s. 27f og 32f). Eg var difor interessert i både å få eit innsyn i tenkjemåten bak oppbygginga av ein språkleg database og å få prøve programvarene dei hadde utvikla utifrå leksikografisk brukarsynspunkt.
Hovudkravet som må stillast til all databehandling av tekst, er at teksten alltid er tilgjengeleg og uavhengig av databasesystem. Dataa skal altså vere tilgjengelege som tekst, og programvarene må ikkje verke avgrensande eller bindande i så måte. Dessutan bør heile tekstmengda vere tilgjengeleg for søking samstundes.
Oppgåva til ein database er å representere strukturen av ei datasamling slik at ein får ut informasjon om samlinga i samsvar med dei spørsmåla ein stiller. Databaseutforming har til no i hovudsaka vore tilpassa data som kan kvantifiserast i tal, gjerne i ein finmaska struktur. Data som formidlar slik informasjon, er atomære.
Kunnskap gjennom tekst er formidla gjennom ordsekvensar, og ein kan ikkje leggje fram denne kunnskapen identisk i ei anna framstellingsform enn tekst. Særskilt er det verdt å merke seg at ein tekstdatabase til oppslagsbruk (referensiell tekstdatabase) både skal svare på spørsmål frå den røyndomen som teksten skildrar og på spørsmål om teksten sjølv. Dermed er ikkje berre den noggranne ordfølgja viktig. Dei strukturelle einingane som desse ordsekvensane er plasserte i, må òg identifiserast. Desse einingane kan seiast å vere molekylære eller samansette. Samanhengen mellom desse einingane må skildrast til liks med bygnaden i den einskilde eininga. For ordbokstekst kan det sjølvsagt spørjast om den alfabetiske rekkjefølgja av ordartiklane, som eigenleg er vilkårleg, ber med seg informasjon som skal takast vare på. Men ved å velje ein databasetype som er sekvensielt ordna, tek ein vare på den ordninga som det vil vere i ei prenta bok eller i eit setelarkiv. Datafolka ved Centre for New OED har elles kome fram til at i databaseutforming for tekst må det takast omsyn både til sjølve dataa og til bruken av dei. Ettersom bruken av dataa ikkje kan fastleggjast ein gong for alle, vert då utforminga av ein tekstdatabase ein dynamisk prosess.
Sjølvsagt bør det knyte seg visse reglar eller konvensjonar til korleis ein identifiserer og skildrar tekststruktur og einskilddelane i slike strukturar. For å merkje ut tekststrukturane og dei einskilde elementa på ein måte som sikrar allbruk, valde dei ved Centre for New OED å bruke taggar i samsvar med den internasjonale standarden i Standard Generalized Markup Language, gjerne avstytta som SGML. Desse taggane førekjem i par med ein starttagg og ein slutt-tagg for kvar struktur og kvar einskilddel på ein slik måte at dei gjev hierarkiet i kvar struktureining. Desse taggane vert såleis merkelappar. Dette systemet kan seiast å tene som ein slags føreskrivande grammatikk, om lag som eit feltinnskrivingsskjema. Men han er likevel opnare med høve til omdefinering under vegs, og er såleis brukeleg til å skildre all slags tekstvariasjon. Den føreskrivande tagg-grammatikken må difor vere så fleksibel at han t.d. tillèt ordboksredaktørar å uttrykkje somme opplysningar under eit oppslagsord på ein uvanleg måte, dersom dette er mest tenleg etter ei leksikografisk vurdering.
Til å verkeleggjere den tenkjemåten som eg har skildra her, har datafolka ved Centre for New OED utvikla fire programvarekomponentar. For det første har dei utvikla GOEDEL, som er eit programmeringsspråk for tekstdatabasar. Dette språket byggjer på at teksten er strukturmerkt. LECTOR er eit program som er skrive for å filtrere tagginga (formateringa) i teksten, slik at ein på dataskjermen får opp teksten med den ønskte formateringa, t.d. med full merking eller identisk med prenta ordbokstekst. Dette programmet skal såleis køyrast i samspel med brukaren.
Søkjeprogrammet som gjer seg nytte av den tagga eller merkte teksten, er kalla PAT. Det kan elles brukast på anna slags merking enn SGML, også feltmerking. Med dette programmet kan det søkjast etter tekststrenger i form av ordinnleiingar (t.d. ord som byrjar på skriv), heile ord, ordsamband eller ord som finst i nærleiken av kvarandre (jf. Quick Reference Guide to PAT på neste side). Særleg utmerkjer dette programmet seg med at det kan søkje på uhorveleg store tekststrenger, og kome med resultatet svært snøgt. Databasen for OED er såleis sommaren 1990 på 570 MB. På mindre enn 2 sekund kan programmet svare på kor mange førekomstar (matches) det finst av ein spesifisert teiknsekvens i heile denne einstrengstekstdatabasen. Søkjefarten er ikkje avhengig av storleiken på svaret. Førebels meistrar PAT berre framlengs søking på uavgrensa tekstmengder.
Ved Centre for New OED har dei elles utvikla eit program for automatisk strukturmerking (parsing) av maskintilgjengeleg tekst, Transduction Toolkit (TTK), og eit særskilt program for å redigere tagga tekst, TRUC.
Programvarene som Centre for New OED har utvikla, byggjer på Unix-operativsystemet som kan køyrast på den nye generasjonen av datamaskiner. For å nytte ut samverknaden mellom PAT, som finn førekomstane og LECTOR, som syner dei i det ønskte formatet, må ein ha skjerm med vindaugsfunksjon. Desse programvarene er no til sals gjennom firmaet Open Text og er presenterte som Open Text Managements Tools. Programpakken (PAT, LECTOR, TTK) for ein arbeidstasjon kostar i dag $1800 (Cdn) for vitskaplege institusjonar. Ein lisens for heile universitetet kjem på $18.000 (aug. 1990).

Quick Reference Guide to PAT
Quick Reference Guide to PAT (cont'd)

Som ordsamlar og ordboksskrivar er eg først og fremst imponert over at datafolka ved Centre for OED i samarbeid med ordboksredaksjonen i Oxford, England, verkeleg tok datagrunnlaget som dei skulle forme ut databaseopplegg for, på alvor. Databaseutforminga byggjer på særdraga i tekst, ikkje på ei tilpassing til databasar for andre datatypar. Difor er programvarene høvelege arbeidsreiskapar som ikkje gjer vald på dataene, og du får ut at den informasjonen du legg inn, alfabetisk som i ordboka og arkiva. Dertil kan ein få ut ei rad nye informasjonskombinasjonar frå heile materialet, som er til støtte i ordboksarbeid og ein føresetnad for allmenn informasjonssøking. Men det er ingen snarveg til ein tenleg elektronisk tekstdatabase. Dersom materialet ikkje kan gjerast tilgjengeleg gjennom optisk lesing, må det tastast inn, og innskrivarane må vere i stand til å merkje ut visse hovuddrag i strukturen. Då først kan ein setje i gang med tekstbehandling med hjelp av programvarene frå Open Text. Datafolka ved Centre for New OED skil difor mellom maskinleseleg ("machine readable") tekst og tekst som er strukturmerkt etter programbehandling ("computerized text"). I ein tekstdatabase for frisøking må dataa vere strukturmerkte etter programbehandling.
Kravet som blir stilt til oss ordboksfolk, er at vi lagar ein grov "grammatikk" som ordartiklar og innsamla ordtilfang skal strukturmerkjast eller taggast etter.
Til den som ventar på bodskapen om at datamaskinene skal ta over tankearbeidet i leksikografien, har eg inga trøyst. Datastødd leksikografi legg heller ei ny arbeidsoppgåve på ordboksfolket med strukturmerkinga. Men frå før veit vi at datastødde arbeidsmåtar gjev oss betre kontrollrutinar. Sett ifrå brukarsynstad blir ein tekstdatabase til oppslagsbruk ei informasjonskjelde med umåteleg mange innfallsportar. Informasjonen kan gjelde både sjølve teksten og den røyndomen som teksten refererer til. Såleis kan eit søk i OED-basen fortelje at teiknsekvensen "Norway" er brukt 597 gonger. Når ein så kallar fram desse førekomstane anten i kontekst eller som ordbokstekst, ser ein at i denne ordboka er landsnamnnet vårt ofte brukt til å lokalisere stein og mineral (t.d. som finnestad for cenosite og euxenite). OED stadfester dermed at Noreg først og fremst er ei steinrøys!
Elles var det gildt å prøve desse programma på norske data. Frå senteret logga vi oss inn på KARI på USE og forsynte oss med ei fil frå databasen til Nynorskordboka, som er på 10 MB og inneheld 97 filer. Denne fila med data frå byrjinga av bokstaven t, tok det fire minutt å føre over Atlanteren. Etter at fila var behandla med TTK, kunne det søkjast med PAT og resultata kunne visast i LECTOR. Såleis er frasen "som gjeld" brukt 27 gonger i denne fila, t.d. i definisjonane under taiwansk og teknisk. Jamfør elles vedlegget på s. 66 og 67 for skrante frå Norwegian Dictionary (= Nynorskordboka). Heimenorsk går like godt som engelsk. Elektronisk tekst er internasjonal!
Kjernen i det datafolka ved Centre for New OED har gjort, ligg i databaseutforminga. Ein einstrengs database for store datamengder som er tilgjengelege samstundes, og som svarar snøgt på spørsmåla som blir stilte, stettar dei hovudkrava ein må stille til ein tekstdatabase til kunnskapslagring og -formidling. Prosjektet med å gjere OED datatilgjengeleg viser òg at det må vere eit forpliktande samarbeid mellom datafolk og filologar (humanistar) for å få tenlege løysingar i humanistisk databehandling.
Litteratur som eg fekk om New OED-prosjektet:

 

Rick Kazman: Structuring the Text of the Oxford English Dictionary through
Finite State Transduction, June, 1986.
Gaston H. Gonnet: Examples of PAT applied to the Oxford English
Dictionary, July, 1987.
Darrel R. Raymond and Yvonne Warburton: Computerization of Lexicographical
Activity on the Oxford English Dictionary, August, 1987.
Gaston H. Gonnet and Frank Wm. Tompa: Mind Your Grammar: a New Approach to
Modelling Text, March, 1987.
Gaston H. Gonnet and Frank Wm. Tompa: Hypertext and the New Oxford English
Dictionary, November, 1987.
Timothy Benbow, Peter Carrinton, Gayle Johannesen, Frank Wm. Tompa and Edmund
Weiner: Report on the New Oxford English Dictionary User Survey,
November 1, 1987.
Donna Lee Berg, Gaston H. Gonnet and Frank Wm. Tompa: The New Oxford English
Dictionary Project at the University of Waterloo, February, 1988.
Gaston H. Gonnet: Efficient Searching of Text and Pictures Extended
Abstract, June, 1988.
Information in Text Fourth Annual Conference of the UW Centre for the
New Oxford English Dictionary. Proceedings of the Conference, October 26-28,
1988. Waterloo, Canada.
R.A. Baeza-Yates and Gaston H. Gonnet: Efficient Text Searching of Regular
Expressions (Preliminary version) April, 1989.
Donna Lee Berg: The Research Potential of the Electronic OED2 Database at
the University of Waterloo: a Guide for Scholars, May, 1989.
Frank Wm. Tompa and Darrell R. Raymond: Database Design for a Dynamic
Dictionary, June, 1989.
Heather Fawcett: Using Tagged Text to Support Online Views, July,
1989.
Heather Fawcett: Adopting SGML: The Implications for Writers, July
1989.
Dictionaries in the Electronic Age Fifth Annual Conference of the UW
Centre for the New Oxford English Dictionary. Proceedings of the Conference,
September 18-19, 1989. St. Catherine's College. Oxford, England.
G.V.J. Townsend: Citation Matching in the Oxford English Dictionary,
October, 1989.

Heather Fawcett: PAT 3.3 User's Guide. 1989
Heilt til slutt hermer eg datafolket om kvar vi står i dag i kunnskapsformidlinga gjennom ordboksarbeid, og kvar vegen vidare går:

 A meticulously crafted book is evidence of the value of interweaving presentation and representation in a single, inseparable whole. A meticulously crafted database is evidence of the value of separating presentation and representation, achiving flexibility in both. Addressing the tension created by these two incompatible forms is the key step in designing the dynamic dictionary of the future.

 Tompa & Raymond, June, 1989:15

 Dagfinn Worren er førsteamanuensis ved Institutt for nordistikk og litteraturvitskap, Avdeling for leksikografi, Universitetet i Oslo.
 
  Figurar.