NASJONALT SEMINAR OM TEKSTKODING

 

Øystein Reigem

 

NAVFs edb-senter for humanistisk forskning og Wittgensteinarkivet ved Universitetet i Bergen arrangerte et nasjonalt seminar om tekstkoding i Bergen 20-21. juni 1991. Det fulle navnet på seminaret var Koding av maskinleselige tekster for edb-støttet analyse og presentasjon.

I det første foredraget ga Erik Naggum fra Naggum Software i Oslo en introduksjon til Standard Generalized Markup Language (SGML). Han startet med en kort sammenlikning med andre markup-språk som TEX, og beskrev deretter oppbyggingen av SGML med alle de viktigste elementene, slik som DOCTYPE, ELEMENT, ATTLIST, ENTITY, osv. Han diskuterte forholdet mellom deskriptiv og preskriptiv koding, og så SGMLs store styrke i bruk på store tekstsamlinger og korpora. Han mente at SGML nå kommer med stor tyngde, og at det vil være rimelige applikasjoner i markedet om et par års tid.

Naggum ga også en del nyttige referanser. Hen mente det ikke fantes noen gode beskrivelser å starte med for den som skulle arbeide med SGML, men anbefalte The SGML Handbook av Charles F Goldfarb (forfatteren av SGML-standarden). Det finnes en SGML brukergruppe i Norge, som kan nåes gjennom Tone Irene Sandahl, USIT, Universitetet i Oslo, postboks 1059, 0316 Oslo, og det finnes en undergruppe for hypertekst. For dem som var interessert i hypertekst tilbød Naggum seg å kopiere og sende ut en beskrivelse av en mulig kommende SGML-kompatibel standard for hypertekst, Hytime. En institusjon som har god informasjon om SGML, og som fungerer som et clearinghouse for SGML-informasjon generelt, er Graphic Communication Association, 100 Dangerfield, 4th Floor, Alexandria, VA 22214-2386, USA; tlf + 1 703 519 5187.

Claus Huitfeldt fra Wittgensteinarkivet ga en presentasjon av Text Encoding Initiative (TEI). Huitfeldt er medlem av en av TEIs undergrupper. (Se Lou Burnards artikkel om TEI i HD 3:90.)

Christian-Emil Smith Ore presenterte Dokumentasjonsprosjektet ved Det historisk-filosofiske fakultet, Universitetet i Oslo. Foredragets undertittel var "Erfaringer fra bruk av SGML og "SGML-aktig" programvare på ordboksmateriale". (Se også HD 1:91.)

Claus Huitfeldt kom så tilbake med annen hatt på, i et foredrag kalt Multi-Element Code System (MECS), kodesystem og programvare under utvikling ved Wittgensteinarkivet ved Universitetet i Bergen". MECS har vært under utvikling lenge, og har gjennomgått flere revisjoner (og en navneendring). MECS er ikke kompatibelt med SGML og TEIs anbefalinger, men ved Wittgensteinarkivet har en av flere grunner funnet det formålstjenlig med et eget system. SGML er preskriptiv, mens en i kodingen av Wittgensteinmaterialet arbeider deskriptivt. Materialet inneholder også strukturer som vanskelig lar seg beskrive i SGML på en enkel måte.

Jarle Ebeling fra Norsk Termbank, Universitetet i Bergen, var neste mann ut med "Koding i terminologisk arbeid" - -en presentasjon av formater brukt i praktisk terminologiarbeid ved Norsk Termbank. Ved Termbanken har en hatt ulike formater for organisasjon av terminologisk materiale opp gjennom tidene, og det nyeste formatet ville uten problemer kunne konverteres til SGML. Ebeling hadde selv skrevet en DTD (Document Type Description) for materialet og prøvd SGML-programvare på det. Han så SGML som egnet for terminologiarbeid. Med SGML kan en kode både mikrostruktur, dvs i hver ordboksinnførsel internt, og makrostruktur, dvs relasjoner mellom de ulike termene. Terminologiarbeid er også preskriptivt.

Stipendiat Ruth Vatvedt Fjeld ved Institutt for Nordistikk og Litteraturvitenskap, Avdeling for leksikografi, Universitetet i Oslo, beskrev i sitt foredrag "Om koding av lovtekster for lesbarhetsanalyse" det arbeid hun har gjort i prosjektet Edb og lovspråk, som er et samarbeidsprosjekt mellom NAVFs edb-senter for humanistisk forskning, Institutt for rettsinformatikk, Universitetet i Oslo, og hennes eget institutt.

Øystein Reigem fra NAVFs edb-senter for humanistisk forskning presenterte RUTH - -et program for konkordansbasert merking av tekst. RUTH er utviklet i forbindelse med prosjektet Edb og lovspråk, og er beskrevet annensteds i dette nummeret av HD.

Fjeld arbeider med manuell tekstkoding, og RUTH er et interaktivt verktøy som er ment å effektivisere prosessen. Seminardeltakerne gikk glipp av en beskrivelse av en tredje angrepsvinkel - -automatisk koding. Fjelds assistent, hovedfagstudent Kristin Hagen (nå ansatt ved instituttet), som skulle holde et foredrag nettopp om dette emnet, var forhindret fra å komme. Vi nevner det her likevel, da det kan ha interesse for leserne. Hagen har i sitt arbeid med lesbarhetsanalyse benyttet Benny Broddas Beta for en automatisk koding av relevante morfologiske og syntaktiske elementer, og et eget Pascal-program for en etterfølgende opptelling og analyse. (Benny Brodda er ansatt ved Institutionen f"r Lingvistik, Stockholms Universitetet. Beta er et produkt videreutviklet over lengre tid. Brodda ferdigstiller for tiden dokumentasjonen av PC-versjonen av Beta.)

Førstelektor Oddvar Johan Jensen ved Norsk Lærerakademi, Bergen, ga foredraget "Strukturering og koding av historiske tekster. Erfaringer fra arbeidet med et katekismeprosjekt". Jensen studerer den dansk/norske katekismetradisjon, og har satt i gang et langsiktig prosjekt der det skal tilrettelegges en rekke tekster, som både har en indre struktur, og som henviser til hverandre (bibelhenvisninger). Jensen har til nå benyttet programmer som WordCruncher, TACT og AskSam. Han så det som en naturlig videreutvikling å kode i samsvar med TEI-anbefalingene, og også kode for synkronisering av parallelle tekster.

Knut Hofland fra NAVFs edb-senter for humanistisk forskning fikk æren av å avslutte seminaret med foredraget "Tekstanalyseprogram brukt på kodet materiale - -WordCruncher, TACT, m.fl. Kodeprosjekter ved NAVFs edb-senter for humanistisk forskning".

I løpet av seminaret ble det også arrangert "Åpent hus" med demonstrasjoner ved NAVFs edb-senter for humanistisk forskning, Wittgensteinarkivet og Norsk Termbank.

Totalt deltok i underkant av 30 personer på seminaret.

 


Innholdslisten for dette nummeret  Hovedside, Humanistiske Data Hjemmeside, Humanistisk Datasenter