Det historisk-filosofiske fakultetet ved Universitetet i Oslo har i disse dager gitt klarsignal til å gjennomføre det første året av et seksårig dokumentasjonsprosjekt. Prosjektet har det ambisisøse mål å bygge opp databaser over de mange store fagarkivene og samlingene som i dag finnes ved fakultetet. Det må her understrekes at det ikke er tale om bare å lage elektroniske kataloger over materialet, men derimot å overføre selve arkivmaterialet til moderne, datamaskinstøttede medier. Det endelige siktemål er et samlet elektronisk dokumentasjonssystem der alle interesserte lett kan få tilgang til den delen av vår kultur- og nasjonalarv som disse arkivene representerer.
Dokumentasjonsprosjektet fikk sin spede begynnelse for noe over et år siden, da det ble vedtatt i strategisk plan for HF-fakultetet at man skulle søke å bedre vilkårene for arkiver og samlinger ved blant annet å opprette offentlig tilgjengelige databaser. Dette nedfelte seg som konkret tiltak i virksomhetsplanen for 1990, og på initiativ fra daværende prodekanus Bjarne Hodne ble det i april satt i gang et tre måneder langt forprosjekt ledet av artikkelforfatteren for å få en samlet oversikt over arkiver og registre ved HF-fakultetets tradisjonelle samlingsavdelinger med vekt på de ulike arkivene og registrenes karakter, fysiske utforming og på hvilke datamengder de representerer. 1 Det forberedende arbeidet med prosjektet ble tatt opp igjen i oktober 1990. I begynnelsen av februar 1991 vedtok så fakultetsrådet at man i 1991 skulle gjennomføre det første året av den seksårige planen for prosjektet.
Prosjektet er stort i den forstand at bare dataregistreringen vil kreve mange hundre årsverk. Prosjektet er også faglig svært omfattende idet vi blant de aktuelle samlingsavdelingene finner Oldsaksamlingen, Norsk folkemusikksamling og de leksikografiske avdelingene. Prosjektet burde således være av interesse for mange ulike grupper innen humaniora generelt og humanistisk databehandling spesielt.
De tradisjonelle samlingsavdelingene ved HF-fakultetet er Oldsaksamlingen, Folkemusikksamlingen, avdelingene for etnologi og folkloristikk samt leksikografi-, målføre- og navnegransking-avdelingene. Disse avdelingene har arkiver og registre av forskjellige størrelser, fra 17 000 dokumenter/kort ved Oldsaksamlingens register over faste fornminner til 3,5 millioner dokumenter/kort i bokmålsarkivet ved Leksikografisk avdeling, Institutt for nordistikk og litteraturvitenskap. Samlet er det tale om 14 millioner kort og dokumenter. Arkivene er ikke ensartede. Noen er rene kataloger, andre er registre over ordforekomster i løpende tekst (konkordanser), og til slutt har vi rene dokumentsamlinger.
2.1 Leksikografi- og målføresamlingene ved Institutt for nordistikk og litteratur
Avdeling for leksikografi (tidl. Leksikografisk institutt) består av tre underavdelinger: gammelnorsk, nynorsk og bokmål. Alle de tre avdelingene ble i sin tid grunnlagt med det for øye å lage ordbøker over de respektive sider av det norske språk. Hver avdeling har i dag store og svært omfattende vitenskapelige ordsamlinger. Disse vitenskapelige ordsamlingene ved Universitetet i Oslo er de eneste av sitt slag i Norge og er derfor av nasjonal betydning. Den gammelnorske samlingen representerer en betydelig del av vår nasjonalarv fra førreformatorisk tid. Samlingene ved bokmåls- og nynorskavdelingene dokumenterer betydning og bruk av ord i moderne norsk språk, men omfatter også store mengder informasjon om det norske språk i hele tiden etter reformasjonen. Nynorskavdelingens samlinger omfatter ordtilfanget i norske dialekter og gir således uvurderlig informasjon om sammenhengen mellom talespråk og skriftspråk i Norge. Samlingene utbygges og kompletteres fortløpende. Samlingene består av såkalte ordbokssedler. En slik seddel inneholder oppslagsord i normalform, grammatiske opplysninger, opplysninger om kilde og kontekst med ordforekomst markert. Gammelnorskavdelingens sedler er (naturlig nok) basert på skriftlige kilder (Fig. 1.). Det samme gjelder for bokmålsavdelingen. For å ungå unødig inntasting og lagring av ordenes kontekster, er det derfor meningen å opprette elektroniske tekstsamlinger i kombinasjon med relasjonsdatabaser. Det vil dermed være mulig å dra nytte av både fritekstsøkingens fordeler og de strukturerte databasers fordeler.
Nynorsksamlingen er ikke basert på et avgrenset tekstkorpus. Ordforekomstene er hentet fra både skriftlige og muntlige kilder, og er dels registrert av fagfolk, dels av leginformanter som gir opplysninger om sitt eget målføre (Fig. 2.). Det er derfor ikke mulig utelukkende å benytte en database med løpende tekst og derved komprimere datamengden. De uensartede innsamlingsmetodene gjør også selve sedlene svært forskjellige. De er både håndskrevne og maskinskrevne, og kan også inneholde utklipp fra skriftlige kilder. Sedlene har bare en grov felles rubrisering, men inneholder dog de samme basisopplysninger: normalisert oppslagsform av ordet, målføre- eller skriftform og kilde. De fleste sedlene har dessuten en rekke andre og varierende opplysninger, f.eks. om betydning, grammatiske former, fraseologi, kontekst, geografisk utbredelse og brukstid. Noen sedler er illustrert (Fig. 3.). Innskrivningen av dette arkivet, som består av 3,2 millioner sedler, vil derfor være en utfordrende oppgave.
Norsk Målførearkiv har et seddelarkiv som tildels inneholder de samme sedlene som nynorskarkivet. Men i tillegg kommer de håndskrevne Storm-listene. Disse utgjør resultat-tabellen av en stor undersøkelse av uttalen av 1150 utvalgte ord på ca. 900 steder i landet. Dataregistreringen av dette materialet vil kreve en del oppfinnsomhet. I tillegg til det skriftlige materialet har målførearkivet en omfattende lydbåndsamling som danner basis for mye av det skriftlige materialet. I dag er det en selvsagt ting å kunne lagre lyd ved hjelp av en datamaskin. Det er altså mulig å lagre dialektprøver både som lyd og som tekst. Ved å legge opp de aktuelle delene av arkivet som en tekst/lyd-database vil en dermed få mulighet til direkte å kunne sammenlikne transkripsjon og taleprøve.
2.2 Institutt for nordistikk og litteraturvitenskap, Avdeling for navnegransking
Avdeling for navnegransking har store samlinger over norske stedsnavn. I samlingene inngår opplysninger om lokalisering, bruk og betydning. Avdelingens samlinger består i hovedsak av seddelarkiver.
Herredsregistret er det største arkivet. Dette består av ca. 450 000 sedler og ble grunnlagt i 30-årene. Arkivet er i hovedsak sortert alfabetisk under de gamle herredene, men består også av en rekke småsamlinger. Sedlene er til dels håndskrevne og ikke ført på en ensartet måte.
Bostedsnavnregistret består av ca. 90 000 sedler og inneholder opplysninger om bostedsnavn fra før 1910. Registret er basert på matrikkelen 1903-08 og er ordnet topografisk etter denne. Det er (vanligvis) ett kort for hvert gårdnummer. Dette kortet inneholder en liste over bruk og husmannsplasser for gårdnummeret. Deretter følger (i prinsippet) ett kort for hvert bruk og husmannsplass.
I tillegg finnes registere basert på de foregående, et register over seternavn, samt en rekke mindre registre. Avdelingen har også et lydbåndarkiv (jvf. det som er sagt ovenfor om målførearkivet).
2.3 Institutt for arkeologi, kunsthistorie og numismatikk (Oldsaksamlingen)
Avdelingen for faste fornminner registrerer faste fornminner i terrenget og har nå ca. 17 000 registreringer. Avdelingen har drevet dataregistrering av sitt arkiv siden 1985 og tok denne sommeren i bruk fritekstsystemet SIFT.
Avdelingen for løse fornminner har ansvaret for Historisk museums samlinger. Her er det flere registre. Det største er museets hovedkatalog. Hele katalogen er anslagsvis på 6000 sider maskinskrevet/trykt tekst. Katalogen kan enten leses optisk eller tastes inn. Den første løsningen er mest tiltalende og tanken er da å lagre artiklene som dokumenter i fritekstsystemet SIFT. Det er i forprosjektet gjort prøver med ulike programmer for optisk tegngjenkjenning. Resultatet er tildels oppløftende, men en grundig korrektur er nødvendig. Vi arbeider for tiden med enkle filterprogrammer for en automatisk grovkorreksjon.
Fotoarkivet ved Historisk museum er på ca. 30 000 negativer, med tilhørende register. Dette arkivet vil kunne avfotograferes og lagres som en bildedatabase i tilknytning til hovedkatalogen. Dette vil gi en unik mulighet til å koble tekstlig beskrivelse med bilde. Dette er nyttig i det faglige arbeid, og åpner store muligheter i undervisning ved universiteter og særlig i skolen.
Myntkabinettet har i dag ca. 200 000 mynter med et mer eller mindre komplett register. I tillegg til å få skrevet inn hele dette registret bør også myntene fotograferes slik at det blir mulig å lage en kombinert bilde- og register-database. En slik kobling av et register og bilder av myntene vil faktisk gi en komplett myntkatalog over kabinettets samling. Trykte verker kan enkelt produseres fra en slik base ved hjelp av setteprogrammer ("desktop publishing") som i dag er standard hyllevare.
Runearkivet ble for omkring hundre år siden skilt ut som et eget arkiv. Arkivet er nasjonalt og inneholder opplysninger om samtlige kjente (ca. 1600) runeinnskrifter i Norge.
Oldsakssamlingen har en rekke større og mindre arkiver i tillegg. Det vil selvfølgelig være interessant også å legge disse opp som databaser. Men dette vil komme etter de andre arkivene.
2.4 Institutt for kultur- og samfunnsfag, Avdelingene for etnologisk og folkloristikk
Arkivene til avdelingene for folkloristikk og etnologi er i en slik stand at det kreves stor faglig ekspertise for å gjøre dem egnet for innskrivning.
Når det gjelder de eldre originalmanuskriptene, er disse ikke velegnet til innskrivning, idet de er vanskelige å tyde (Fig. 3.). Dog skulle ikke dette by på større problemer enn avskriften av kirkebøker, som er gjort ved Registreringssentralen for historiske data i Troms.
2.5 Norsk folkemusikksamling
Folkemusikksamlingen har kommet svært langt i arbeidet med å dataregistrere sine registre. Folkemusikksamlingen deltar i et prosjekt for katalogstandard for databehandling av folkemusikksamlingene i Norge. Selve katalogdataene ved samlingen i Oslo er på ca. 40 000 kort, hvorav mesteparten er registrert.
Materialet som skal dataføres, representerer både direkte og indirekte informasjon. Informasjonen i de leksikografiske dataene er direkte i den forstand at den ikke henviser til gjenstander, men er interessant i kraft av sin tekstlige representasjon. Informasjonen i Oldsaksamlingens arkiver og kataloger er indirekte idet denne gir brukeren informasjon om fysiske gjenstandssamlinger.
Disse gjenstandssamlingene har et meget stort forskningspotensiale. Men som for alle store gjenstandssamlinger er det vanskelig å ha en fullstendig oversikt. Ved å legge opp registrene som databaser vil en få vesentlig bedre tilgang til og oversikt over dette materialet. Databasene vil via de internasjonale datanettene også kunne brukes av forskere ellers i Norden så vel som i resten av verden.
Tilsvarende vil katalogopplysningene til Norsk folkemusikksamling ha stor nytte for folkemusikkforskere, (hovedfags-) studenter og lokalhistorikere. Videre vil utøvere av folkemusikk samt utøvere, komponister innen andre genrer ha nytte av dem. Lokale folkemusikkarkiv knyttet til spelemannslag, muser og bibliotek, vil ha store fordeler av en slik database. Noe av det samme gjelder for etnologi og folkloristikk. Dersom avdelingenes arkiver og registre blir tilgjengelige som elektroniske databaser, vil dette åpne arkivene på en helt ny måte. En slik database vil være enestående i sitt slag og være interessant for folklorister, etnologer og alle andre som måtte være interessert norsk folkekultur.
Databasene vil også være aktuelle for kulturelt og historisk arbeid på det lokale plan, lokalarkiv og for bygdebokprosjekter med gårds- og brukerhistorie. Slike databaser vil også kunne hjelpe kulturadministrasjonen i kommuner, fylker og stat. Men også annen offentlig virksomhet vil direkte nyte godt av databasene. Statens navnekonsulenttjeneste har til nå vært knyttet til Avdeling for navnegransking ved Universitet i Oslo, men blir fra 1. juli 1991 desentralisert. I tillegg til i Oslo blir det konsulenttjenester i Bergen, Trondheim og Tromsø. Denne omorganiseringen skaper et stort behov for en felles database som er søkbar for alle de regionale tjenestene. I tillegg vil en slik database kunne kobles mot de såkalte GAB-registrene (grunn- adresse- og bygningsregistre), Universitetets database over faste fornminner (se nedenfor) og den vedtatte databasen ved Statens kartverk over navn på kart. En slik kobling vil kunne effektivisere det statlige og kommunale planarbeidet, jvf. Lov om kulturminnevern.
Oldsaksamlingens database for fredede faste fornminner danner grunnlaget for all planbehandling i kommuner og fylkeskommuner og for annen virksomhet som medfører inngripen i terrenget, e.g. kraftverk og flyplasser. I denne forbindelse er det også meget viktig å ha tilgang til oversikter over løse fornminner inkludert oldsaker og mynter funnet i Norge. Funn av slike gjenstander indikerer ofte at det er eller har vært faste fornminner (boplasser o.l.) i funnområdet. Riksantikvaren, fylkeskommunene og Oldsaksamlingen har alle et forvaltningsansvar etter Kulturminneloven og er dermed avhengige av tilgang til disse opplysningene.
Aktualiteten av opplysningene i Oldsaksamlingens registre illustreres ved at det nå er reist krav fra Miljøverndepartementet om at registret over faste fornminner skal kunne knyttes opp mot det såkalte GAB- registret (grunn-, adresse- og bygningsregistret). Dette registret er i dag lagt opp som databaser ved kommunedatasentralene. Utformingen av en slik forbindelse er en naturlig del av dokumentasjonsprosjektet og bør løses i samarbeid med Riksantikvaren.
Hva er så hensikten med å gjøre de store leksikografiske samlingene elektronisk tilgjengelige, dvs. legge dem opp som databaser? I de senere tiår har det vært en eksplosiv utvikling av kommunikasjonsmidler, både for mennesker og informasjon. Vi lever derfor i en verden hvor landene knyttes sammen med stadig tettere bånd. Dette øker behovet for språklig referanselitteratur generelt og ordbøker spesielt. Den økte reise- og informasjonsutvekslingen over landegrensene gir seg utslag i et økt forbruk av slik litteratur, men også i et sterkere behov for stadig ajourførte verker.
De nasjonale ordsamlingene ved Universitetet i Oslo utgjør et viktig bakgrunnsmateriale for enhver ordbok som omhandler eller innbefatter det norske språket. En elektronisk database over disse samlingene vil bidra til å effektivisere dette arbeidet og muliggjøre utgivelse av flere typer ordbøker og dermed styrke det norske språket mot den stadig mer aggressive påvirkningen utenfra.
Dette bringer oss over til den kanskje viktigste effekten av å gjøre ordsamlingene elektronisk tilgjengelige. I løpet av de siste fem årene er en stor del av skrivemaskinene i både offentlig virksomhet og i næringslivet erstattet av personlige datamaskiner og elektroniske dokumentbehandlingssystemer av ymse slag. Denne utviklingen har knapt bidratt til papirløse kontor, men har i alle fall økt flommen av dokumenter i Norge så vel som i utlandet. Det viktige er imidlertid her at de fleste dokumenter og brev nå produseres ved hjelp av elektroniske tekst- behandlingssystemer. De fleste slike systemer er laget for å understøtte innskriveren språklig; de kan inneholde funksjoner for ordretting, oversettelsesstøtte og skrivestøtte generelt. Ulempen er at de i sin opprinnelse er engelskspråklige og gjerne har mangelfullt utviklede funksjoner for norske brukere. Utvikling av slike skrivestøtteprogrammer og -funksjoner kan sammenliknes med utvikling og redigering av ordbøker og annen referanselitteratur, men krever i tillegg omfattende elektroniske ord- og betydningsdatabaser.
Dersom Norge skal kunne delta i internasjonale språkprosjekter, er det absolutt nødvendig at det finnes uttømmende og elektronisk tilgjengelige databaser over det norske ordtilfanget. Hvis ikke, er det et smertelig faktum at vi i det internasjonale miljø rett og slett vil bli oversett, med de katastrofale følger det vil ha for Norge som språkkulturelt samfunn. Denne problematikken blir særlig aktualisert av den sterkere tilknytningen av Norge til EF som synes å være forestående.
Som det fremgår av beskrivelsen av ordsamlingene, inneholder mange sedler utfyllende opplysninger om oppslagsordets bruk. Disse opplysningene gir samtidig et innblikk i den lokale kultur ordene brukes eller er blitt brukt i. På denne måten gir ordsamlingene mange og viktige opplysninger om norsk kultur og væremåte. Allerede i dag brukes sedlene som kilde for opplysninger om ulike emner innen folkeminne, etnografi, lokalhistorie osv. Men i dag er et slikt arbeid møysommelig, idet oppslagsordene er den eneste inngangen til materialet. Ved å legge ordsamlingene opp som en database vil man nærmest som en bivirkning få åpnet denne skattekisten full av informasjon om norsk folkekultur.
Som det fremgår av arkivoversikten er det mange og forskjelligartede arkiver og registre ved HF-fakultetet. Samlet representerer disse enorme datamengder, ca. 11-12 millioner kort og dokumenter. Innskrivning og annen dataregistrering vil derfor måtte være et stort løft. Antall nødvendige årsverk vil avhenge av ambisjonsnivået, både når det gjelder grad av nøyaktighet og grad av kompletthet. Her må det understrekes at det er uaktuelt å gå på akkord med nøyaktigheten, idet dette vil gjøre alle språkarkivene verdiløse. Den regulerende faktor er altså hvor mye av materialet som skal skrives inn eller registreres på annen måte (avfotograferes, leses optisk).
Registreringen av data kan deles i to, innskrivning og innskanning av tekstlig materiale, og avfotografering av dokumenter og gjenstander. Innskrivningsdelen av prosjektet anslått til omlag 600 årsverk, heri medregnet korrektur og kvalitetskontroll. Det store innskrivningsarbeidet er tenkt utført av personer lønnet via sysselsettingsmidler. Faglig tilrettelegging, kvalitetskontroll og korrektur er tenkt gjort av hovedfagsstudenter og ferdige kandidater engasjert som vitenskapelige assistenter. Universitetets erfaring med bruk av arbeidskraft finansiert via sysselsettingsmidler, har gitt tommelfingerregelen "ett årsverk investert gir maks. fem årsverk i produksjon". Vi går derfor ut fra forholdet n vitenskapelige assistent for hver fjerde sysselsettingsansatt i de følgende beregningene.
I kostnadstabellen under er hver vitenskapelig assistent-stilling kostnadsberegnet til brutto kroner 240 000. Hvert av de ufaglærte årsverkene er satt til 1500 timer. Et normalt årsverk er drøye 1700. Timeantallet er redusert, idet Universitetet bare skal betale for netto produksjon. Dette gir følgende pris for en vitenskapelig assistent-årsenhet:
4 ufaglærte á kr. 45 000, | kr. 180 000 |
1 vitenskapelig assistent, | kr. 240 000 |
Pris pr. enhet, | kr. 420 000 |
Den totale arbeidsmengden er beregnet til 612 årsverk, eller 122 enheter pluss to løse ufaglærte årsverk. Dette gir en totalkostnad på 51 780 millioner kroner (i 1990 kroner) for innskrivningen, hvorav ca. 60% er lønn til vitenskapelige assistenter og 40% er utgifter til de sysselsatte. Men man skal være klar over at disse 40% dekker 80% av arbeidet.
I begynnelsen av prosjektet vil innskrivningen foregå lokalt, i eller i nærheten av fagmiljøene, slik at man kan høste erfaring og se hvor stor innskrivningskapasitet det er mulig å bygge opp. Det er for 1991 bevilget midler til fire slike vitenskapelig assistent-enheter. Disse skal brukes i de leksikografiske avdelingene og i Oldsaksamlingen. På sikt kan innskrivningen flyttes til lokalmiljøer andre steder i landet. En registrering av slike datamengder det her er snakk om, er en formiddabel oppgave. Det er viktig å respektere det faktum at det krever erfaring og kunnskap å få en slik innskrivning/registrering til å fungere.
Prosjektet har ingen ambisjoner om å utvikle all programvaren selv. Dette ville være et høyst urealistisk mål. Men selv om mye kan kjøpes i butikken, må det foretas vurdering ut fra og tilpassing til prosjektets behov. Prosjektet består derfor dels i tilrettelegging av eksisterende metoder, men innebærer også nyutvikling av metoder og har således en klar forskningsmessig karakter.
5.1 Datamessige løsninger
Ved de ulike avdelingene er det i bruk fire forskjellige databaseverktøy for PC (dBaseIII, ISIS, DataEase, 4th Dimenstion. FELTED). Videre er to ulike ikke-PC verktøy i bruk (SIFT, TRIP). En overordnet målsetning med dokumentasjonsprosjektet er å gjøre de ulike arkivene allment tilgjengelige i en nettverksløsning. Det sier seg selv at de enkelte avdelingenes løsninger må samordnes i en helt annen grad enn tilfelle er i dag. Det er imidlertid viktig å velge en løsning som gir størst mulig fleksibilitet.
Den tradisjonelle løsningen er en sentral(istisk) database. Alle arkivene administreres av n maskin, og databaseprogrammet som administrerer brukerne, deres søk og oppdateringer, kjøres på denne maskinen. Fordelen ved en slik løsning er at den er enkel, velprøvd og at det finnes ferdiglagede databaseverktøy basert på den. Fulltekstsystemet SIFT er foreløpig basert på denne løsningen.
Ulempene er imidlertid store. I en slik løsning vil databasemaskinens kapasitet være en eventuell flaskehals. De miljøer som har egne maskiner, kan da bare bruke disse som terminaler mot databasemaskinen. Den lokale datakraft brukes altså bare til å få brukerens maskin til å oppføre seg som en terminal. Rapportgenerering o.l. blir derimot belastet den sentrale maskinen. Dette vil også føre til økt nettrafikk, idet ikke bare data, men også skjermbilder må overføres via nettet. Løsningen strider mot tendensen mot stadig mer distribuert databehandling. Den sentrale databaseløsningen beskrevet over, er tradisjonell og noe gammeldags. I de senere år er løsninger med distribuert prosessering, dvs. at ulike maskiner gjør ulike deler av en oppgave, blitt stadig mer utbredt og er avgjort de løsninger som vil bli brukt i årene som kommer. Slike løsninger baserer seg ofte på den såkalte klient/tjener-modellen.
Dette er en relativt ny metode og det er derfor rimelig å bruke noe plass for å forklare den med et enkelt databaseeksempel. Klient/tjener-modellen. I tradisjonelle oppsett sitter brukeren ved en terminal og skriver sine data ved hjelp av tastaturet. Tegnene blir sendt til maskinen og behandlet. Maskinen sender så tegn tilbake til skjermen. For brukere som fra sin PC benytter de sentrale maskinene ved Universitetets sentrale edb-senter, (USE), betyr dette at PC-en sender hvert tegn de skriver over nettet og mottar over nettet alle tegn som skal skrives ut på brukerens skjerm. Ved bruk av tekstbehandlingssystemer, databaseprogrammer og andre programmer som ofte forandrer hele skjermbilder, er det store datamengder som må overføres over nettet. Klient/tjener-modellen er en løsning for å få redusert denne unyttige trafikken. For et databasesystem er iden den at det i databasemaskinen og i den lokale maskinen (f.eks. en PC) er installert programmer som kommuniserer med hverandre. I den sentrale maskinen virker den delen av databaseprogrammet som foretar søk i og administrasjon av databasen. Dette er tjenerprogrammet. I brukermaskinen kjøres den delen som tar seg av skjermbilder og annen presentasjon av data. Dette er klientprogrammet. Grovt sagt kommuniserer de to delene ved at klientprogrammet sender beskjeder til tjenerprogrammet og får data og beskjeder tilbake. Trafikken over nettet og belastningen på den sentrale maskinen reduseres dermed dramatisk.
Skissen ovenfor representerer en enkel situasjon med en tjener og en klient. Modellen kan godt utvides til flere tjenere og flere klienter eller mer likeverdige partnere. Det viktigste her er å gi leserene en id av hva såkalt distribuert databehandling innebærer.
Dette setter visse krav til databaseverktøyet, men vil samtidig øke fleksibiliteten i systemet. For å utnytte lokalitetsprinsippet bør fagmiljøenes data lagres på filtjenermaskiner i de enkelte miljøenes lokale nettverk. Sikkerhetskopiering ("backup") foretas over nettet av USE. Dette er altså en distribuert plassering av dataene. Men det betyr ikke nødvendigvis at en får en såkalt distribuert database. Uttrykket "distribuert database" forekommer ofte i faglitteratur og i ymse datadiskusjoner der det ofte brukes uklart eller direkte feilaktig. Det er derfor på sin plass å utdype dette begrepet noe.
Med en database mener man gjerne data organisert etter en gitt logisk modell. Dataene kan godt være lagret i separate filer på separate platelager ("disker"). Søking og oppdatering vil foregå i henhold til den definerte logiske modellen. En distribuert database er en database der ikke bare dataene kan være lagret ulike steder, men hvor også søkeprogram og andre databaseadministrerende program er spredt rundt på ulike maskiner. Databasesystemet er altså bygget opp av separate enheter som kommuniserer seg i mellom. Men hele datasamlingen er organisert i henhold til en felles logisk modell. For brukere av systemet virker det som en enkelt enhet. Det vil altså være mulig å stille spørsmål som Skriv ut navnet på alle gårder i kommuner der det er funnet greske mynter og er innsamlet eventyr med orientalske temaer. Dette konkrete spørsmålet er noe søkt, men det illustrerer bredden i en slik base. En slik mulighet er selvfølgelig også til stede om alle arkivene legges opp som n database på en enkelt maskin. Men styrken ved en distribuert databaseløsning ligger også i at selv om en del stopper, kan resten fungere. Siden de fleste henvendelser vil være av lokal art, vil en slik lokal stans kun ha en lokal virkning. Videre vil dette lokalitetsprinsippet redusere nettrafikken.
Det er likevel lite realistisk å tenke seg å legge de ulike HF-arkivene opp som en samlet distribuert database i overskuelig fremtid. Hovedgrunnen er at det finnes svært få kommersielt tilgjengelige programsystemer for konstruksjon av distribuerte databaser. De som finnes, er beregnet på standard arkivsystemer og dekker ikke HF-arkivenes behov for søking i fritekst.
5.2 Datateknisk status for prosjektet
I dokumentasjonsprosjektet har vi foreløpig valgt en kombinasjon av den sentrale løsningen og en distribuert løsning basert på klient/tjener-modellen. Det er som en start anskaffet en filtjener, en Decstation 5000/200 med 2 Gigabyte platelager, tilknyttet Universitetets stamnett. På denne maskinen er det lagt opp fritekstsystemet SIFT og relasjonsdatabasesystemet INGRES. SIFT vil i første omgang bli brukt til Oldsaksamlingens arkiver og INGRES til ordarkivene og Folkemusikksamlingens databaser. SIFT-databasene vil fungere etter den tradisjonelle sentrale modellen, mens INGRES-databasene vil bli lagt opp etter klient/tjener modellen.
Den innkjøpte maskinen er meget kraftig og de innskrevne dataene vil bli lagt på denne så langt kapasiteten rekker. Hvor lenge dette varer, vil avhenge av innskrivningstakten, men også av hvorvidt det senere kjøpes inn arbeidsplassmaskiner som trenger en slik maskin som filtjener.
For tiden arbeides det med å med å modellere en databaseløsning for nynorsk- og for gammelnorskarkivet i INGRES. For gammelnorskavdelingen vil vi prøve å kombinere relasjonsdatabasen med et kanadisk fulltekstsøkeprogram (PAT) utviklet i forbindelse med den elektroniske utgaven av Oxford English Dictionary, Oxford University Press. For begge disse arkivene vil det bli laget en klient/tjener-løsning slik at Macintosh-brukerne ved de to avdelingene vil få et grensesnitt i Hypercard.
Som demonstrasjonsprogram vil vi også legge opp en interaktiv versjon av Landbruksordboka og bokmålsavdelingens nyordregister.
Parallelt med at innskrivningen starter, vil vi fortsette utviklingen av ryggraden til det samlede arkivsystemet. Dette blir bygd på UNIX-baserte filtjenere knyttet til Universitetets nett etter tjener/ klient-modellen som er beskrevet tidligere. Presentasjonssiden skal baseres på X-windows. I tillegg skal det lages klientprogrammer som kan stå som mellomledd mellom systemet og sluttbrukersystemer som ikke bruker X-windows, f.eks. Hypercard e.l.
Målet med dokumentasjonsprosjektet er å øke tilgjengeligheten til HF-fakultetets arkiver ved å overføre disse til moderne lagringsmedier. Innskrivningen og annen registrering er beregnet til å ta seks år. Utviklingen på både maskinvare- og programvaresiden er uhyre rask, og prisene går stadig ned. I løpet av innskrivningstiden vil tilbudet av dataløsninger ha utviklet seg enormt. Det er derfor viktig ikke å ha for store ambisjoner om utvikling av egen programvare, men i størst mulig grad benytte seg av tilgjengelig "hyllevare". Men det er også viktig å unngå å kjøpe omfattende og dyre ferdiglagde løsninger som etter kort tid kan virke som en tvangstrøye.
Konklusjonen er at innskrivningen og registringen må foregå slik at all ønskelig informasjon i originalmaterialet blir bevart. Med en gang arkivmaterialet er gjort maskinleselig, er presentasjons- og organisasjonsmulighetene legio.
Rapporten Dokumentasjonsprosjektet ved Det historisk-filosofiske fakultet, Universitetet i Oslo gir en utførlig beskrivelse av prosjektet og fås ved henvendelse til Chr.-E. Ore, Inst. for lingv. og filosofi, Boks 1102 Blindern, 0317 Oslo.